视频生成赛道内卷成风_ZAKER新闻

访客 2024-08-19 12:31:44 89942 抢沙发

默认

图片来源：视觉中国

蓝鲸新闻 8 月 19 日讯（记者朱俊熹）今年 2 月，一段短视频在全网爆红：熙熙攘攘的东京街头，一位戴着墨镜的时尚女性正缓步行走，身后是炫目的霓虹灯——一句话就可描述完视频的内容，但里面的人物表情、环境光照都极为真实，如果不逐帧细看，很难分辨出这其实并非实拍视频，而是人工智能明星公司 OpenAI，用其视频生成模型 Sora 生成的 AI 视频示例。

OpenAI 在 2022 年底通过发布 ChatGPT 掀起了此轮 AI 浪潮，而今年年初发布的包括东京女性在内的这几段 AI 视频，不仅在时长上倍超其他已有模型，视频质量也实现了飞跃。但直到如今，曾震撼业界的视频生成模型 Sora 仍处于期货状态，未向公众开放。

然而，其他 AI 公司和科技界从业者们看到了 OpenAI 探索出的道路，在无穷的想象空间面前，它们决定立刻躬身如今到视频生成模型的潮水中。在这半年时间内，多家公司开始奋起直追，纷纷发布基于各自优势的视频生成模型，以填补 Sora 的空位。

国外方面，Runway、Luma AI 等一批初创企业均推出了最新的视频生成模型，并全面开放给所有用户。在国内，字节跳动旗下文生视频产品 " 即梦 AI" 8 月上架苹果和安卓应用商店；快手在更早的 6 月就推出了可灵视频生成大模型，上线两个月总申请人数超百万；智谱 AI、生数科技、爱诗科技等创企也都在上个月集中发布了自己的 AI 视频大模型。

AI 生成的视频简单、快速、便宜，这一愿景似乎不再可望不可及。

但第一批使用 AI 生成视频的用户很快也发现，目前的实际体验与理想中的一键生成仍有较远差距。对已经押注 AI 视频模型的科技巨头、初创企业来说，虽然未来将导向怎样的商业化路径还不明确，但仍然前仆后继地加入了这条赛道。

先入局，对 AI 公司而言或许更重要。

理想和现实的差距

自打 Sora 开了个头，每当新的视频生成模型面世时，" 效果炸裂 "、" 颠覆行业 " 等媒体标签总是紧随其后。但在 AI 视频创作者 Ryan 看来，距离视频模型完全取代人力还 " 差得十万八千里远 "。Ryan 的本职工作是一位摄影师，他发现用 AI 制作视频很难完全实现实拍的效果，最主要的问题就在于无法精准控制。

Ryan 告诉蓝鲸新闻，在理想状态下，视频生成模型应当具有良好的可控性。这体现在许多方面，首先是人物的可控性，其动作和表情能够符合创作者的要求。其次是镜头运动的可控性，视频模型可以识别专业的镜头语言描述，根据创作者想要的角度进行变换。但现有视频生成模型在这些方面仍存在局限。

而正因为无法精准控制，要想得到相对满意的视频画面，创作者们需要不断地 " 抽卡 "，让 AI 根据提示词随机生成相关画面，就像在游戏中抽取卡牌一样。每段视频需要的 " 抽卡 " 次数并不确定，Ryan 通常会抽 20 到 30 遍。以快手可灵为例，每生成一个 5 秒的视频，用户需要在电脑前等待 3 分钟，然后根据生成效果来调整提示词，再等待 3 分钟，如此循环，这个过程会耗费大量时间。

7 月，智谱 AI CEO 张鹏在发布 AI 生成视频模型 " 清影 " 时曾表示，生成视频的可控性强烈依赖于模型能否准确理解指令。将来绝大部分视频生成内容都是由人类通过语言控制的，如何从文字或简图转换为视频语言，实现真正的可控，是技术层面的事情。

全职从事 AI 视频创作的秋和告诉蓝鲸新闻，在商用 AI 视频的制作过程中，视频生成模型发挥的作用有限，主要用于生成视频素材。但脚本创作、人物设计、声音特效、剪辑等其他环节依然高度依赖人力，以及 PS、AE 等传统工具。

今年以来涌现的视频生成模型无疑为创作者提供了更多的选择。除快手可灵支持生成 2 分钟视频外，其他视频模型的生成时长大多在 30 秒内。秋和表示，不会局限于只使用某一个模型，一般会将不同模型生成的片段组合起来。" 效果优先，每家模型各有所长，要根据自己的需求来选择工具。"

在表现中国风方面，创作者大多反映国内模型的效果要优于 Runway Gen-3 Alpha 等国外模型。生数科技在推出 Vidu 时表示，作为中国自研的视频大模型，它能够理解中国元素，生成熊猫、龙等特有的画面。背靠快手的可灵在处理人物表情，以及生成与吃有关的画面时表现突出。6 月可灵还推出了 " 复活老照片 " 等项目，因赋予原本静态的人物惟妙惟肖的表情，迅速积累了较高的热度。

但各个视频模型各有所长，没有哪家拥有绝对优势。秋和此前需要生成一些宏大的黑白场景，以鸟瞰的镜头呈现车水马龙的街道。但多数模型的结果都不尽人意，会出现人物畸变或无中生有，最后她发现刚上线的智谱清影效果是最优的。而据智谱 AI 此前介绍，其视频训练数据除了来自公开的数据集外，还来源于电视台、影视公司、视频平台等合作伙伴。

" 这些可能跟各公司在训练时的数据占比有关。数据的数量、质量和分类，都会影响到不同模型擅长的能力不同。" 秋和表示。

商业前景忽明忽暗

尽管 AI 视频生成模型距离理想状态还有很远，一些 AI 创作者们却已经发现了这个新兴风口中的商机。

秋和最初是在社交媒体上分享自己的 AI 作品，渐渐就有企业带着商单找来，想让她用 AI 制作商品广告片或行业宣传片。

秋和认为，对这些 B 端客户而言，AI 视频既是吸引流量的噱头，通过眩目的画面博人眼球，同时也能够降本增效。以多地推出的 AI 文旅宣传片为例，实地拍摄耗时耗力，还受限于天气、光线等环境条件。而借助 AI 技术，只需要几张当地的照片素材，秋和曾经最快只用 4 天的时间就能完成一条高质量的片子。

AI 视频创作者一旦有了订单和收益，就有动力去选择性能更优的视频生成模型，并愿意为之付费。

和绝大部分仍免费的 C 端 AI 智能助理产品不同，许多视频模型产品由于成本巨大，在上线后不久就跟进了付费模式。可灵、即梦、Vidu 等都推出了会员订阅模式，每月费用在 30 多元到 700 多元不等，可享有无水印、优先体验新功能等服务。智谱清影依然支持不限次数的免费使用，同时推出了付费加速服务，花费 5 元即可解锁一天的高速权益，缩短等待时间。

图片来源：快手官方

但相较于这些公司投入到视频生成模型上的巨额成本，这些收费不过九牛一毛。据投资机构 Factorial Funds 估算，Sora 在训练环节就需要大量计算能力，一个月需要 4200 到 10500 块英伟达 H100 GPU。到了应用层面，视频模型的推理成本更是会比大语言模型高出多个数量级，且随着视频模型的广泛部署，推理计算消耗将多于训练计算消耗。假设 TikTok、YouTube 等平台大量采用 AI 视频生成，推理阶段的计算峰值需求将达约 72 万块英伟达 H100 GPU，相当于英伟达预估 2024 年全年产能的一半。

高昂的成本可能也是 Sora 尚未向公众开放的原因。OpenAI 首席技术官 Mira Murati 3 月在接受采访时表示，Sora 的运行成本要比现有的生成式 AI 系统贵得多，公司希望能将其成本压缩至接近文生图模型 DALL-E 才对外发布。硅谷科技媒体 The Information 此前报道称，OpenAI 今年或将面临 50 亿美元的亏损。

与大语言模型一样，To B 是另一种商业路径，尽管也并未验证成功。智谱 AI 在推出清影时，将其 API 同步上线到大模型开放平台，供企业和开发者调用。Vidu 在官方网站上提供了 API 内测申请，称正在寻找第一批种子用户来测试 API 服务的稳定性，" 以便更快向全部开发者推出。" 另一 AI 视频创企爱诗科技则表示要聚焦 C 端，而字节即梦和快手可灵都未对外提供 API。有接近快手人士曾向媒体透露，可灵目前暂无商业化计划。

智谱 AI CEO 张鹏在清影发布时坦承道，" 从现在这个阶段来说，无论是 To C 还是 To B，纯粹走向大规模商业化还比较早期。" 他表示，智谱同时面向 C 端和 B 端开放视频模型，是想看市场和用户的反馈，后期再及时调整。考虑到生成视频的高成本，能 " 稍稍收回来一点点也是好事 "。

但用户并未做好为视频生成模型付费的准备。快手可灵刚发布时因其免费内测吸引了很多创作者，但一位 AI 创作者小鹿告诉蓝鲸新闻，一个月之后，可灵突然要收费了，" 官方群里都炸了，都出来骂 "。随后，一些用户发现可灵国际版还未收费，于是不断地用新邮箱注册可灵国际版，每天换着账号领积分，来免费使用可灵做 AI 视频。

" 你觉得合理吗？平台如果全靠订阅来收费，绝对亏本。"小鹿说。

不管结果如何，先入场再说

AI 浪潮发展至今，FOMO（Fear of Missing Out）的情绪已经裹挟着整个科技行业，无论是巨头、创企还是投资者。玩家们害怕的不只是失去当下的良机，更是将来的领先优势。

东吴证券 8 月发布的一份研究报告指出，在这场视频生成技术竞赛中，互联网大厂很可能将继续扮演引领者的角色。分析师表示，视频生成模型的核心竞争要素依然在于数据、场景和用户。其中，数据是训练高质量模型的关键，而场景决定了产品的市场适应性和商业潜力，互联网大厂在这三个维度均占优势。

这与行业内的意见一致。智谱 AI CEO 张鹏曾表示，视频生成高度依赖于数据，智谱 AI 虽然在文字数据方面积累了多年时间，但视频数据是这几年才起步的。他解释称，对视频数据的质量要求极高，并不是在短视频网站上随便抓取就能进行训练，还要对数据进行清洗、筛选，配上相应的字幕和描述。

快手可灵在推出后获得较多好评与较高热度也与训练数据丰富有关系。一位快手数据团队成员此前告诉科技媒体 " 硅星人 Pro"，快手植根视频领域多年，最大的优势就在，" 数据都被‘洗’得很干净，整整齐齐地放在那里，做模型的时候可以直接拿过来用。"

快手视觉生成与互动中心负责人万鹏飞在一场活动中介绍称，为确保可灵训练数据的质量，快手通过高度自动化的视频数据平台和精细的视频标签体系，筛掉那些不合适、低质、不符合要求的数据。

目前，激战多年的抖音和快手已然相遇在 AI 视频模型的新战场上，双方都密切关注着这条与其主营业务生态息息相关的赛道。据硅星人 Pro 此前报道，快手将可灵视为公司战略级项目，快手创始人兼首席执行官程一笑曾亲自发话 " 可灵要大做 "，高级副总裁盖坤也表示公司将全力支持可灵，包括提供充分的 GPU 芯片。而字节内部将 AI 大模型设为集团最高优先级的 P0 级别，抖音、剪映等内部多个团队都在研发 AI 视频模型应用。

创作者小鹿向蓝鲸新闻分析道，在大模型落地方面，大厂的常见策略是从内部做起，将 AI 接入原有业务。他认为，抖音即梦、快手可灵这样的 AI 视频应用首先可以作为公司前端的技术展示，更重要的是如何将视频生成模型嵌入到已有的业务中，如抖音、快手的内容或电商生态。这样即便无法直接通过 AI 应用直接实现盈利，" 整体能把账算平就可以了 "。

对视频生成领域的初创企业而言，从大厂中突围或许难度重重，但他们仍然保有希望。爱诗科技创始人兼 CEO 王长虎曾担任字节跳动视觉技术负责人，参与了抖音、TikTok 等产品及字节视觉大模型的建设。在 Sora 发布前一年，王长虎决定离开大厂开始创业，聚焦于 AI 视觉领域，并推出了 PixVerse 视频生成产品。

今年 6 月，王长虎在与科技媒体极客公园的对谈中坦言，没有人能在一开始就回答视频生成最终将导向工具还是平台。" 谁不想做成平台？如果前面有两条路、两个机会，一个是工具剪映，一个是平台抖音，我想很多人都会选抖音。"

王长虎回溯了抖音和快手的崛起历程，指出它们早期都只是工具。但在移动互联网时代下，内容生成方式、人与信息的交互方式发生了变革，推动抖音和快手成长为成功的平台。而 AI 技术同样会为这两个层面带来升级，因此他判断在 AIGC 时代也存在平台性的机会，只是无法确定具体是什么。" 打败微信的一定不会是另外一个微信，可能是从另一个赛道来的东西。"王长虎称。

而视频生成模型的竞赛也不过才刚刚打响了发令枪，谁都有机会成功，但同样地，没有人能保证自己一定会活到最后。无论大厂还是创业公司，现在能做的，就是先入场，以后的事以后再说。

标签：视频模型