字节、快手,两位短视频巨头在 AI 领域里迎来了正面交锋。
11 月 8 日,字节跳动旗下的 AI 内容平台即梦 AI 宣布,由字节跳动自研的视频生成模型 Seaweed 面向平台用户正式开放。
据字节方面介绍,本次开放使用的豆包视频生成模型 Seaweed 是该款模型的标准版,仅需 60 秒即能生成时长 5 秒的高质量 AI 视频,领先国内业界 3 至 5 分钟的所需生成时间。
《每日经济新闻》记者在对即梦、可灵的初代版本和最新版本进行实测时也发现,迭代后,两款产品在视频生成效果上均有多方面、不同程度的提升,可灵在空间布局和画面细节呈现上更为准确,且对生成内容效果的调节更具灵活性、便捷性;而即梦在生成时长和视频风格上有优势。
一位大模型技术人员向《每日经济新闻》记者表示,视频生成模型要实现生产内容的不同 " 画风 " 是很难做的," 技术之外,还主要看数据源的丰富程度 "。
当短视频进入 AI 时代,字节和快手两员猛将下场,谁将拔得头筹?
初代 VS 迭代:半年时间,即梦、可灵更新了什么?
伴随字节自研视频生成模型 Seaweed 开放使用,国内视频生成模型大比拼里最具看点的一对——即梦、可灵终于正式交手。
它们都承载着理解物理世界,在衍生 " 真实 " 的同时尽可能放大想象的 "AI 造梦计划 ",但对于自身而言,即梦和可灵也都肩负字节和快手又一番商业化前景开拓的重任。
事实上,即梦与可灵都在短短不到一年的时间,完成了数次迭代。即梦 3 月底开启视频生成功能内测,半年后,字节发布了豆包模型家族的两款视频生成模型 Seaweed 和 Pixeldance,并通过即梦 AI、火山引擎小范围邀测,至如今 Seaweed 面向平台用户正式开放。
工信部信息通信经济专家委员会委员盘和林向《每日经济新闻》记者表示,即梦使用的新模型生成速度有所提升,给用户的生成体验更好了," 即梦 AI 目前在国内生成领域,还是比较领先的 "。
可灵在 6 月 " 出生 " 后一鸣惊人,发布至今经历了十余次更新,包括发布图生视频功能以及 1.5 模型的上线等重要更新。截至目前,可灵拥有超过 360 万用户,累计生成 3700 万个视频,并在近期正式上架独立 App(应用软件)。
《每日经济新闻》记者选取了 OpenAI 官方公布的 5 条 Sora 视频提示词(东京街头的女士、太空人、无人机视角的海岸、3D 动画的小怪物、云端读书的年轻人)分别测试即梦和可灵的初代版本和最新版本,纵向对比两个视频生成模型的视频效果。
对比即梦最初版本和最新版本生产的视频效果后,我们发现,即梦有两部分更新较为明显:一个是在动态的 " 人事物 " 表现上,动作的捕捉和连贯性均有较为明显的提升;另一个是画面风格的差异化呈现也有比较大的进步。
以 " 东京街头的女士 " 为例,初代即梦塑造的人物动作僵硬,特别是在腿部、脚部动作的捕捉上,整体呈现的效果是模糊和扭曲的。迭代后的新版即梦,人物动作自然流畅,脚部动态的细节处理更清晰、更符合真实世界的逻辑。
从画面风格的差异化上看,版本更新后的即梦画风区分度更高,无论对真实世界画面,还是超现实画面的描述上,都做出了不同风格呈现。
这一点在 " 云端读书的年轻人 " 视频生成的效果上对比明显。初代即梦将这一超现实画面做了完全动画风格的处理,而新版即梦对人物的呈现更倾向写实风。
初代版本即梦 " 云端读书的年轻人 " 视频截图
新版即梦 " 云端读书的年轻人 " 视频截图
可灵 " 云端读书的年轻人 " 视频截图
" 太空人 " 的视频生成效果也是如此,初代即梦生成的太空人 " 游戏建模 " 感较重,而新版完全写实。
初代可灵和数次迭代后 1.5 模型的可灵,视频生成效果提升更加明显。变化之一就是空间布局和画面细节的呈现更精致。在 " 无人机视角的海岸 " 生成效果上,能够看到在空间布局上,画面更具纵深感,空间布局更加复杂,房屋、马路等细节设置也更丰富。
即梦 PK 可灵:理解、捕捉和想象都有差异
两个模型在迭代后,生成效果都更加稳定,画质也更优,流畅度和细节处理都更经得起推敲。不过,它们在语义理解、关键词捕捉和放大,以及创意想象力和创意相关性的平衡上还是有明显区别。
我们横向对比,将最新版本的即梦与 1.5 模型可灵,对 5 条 Sora 视频提示词(东京街头的女士、太空人、无人机视角的海岸、3D 动画的小怪物、云端读书的年轻人)的呈现进行比拼。
语义的理解和关键词的捕捉,让即梦和可灵的视频呈现有所不同。
在 " 无人机视角的海岸 " 视频中,即梦对提示词中 " 带有灯塔的小岛 " 进行了相对模糊化的处理,而无论是可灵还是 Sora,这一画面的重点都是 " 小岛 "。而在对 " 海岸公路 " 的描述中,即梦的设置并不符合真实世界的逻辑。
即梦 " 无人机视角下的小岛 " 视频截图
可灵 " 无人机视角下的小岛 " 视频截图
而在 " 太空人 " 的视频效果上,即梦对描述中的 " 冒险 " 并未进行描述,再次生成后,手拿咖啡骑着摩托的太空人也忽视了 " 冒险 " 的设定。可灵则通过人物的表情以及运镜强调里 " 冒险 "。不过,即梦和可灵都相对忽视了 " 电影预告片 " 这一设定,对比之下 Sora 的 " 太空人 " 视频更有电影感。
即梦 " 太空人 " 视频截图
可灵 " 太空人 " 视频截图
在 "3D 动画的小怪物 " 视频生成中,即梦的小怪物设定与动画电影《怪物公司》里的角色 " 萨利 " 几乎相同。而提示词中有关小怪物的部分描述,即梦的呈现也相对不甚准确,比如 " 短毛 " 设定的执行。此外,在艺术风格的呈现上,提示词着重强调了 " 光照和纹理 ",即梦的执行弱于可灵。
即梦 " 小怪物 " 视频截图
可灵 " 小怪物 " 视频截图
而在 " 东京街头的女士 " 视频中,即梦在多主体复杂交互的呈现上,效果相对于可灵,表现不佳。无论是对画面主体的 " 女士 " 还是空间描述上都相对准确,但画面中的行人普遍进行了模糊处理,近景中的行人则出现扭曲变形。
即梦 " 东京街头的女士 " 视频截图
可灵 " 东京街头的女士 " 视频截图
不过,即梦 AI 官方透露,近期,Seaweed 和 Pixeldance 两款视频生成模型的 Pro 版也将开放使用。Pro 版模型会对多主体交互以及多拍动作连贯性上进行优化,同时攻克多镜头切换的一致性等难题。
在功能与体验上,经过数轮迭代后的可灵,在生成视频时,有 " 创意想象力和创意相关性 " 参数的调整,因此可以进行平衡调整。对于不希望呈现的内容,可灵也可以设置,比如模糊、拼贴、变形、动画等。生成操作更灵活,效果可调整。
即梦生成视频的操作更加便捷。此外,经测试,即梦视频生成时间更短,Sora 的 5 条提示词的视频生成时间,每条都不超过半分钟。而 1.5 模型的可灵生成 10 秒高质量视频则需要耗时 10 分钟以上。
不过,需要注意的是,上述即梦、可灵生成的视频,均由记者测试生成,不同版本、描述的细节,都会造成视频生成效果的差异。并且,目前 Sora 仍未开放,所生成视频均为官方发布版本,后续开放,用户实际测试效果与官方视频可能存在一定的差异。
AI 视频生成领域混战,何为胜负手?
对于字节、快手这两大短视频巨头而言,要在 AI 视频生成领域中进行较量,对手还远不只彼此。
例如,11 月 8 日,"AI 六小龙 " 之一的智谱对其视频生成工具清影进行了新升级。值得关注的是,升级后的清影支持任意比例的图像生成视频,并且具备多通道生成能力,同一指令或图片可以一次性生成 4 个视频。此外,新清影可以生成与画面匹配的音效,该音效功能将在本月上线公测。
其中已有初露锋芒的玩家出现。
8 月 31 日,MiniMax 发布了其首款 AI 高清视频生成模型技术 abab-video-1,上线首月便捷报频传。MiniMax 官方公众号披露,在视频模型上线海螺 AI 的首月,海螺 AI 网页版访问量增速超 800%,用户覆盖全球超 180 个国家和地区,产品连夺 AI 产品榜(web)9 月全球增速榜和国内增速榜两榜榜首。
北京市社会科学院管理研究所副研究员王鹏向《每日经济新闻》记者指出,目前国内外 AI 视频产品都处于快速发展阶段,国外 Meta、Google 等科技巨头都在积极布局 AI 视频领域;国内方面,快手可灵、即梦 AI 等产品也在不断迭代升级,提升用户体验和商业化能力。
同时,东吴证券在今年 8 月发布的研报也指出了国产 AI 视频大模型的迭代、落地发展之快、竞争之激烈——技术层面,新模型生成时长、分辨率、帧率上快速提升,缩小了与 Sora 之间的差距;产品方面,许多新产品和模型升级面向全体用户开放,部分已应用于微短剧创作,国内公司在用户开放和商业化落地方面进展迅速。
在商业化可能性方面,该份研报中提到,在 AI 渗透率为 15% 的中性假设下,中国 AI 视频生成的行业潜在空间为 3178 亿元;在全 AI 模式下,电影、长剧、动画片和短剧的制作成本,相较传统模式将下降超 95%。
庞大的潜在市场规模和降本增效的 " 超能力 " 也能从可灵的使用数据上窥见一二。
在 10 月举行的 "2024 中国计算机大会 " 上,快手副总裁、大模型团队负责人张迪透露,自今年 6 月发布以来,快手可灵 AI 已有超过 360 万用户,累计生成 3700 万个视频以及超过 1 亿张图片。
盘和林在接受《每日经济新闻》记者采访时表示,可灵背靠快手,拥有流量支持,所以商业化进程很快,"AI 视频产品还是要背靠互联网平台,有流量才有商业潜力 "。
相似的是,字节也将视频模型的商业化放在了任务单前列。在今年 9 月推出两款视频生成模型时,火山引擎总裁谭待曾公开表示,新款豆包视频生成模型 " 从一落地就开始考虑商业化 ",使用领域包括电商营销、动画教育、城市文旅和微剧本。
"AI 视频将在 B 端和 C 端展现出不同的商业化潜力。" 王鹏认为,面向 B 端,AI 视频可以为企业提供更加高效、低成本的视频制作和分发解决方案;在 C 端,AI 视频可以满足用户对个性化、高质量视频内容的需求,还能与电商、广告等行业相结合,实现更加精准的营销和变现。
不过对于商业化,也有如 MiniMax 创始人闫俊杰这般的想法:" 在目前阶段,最重要的东西还不是商业化,是技术能达到广泛‘可用’的程度。" 但毫无疑问的是,在两位短视频巨头下场、初创独角兽 " 另辟蹊径 ",以及不一样的商业化节奏等因素的共同作用下,这场在 AI 视频生成领域的赛跑已越发有看点了。
每日经济新闻
登录后才可以发布评论哦
打开小程序可以发布评论哦