智百道 2小时前
从Sora到可灵,视频AI还没到GPT时刻
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

视频大模型的竞速还在持续。

作为国内视频生成大模型的代表,快手旗下的可灵 AI 近日宣布,其核心产品可灵 O1 正式上线 " 主体库 " 与 " 对比模板 " 两大重要功能,旨在提升 AI 创作的效率与作品展示效果。

但与此同时,在大洋彼岸,OpenAI 旗下的 Sora2,却开始陷入新的困境。

根据 a16z 合伙人前段时间贴出的一组对比,Sora 留存率远不如 TikTok,首日留存率只有 10%,30 天留存率只有 1%。对比来看,TikTok 对应的留存率分别是 50% 和 32%,差距明显。

在 9 月底 OpenAI 正式发布 Sora 2 及独立 App 时,不少预言家当时甚至集体狂欢,"Sora App 将吞噬 TikTok 和 Instagram 上的网红,一场由 AI 主导的视频革命即将到来 "。

OpenAI 自己也说,我们可能迎来视频领域的 GPT-3.5 时刻。

然而,到了 2026 年年末,现实还是比概念更骨感。

在这一轮 AI 泡沫论底层,实际上是资本市场与产业界开始冷静审视这条赛道:所谓的 " 视频 GPT 时刻 " 似乎并未如期而至。相反,高昂的推理成本、难以闭环的商业模式以及尚不稳定的技术表现,正在构成一道道难以逾越的 " 叹息之墙 "。

无论是谷歌被寄予厚望的 Veo,还是曾惊艳全球的 Sora,亦或是国内卷出天际的可灵、即梦,此刻都站在了一个尴尬的十字路口:技术看起来固然很炫酷,但到底谁能真正靠它赚到大钱?

01 模型竞速

时间需要回到 2024 年。

彼时随着 Sora 凭借 60 秒长视频、多角度镜头切换以及惊人的物理世界模拟能力震惊世界后,当年被科技圈定义为 " 视频生成元年 "。

随后 Runway 推出了 Gen-3 Alpha,Luma AI 发布了 Dream Machine,谷歌则在 I/O 大会上祭出了 Veo;而在国内,字节跳动的即梦(Jimeng)、快手的可灵(Kling)、生数科技的 Vidu 等模型如雨后春笋般涌现

这一年的主旋律,无疑是中美两大科技阵营在视频模型上的疯狂竞速。这种竞速不仅体现在发布频率上,更体现在参数规模与生成质量的军备竞赛中。

但很快,这种竞速呈现出一种明显的 " 同质化内卷 " 趋势。现在的视频模型,大多采用了 DiT(Diffusion Transformer)架构,这一架构有效地结合了 Transformer 处理序列数据的能力与 Diffusion 生成高质量图像的能力。

因为技术路径的趋同,各家比拼的焦点迅速转移到了数据质量、上下文长度以及对物理规律的理解上。

以国内战场为例,可灵 AI 的突围极具代表性。依托快手庞大的短视频生态,可灵在视频数据的理解上拥有天然优势,其生成的视频在运动幅度与逻辑连贯性上,一度被评测为 " 最接近 Sora" 的产品之一。而字节跳动的即梦则背靠抖音,在审美风格与运镜语言上更懂 C 端用户的偏好。

但问题是,作为视频模型代表的 Sora, 都正在陷入争议之中。前文提及的留存率,其实只是结果,真正的原因是,号称打造 AI 短视频的 Sora2,其用户体验却非常差。

目前的模型竞速,更像是一场 " 演示片 " 的战争。哪怕是 Sora2 也同样如此。

官方放出的 Demo 往往是百里挑一的结果,而当普通用户上手时,人物肢体扭曲、物体凭空消失、物理逻辑崩坏(如倒出的水往天上流)等 " 抽卡失败 " 的现象比比皆是。这种 "Demo 与实物不符 " 的现状,直接导致了用户体验的断层。

目前的模型能力,虽然已经从 " 不可用 " 跨越到了 " 偶尔惊艳 ",但距离 ChatGPT 那样 " 稳定且通用 " 的 GPT-3.5 时刻,仍有巨大的鸿沟。

大家都在卷时长、卷分辨率,却很少有人能彻底解决 " 可控性 " 这一导演与创作者最在意的核心命题。

02 算力黑洞

如果说模型能力的不足是可以通过时间解决的 " 软伤 ",那么算力成本则是悬在所有视频 AI 公司头顶的 " 达摩克利斯之剑 "。

视频生成是目前所有 AI 模态中,对算力消耗最为恐怖的领域,没有之一。

这不仅是因为视频增加了 " 时间 " 这一维度,导致数据量呈几何级数增长,更因为为了保证视频的连贯性与物理逻辑,模型需要在极短时间内进行海量的推理计算。

我们可以算一笔账。

在文本模态下,ChatGPT 生成一段文字的成本虽然不低,但已经可以通过订阅费覆盖并实现盈利。然而,视频生成的算力需求是文本的成百上千倍。生成一秒钟的高清视频,其所需的 GPU 算力,足以生成数万字的文本或数十张高质量图片。

Sora 之所以采用 " 切片 " 的方式处理视频数据,正是为了在 Transformer 架构下尽可能地压缩计算量,但即便如此,其推理成本依然高得令人咋舌。

这就是 " 算力黑洞 "。

对于谷歌、OpenAI 这样的巨头来说,或许还能通过烧钱来维持战略卡位,利用自身的云服务设施进行内部补贴。但对于 Runway、Luma 以及国内众多创业公司而言,每一帧视频的生成都是在燃烧真金白银。

更可怕的是,视频模型似乎还没有摸到 "Scaling Law"(缩放定律)的边界,或者说,继续 Scaling 的边际收益正在递减,而边际成本却在指数级上升。

为了追求更好的物理模拟效果,模型参数量需要进一步扩大,训练所需的高质量视频数据(如电影级素材、高帧率实拍)却比文本数据更加稀缺且版权复杂。

互联网上虽然有海量视频,但大部分是低质量、高压缩、缺乏标注的 " 垃圾数据 ",清洗和标注这些数据的成本远高于文本。

用户的使用习惯也加剧了这一困境。在 ChatGPT 中,用户输入 Query,得到答案,流程是线性的。而在视频生成中,由于结果的不可控,用户往往需要反复生成、反复修改,就像玩 " 老虎机 " 一样,直到摇出满意的画面。

这意味着,一个最终可用的视频片段背后,可能伴随着十几次甚至几十次的废片生成。这些废片消耗的算力,全部是沉没成本。

目前,无论是国内的可灵、即梦,还是国外的 Sora、Veo,都在面临同一个拷问:这把火到底能烧多久?

如果无法在算力成本与生成效果之间找到一个具备正向经济效益的平衡点,那么视频生成极有可能成为一个 " 叫好不叫座 " 的富人游戏。

在硬件架构出现革命性突破之前,算力瓶颈将死死卡住视频 AI 大规模普及的咽喉。

03 商业困境

其实说到底,技术竞速与算力成本最终都要回归到一个终极问题:商业模式。

为什么 ChatGPT 能迅速成为杀手级应用?因为它直接解决了信息检索、代码编写、文案撰写等具有明确 " 生产力属性 " 的刚需,且交付结果相对确定。

反观视频生成,目前的定位极其模糊。

在 C 端市场,视频 AI 陷入了 " 玩具化 " 的陷阱。绝大多数用户下载 Sora 或可灵,更多是出于猎奇心理。他们生成几个搞怪视频发朋友圈,获得社交货币后,新鲜感便迅速消退。这解释了为什么首日留存率尚可,但 30 天留存率会暴跌至 1%。

对于普通人而言,制作视频并非高频刚需,且目前 AI 视频生成的精细度远未达到替代拍摄的程度,更无法提供 TikTok 那种基于算法推荐的娱乐消费体验。

指望 AI 生成工具去取代 TikTok,在现阶段无异于痴人说梦——一个是生产工具,一个是内容消费平台,两者的底层逻辑截然不同。

在 B 端专业市场,视频 AI 其实同样面临着 " 不可控 " 的致命伤。对于影视制作、广告营销等专业领域,核心诉求是 " 精确控制 " ——导演需要指定角色的微表情、光影的具体走向、物体运动的精确轨迹。

目前的视频大模型,虽然能生成 " 看起来很美 " 的画面,但本质上还是基于概率的 " 抽卡 "。好莱坞大亨泰勒 · 佩里虽然因为看了 Sora 的演示而暂停了影视基地的扩建,但这更多是一种对未来的防御性恐慌,而非当下的实际替代。

真正的影视工作流中,由于 AI 生成内容难以保持角色一致性和场景连续性,导致其目前只能充当 " 动态分镜脚本 " 或 " 灵感参考 ",很难直接输出成品素材。

最后也是最为关键的,还是变现路径的狭窄。

目前主流的商业模式依然是 Sora、Runway 采用的 SaaS 订阅制,即卖点数、卖时长。但在高昂的推理成本面前,这种订阅费往往只能勉强覆盖成本,甚至亏本赚吆喝。如果为了覆盖成本而提高定价,又会将大量中小用户拒之门外,限制了规模效应的形成。

国内市场的情况更为复杂。

可灵、即梦等背靠短视频巨头,它们的算盘或许不是直接卖会员赚钱,而是将 AI 能力融入到自家的短视频生态中,降低创作者门槛,从而维持内容生态的繁荣,最终通过广告和电商变现。

这是一种 " 羊毛出在猪身上 " 的策略。但问题在于,如果 AI 生成的视频内容泛滥且质量参差不齐,反而可能稀释平台的内容质量,导致用户审美疲劳。

从这个角度来看,视频 AI 目前正处于 Gartner 技术成熟度曲线的 " 期望膨胀期 " 顶峰滑落向 " 泡沫破裂谷底期 " 的阶段。

虽然谷歌、OpenAI、快手、字节都在全力以赴,但视频 AI 距离 "GPT 时刻 ",也就是要成为一个低门槛、高可用、全行业通用的基础设施,目前看,无论硅谷还是国内大厂,都还有很长的路要走。

这不仅需要算法层面的突破来解决 " 可控性 " 难题,更需要算力成本的数量级下降,以及一个能真正能够跑通 ROI 的杀手级应用场景。

在此之前,视频 AI 注定依然是一场还得继续海量烧钱的马拉松。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 竞速 tiktok 谷歌 快手
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论