文 | 表外表里,作者 | 张冉冉 赫晋一,编辑 | 曹宾玲
AI 视频技术,正以 " 周 " 为单位快速迭代。
两周前,PixVerse 发布新项目:人在下边输入提示词,AI 在上边同步生成视频,实现连续视觉输出。

Source:PixVerse
上周,Runway 又上新 Gen 4.5 模型,AI 在 3 秒内连切近、中、远景,运镜构图堪比专业导演,且人脸上的纹理清晰可见。

Source:Runway
不止海外,国内公司也踩死油门,字节旗下的即梦 AI,核心版本两年内历经 9 次关键迭代;快手的可灵 AI,问世以来升级 30 余次。厂商们 " 你追我赶 ",一个模型月初份额很高,月底就可能被挤下去。
它们卷生卷死,在于退一步是 " 流量危机 ",进一步是 " 万亿蓝海 "。
抖音、快手们的成功,证明了 " 视频 " 杀时间的能力,而 AI 视频或许还会带来更沉浸的体验。目前,已有大量 AI 短视频、AI 短剧杀入内容平台,抢夺用户的注意力。
随着模型能力提升和推理成本降低,狂热的 " 淘金潮 " 还会蔓延至漫剧、游戏甚至电影等领域,届时 AI 视频可能迎来一轮大爆发。

AI 不仅是技术进步,更是个性体验、内容生产和商业效率的 " 三重革命 "。对字节、快手等视频玩家来说,这是一场不得不跟的牌局。只不过同一命题,它们打出了截然不同的牌面。
一、即梦的入口野心 VS 可灵的工具理性
在即梦 3.5Pro 和可灵 2.6 输入同一段提示词,对比生成的 AI 视频会发现,可灵的画面细节更丰富,电影感扑面而来。

Source: 即梦 AI、可灵 AI
但代价是,可灵排队时间超过了 30 分钟,而即梦无需等待,1 分钟之内生成了视频,且每天都能免费使用 2 次。
这样的视频效果和使用体验,正是快手和字节不同技术路线选择的结果。
尽管 AI 视频能力日新月异,但六根手指、360 度旋转手臂等物理破绽仍频繁上演,模型只是从 " 不可用 " 跨越到了 " 偶尔惊艳 "。外媒 Winsome Marketing 实测发现,用 Sora2 生成的视频中,真正可用于发布的内容只有 5%-10%,剩下 90% 全是废片。
这不仅浪费时间,更烧钱如流水。据第三方评测榜单 Artificial Analysis,可灵 2.6Pro 每分钟生成成本为 4.2 美元,谷歌 Veo 3.1 平均每分钟生成成本高达 10.5 美元。
因此 AI 视频的进化史,可以视为 " 开盲盒式 " 生成效果的抗争史。只不过厂商们资源禀赋不同,有的 " 高举高打 ",有的 " 精耕细作 "。
即梦和可灵就是如此,二者看似功能相似,实则内核迥异:字节 Seedance 是多模态基础大模型,即一个模型同时支持文生图、文 / 图生视频等;快手不具备多模态基座,但拥有相对领先一小步的视频生成模型。

在此背景下,即梦选择了优化 Seedance 大模型,既实现参数和知识共享,又避免了多个模型重复维护。但视频每秒有数十帧,每帧包含数百万个像素点,每一点上都有时空信息,同步处理意味着计算量和内存需求 " 立方级增长 "。
为了破解算力难题,字节在 Seedance 中嵌入扩散变换器,把任务拆给不同模块并行处理,降低计算复杂度;同时在蒸馏机制中引入特殊算法,确保小模型 " 又快又准 ",最终实现用更少的推理步骤,生成更顺的视频。

快手则聚焦打磨视频模型基座:每次迭代,除了扩充参数和优化数据,也在产品交互层引入新功能,提升生成结果的可控性。
可灵 1.0 推出首尾帧功能,让模型根据首尾两张图片,生成连贯的运动变化;可灵 2.0 则允许用户输入参考图像和视频,让 AI 更能 " 读懂 " 复杂创意;可灵 O1 新增的 " 主体库 ",把人和物封装成一个主体,在后续生成中保持特征稳定。

显然,可灵走的是 " 产品创新驱动 " 的务实路线,而即梦有着 " 突破产品技术上限 " 的野心。
这样的路线选择,重现了两家的 " 来时路 ":短视频时代,抖音靠推荐算法跻身超级 APP 行列,快手则从工具转向内容社区,二者各凭本事割据一块江山。
到了 AI 时代,字节仍想重写规则,定义下一代产品、抢占新的超级入口,剪映和即梦业务负责人曾公开说过:" 即梦的探索方向,是结合 AI 技术解锁全新的场景与产品形态,帮助人类提升创造力。" 而快手管理层则多次公开强调聚焦 P 端(专业创作者)和 B 端客户,对 C 端 " 保持探索 "。
当然,快手不跟字节正面硬刚,或许并非 " 不想 ",而是 " 不能 " —— 2025 年,字节在算力、芯片等方面的资本投入达 1500 亿元,断层领先第二名阿里 50%,比快手足足 " 多了一个 0"。

字节对 AI 的资源倾注,堪称 " 饱和式 " 轰炸:四处招兵买马,被公认为 " 中国 AI 人才密度最高的公司 ";对核心团队不设 OKR 和考核,鼓励工程师挑战 " 高效架构 " 和 " 前沿算法 "。
甚至不惜 " 内部赛马 ",2025 年即梦获得的算力资源同比增加 300%,而同期豆包视频模块预算被削减 15%;具体到即梦,目前可供用户调用的 5 款视频生成模型,分别来自 4 个不同的研发团队,哪个更优用哪个。

AI 竞争对技术、人才和资金的消耗,跟短视频早已不在一个量级。在资源约束下," 专注一个基座、凝聚一个团队智慧 " 的差异化路径,是更适合快手的理性选择。
其 " 最大化解决实际问题 " 的务实策略也很快有效,可灵生成视频越来越 " 像真的一样 ",在技术不稳定时期,率先赢得了挑剔的 P 端和 B 端用户,用户总量在发布一年时间内,从 600 万一路飞升到 4500 万。
" 大力出奇迹 " 的即梦,每一代产品都有着更低价格、更高生成效率,积攒了拉拢海量普通用户的底气。公开数据显示,截至去年 9 月,其月活用户达到 2037 万,是可灵的 13 倍。

而这样的路线分野,也为两家的商业化进程,写下了不同的脚本。
二、放眼长期增长的即梦 VS 专注即时收益的可灵
据美国知名风投公司 a16z 合伙人透露,Sora 的 30 天用户留存率仅 1%,60 天留存率近乎 0%。

这揭示了一个残酷的现实:AI 视频生成,现在可能称不上一门好生意。
每一家 AI 视频公司都愿景着 " 傻瓜也能创作 ",但上文说过,90% 的 AI 视频生成后 " 根本不能用 ",少数高质量作品底下也总跟着一长串 " 怎么做?" 的提问—— AI 创作的门槛,依然高悬。
想要生成一条合格的视频,不能跟 AI 讲大白话,而是要输入复杂的 " 提示词公式 ",包括主体、场景、动作、风格等,再进行一致性控制和后期调整。许多人好奇尝鲜 AI,很快就会因为用不好而离开。

这导致主打大众市场的 AI 视频产品,集体陷入变现困局。据第三方机构非凡产研的数据,即梦 AI 和 Minimax 的海螺 AI,年化营收(ARR)均未破亿。
相比之下,Runway 的 ARR,去年中已经突破 6 亿元大关;快手 2025Q3 业绩会披露,可灵累计收入达到 7 亿元,预计全年收入达 10 亿。

其中,可灵近 70% 的营收由 P 端订阅会员贡献,B 端客户规模也超过了 2 万家。很显然,当下专业创作者的付费能力更强、意愿也更高。
这并不难理解,对 AI 输入想法,能直接获得一段科幻大片;新品发布,不用再请昂贵的模特、明星,AI 广告效果直逼真人……数据显示,AI 视频能将传统视频制作时间从平均 7 小时缩短至 45 分钟,制作成本省一半。
当 AI 视频成为打工人的生产力工具,大家会用真金白银投票,而那些 " 不够实用 " 的平台,自然会显得冷清。
但差距或许只是暂时的,将目光放远,走 " 大众之路 " 同样拥有广阔的想象空间。
字节高管曾提出:"AI 对话类产品可能只是 AI 产品的‘中间态’,更理想的产品形态大概率需要视觉化的用户体验。" 言外之意就是,视频远比文字更直观、更能让普通人 " 入迷 "。
而随着 AI 技术的演进,视频创作门槛还有望进一步降低:未来可能不用输入素材、提示词,告诉 AI" 找出所有宝宝第一次走路的片段,配上温馨音乐 ",就能自动生成视频。

这会让创作彻底平民化,引发新一轮内容爆炸,就像当年智能手机让照片、短视频普及一样。字节内部甚至判断:" 长期看,即梦的价值空间可能是剪映的十倍。" 若以剪映 2024 年近百亿收入为参照,即梦有着千亿级市场蛋糕。
为此,即梦正不遗余力铺路,试图留住更多用户。
打开 APP,首页即是一条 AI 视频,与可灵的 " 工具风 " 大相径庭。即梦期望通过熟悉的短视频交互,把优质 AI 作品推荐给用户。

其还在全平台大量投流,尤其在抖音上,一度不允许其他 AI 产品打广告。而抖音生态正是即梦最大 " 杀手锏 " ——即梦生成的视频可直接导入剪映或抖音发布,形成 " 即梦生素材 + 剪映剪辑 + 抖音发布 " 一条龙,2025Q1 该路径为即梦导流的新用户占比达 37%。
在价格上,即梦也放低身段,不惜牺牲短期收入提升吸引力:其单条视频生成最低仅 0.1-0.19 元,而可灵最低成本比其贵上 10 倍,高达 1.25-1.5 元 / 条。

可以说,字节已在产品设计、流量扶持、使用门槛上做足了准备,只待 " 人人皆可创作 " 的时代东风。这种 " 抬头看天 " 的勇气值得称赞,却也有风险,毕竟没人知道 " 船票 " 何时才能兑现。
反观 " 低头看路 " 的快手,先落袋为安,未来再找机会转型,不失为一种智慧。
不过可灵也并非没有烦恼,海外 AI 短片《The Colorless Man》的创作流程,就给国内创作者带来了冲击:图像由 ChatGPT、MidJourney 和即梦处理,可灵负责视频,ElevenLabs 处理语音,Dreamina 处理唇形同步,Suno 处理音乐,MMAudio 处理音效。

如今厂商们的模型各有所长,尚未出现一个在所有维度都碾压对手的产品。而创作者组合使用、用脚投票,可能会使可灵辛苦拿下的用户,被其他厂商以更专精的模型、更低廉的价格抢走。
这场 AI 视频的战争,注定是艰难而曲折的持久战。
小结
人们热议着,豆包要借春晚之力,完成 AI 搜索的 " 全民普及 ";千问全面接入淘宝、支付宝、飞猪、高德等阿里生态,重塑下一代生活方式。
却常常忽略,每日刷上一两个小时的短视频世界里,另一场更深层的风暴也在悄然酝酿。
没人能断言 AI 视频的 " 未来 " 将以何种形态降临,无论是快手的 " 务实当下 ",还是字节 " 豪赌未来 " 的路线,都在等待时间给出最终的答案。
但可以确定的是,科技正加速驶入一条快车道,我们能做的就是坐稳、扶好,迎接一切可能的转向与颠覆。


登录后才可以发布评论哦
打开小程序可以发布评论哦