手游那点事 21小时前
刚刚首曝,CEO牵头:游戏公司还在熬的AI,被直播巨头抢了?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 / 游戏那点事   弦问

今年,围绕 AI 大模型的较量,悄然走到了一个新的关口。

算力比拼不再是关键,因为底层模型的能力已经够用,开发门槛正在降低,记忆和长任务的瓶颈被接连突破。如何让 AI 系统化落地,才是如今大家在抢的一环。

同时,我们对 AI 的想象,也正从一个任务处理系统,转向一个由 AI 生成、能对视交谈的 " 真人 "。而 AI 走向台前,自然需要一个能与人面对面的载体——实时数字人就成了这股浪潮里新的争夺点。

例如百度一镜的前身 " 慧播星 ",在去年就已经把数字人应用到了电商领域。阿里巴巴的 LiveAvatar、蔡浩宇公司的 LPM 1.0 也都相继亮相。

而今天(6 月 30 日),这条赛道迎来了一个出人意料的入局者,虎牙首曝推出了实时、超拟真的交互数字人大模型 VAM-1.0(Vivid Avatar Model)。

据官网介绍,VAM-1.0 的数字人由语音实时驱动,在高分辨率、低延时的基础上,具备无限时长的全双工对话能力,既能边听边说、即时回应,神态和肢体动作也都自然到位。

从这一点看,虎牙 VAM-1.0 的路子和 LPM 1.0 有几分相通,他们都不满足于让数字人会说话,而是把倾听、全双工交互这些更难更 " 专 " 的部分作为研发重点。

不同的是,VAM-1.0 的场景更明确,首曝的状态也已经相当接近实际应用。目前虎牙已经开放了数字人直播展示,可以通过弹幕与主播互动,展示唱歌跳舞。

不过我更想聊一聊的是,直播能力一向是检验数字人成色的重要方式。数字人以往能在电商里跑通,其重心还是 " 照着脚本把货讲清楚 ";可到了强调双向交互的游戏、娱乐直播这类复杂场景,AI 还接得住吗?

这个问题,或许能从虎牙 VAM-1.0 里找到一些线索。

  要会说话  

  得让 AI 先学会 " 听 "  

我们不妨先思考一个问题,做一个拟真,又能实时交互的数字人有多难?

想要高拟真,就得堆画质、帧率和细腻的表情动作;想要实时交互,就得压低延迟。要满足这些要求,还要卡住成本这关,注定了研发上没法一步到位。更别提到了应用场景上,这种矛盾的要求只会更多更细。

正因如此,从技术展示到落地之间始终横着一道鸿沟。它并非单点突破就能跨过,往往要让多项指标同时精进,才能达到实用要求。也正因如此,市面上的实时数字人,总是先做技术、再找场景。继而我们能看到的多是中期技术报告和开源项目。

这道坎,虎牙也得过。不同的是,他们没在上游环节徘徊,而是结合下游场景打磨,让 VAM-1.0 先抢跑了一回。

这也勾起了我的好奇,面对大厂们都得熬的技术困境,虎牙是怎么让 VAM-1.0 落地到 " 直播 " 上的?

虽然虎牙没有公开完整的技术报告,但官网仍透露了不少技术细节,能看出他们在几个关键问题上花了力气。

首先,要像真人一样交流,需要「全状态交互」。数字人不能只会说话,还得能听、能停,而且不管在哪种状态下,都得有真实的神态和肢体动作。

而 VAM-1.0 能在静默、聆听、说话之间自然切换,并且能随时打断、即时转换,靠的是两个模块的配合。

一是自适应音频注入。它能灵活控制音频条件介入的时机和强度,让声音对画面的驱动不再是生硬的一刀切,而是该强的地方强、该弱的地方弱。

二是运动控制器。它负责丰富角色的表现行为,持续驱动数字人完成精准的言语表达、倾听反应、情感传递和肢体动作。

其次,直播还得维持「长时间稳定」。AI 生成长视频会崩,本质是误差一帧帧累积。而 VAM-1.0 为了保持长时间人物形象不漂移、画面不崩坏,从训练到推理布了一条防线。

训练阶段先练 " 抗性 ",团队用模拟退化和模拟隐变量误差,提前给模型喂进噪声,让它学会扛住误差累积,从而防止生成长视频时轻易崩溃。到了生成阶段还要 " 纠偏 ",自强制机制会拿已经生成的片段计算损失,边生成边校正。

而要让长序列里始终是同一个人,靠的是多参考帧加运动帧,解决跨视角的身份保持和时序连贯,让直播角色稳定维持。

此外,互动要跟得上,绕不开「低延迟实时渲染」。前面说过,高画质和实时响应天然存在制衡关系,怎么两头兼顾,是这类产品最难啃的硬骨头。

VAM-1.0 的解法,是在工程层面做多层叠加的优化,一点点把延迟压下来。从编译加速、注意力和位置编码的专项优化,到 VAE 解码提速、低精度量化和算子融合,覆盖了推理链路上的多个环节。

(与八个模型进行测试对比)

换句话说,它没有指望靠某一处提速一步到位,而是在整条链路上层层抠时间。

这一套组合拳,其实并不是只有虎牙在做。如果你读过蔡浩宇公司大模型的技术报告,就会知道 LPM 1.0 总结了数字人的 " 表演三难困境 ",高表现力、实时推理、长时身份一致,三者很难同时成立。而 LPM 1.0 给出的,更像一个不绑定具体场景、追求把三难指标都推到顶的通用方案。

(LPM 1.0 官网)

但虎牙 VAM-1.0 的应对策略,更像一个深度绑定直播、追求各指标平衡的落地方案。它靠算法和系统工程的协同设计,从实践角度推进问题解决,支撑起在直播场景跑起来的数据水平。

讲到这里,我们已经可以看出虎牙的 " 抢跑思路 ",他们在现有的技术框架下,选择了一组合适的参数,兼顾落地体验与算力成本,以便满足直播落地的应用要求。

因此不难发现,VAM-1.0 数字人的首发直播表现,长时间状态稳定统一,但拟真度和延迟上都还有迭代空间。微表情和肢体细节的真实感还可以继续打磨,延迟虽在理论上处于行业领先水准可也仍能察觉,不同状态之间的切换偶尔显得生涩。

但 VAM-1.0 或许已经规划好了一条落地后的技术迭代路线。虎牙依托独有的数据积淀、场景积累,以及海量真人主播视听素材,量身订造了一整套 AI 实时生成且能落地 " 直播 " 的技术体系。先满足上线,再打磨,通过一线反馈往前迭代。

  AI 贯穿内容分发、营销环节  

  游戏彻底离不开 AI 了?

有了技术的支撑,我们总算能聊聊一些现实的问题,"VAM-1.0 能给一个直播平台带来什么样的改变?"

虎牙官网上,展示了不少 VAM-1.0 的应用能力,它可以接入对话大模型日常使用,也能支撑虚拟人内容创作;在观影陪伴、电商流媒体、教育辅导等通用场景也都能覆盖。

但在我回顾虎牙近年来的一系列动作后,真正值得关注的,或许是 VAM-1.0 借助虎牙的直播平台资源,在游戏板块释放出的价值。

一方面,是对游戏主播的赋能。作为平台主要的流量和内容来源,游戏板块和户外、颜值这类高度依赖真人身份互动的直播品类不同,它的直播核心看点在游戏本身,这恰恰给 AI 留出了介入互动环节的空间。

举个例子,会打游戏和会做直播,其实是两种能力,互动往往是部分游戏主播,尤其是新人的痛点。不少技术水平顶尖的存在,因为高强度对局难以分心,兼顾互动和带气氛,又或者缺乏合适的设备,直播始终难有起色。这类案例比比皆是。

而 VAM-1.0 能让主播越过互动的经验、设备门槛,可以专心做好核心内容,把粉丝互动和直播间维护交给数字人来接,补上了最缺的那块短板。

值得一提的是,AI 赋能平台主播这条路径,虎牙其实布局得很早。早在虎牙 2024 年第四季度及全年财报电话会上,公司 CEO 黄俊洪就提出,虎牙将深化 "AI+ 直播 " 战略实施,通过 AI 大模型赋能主播效能升级,推动直播行业向 " 技术驱动型 " 发展。

而另一方面,赛事解说也是虎牙 AI 的布局重心。

在去年虎牙主办的《英雄联盟》赛事传奇杯 S3 上,就曾实践过电竞 AI 智能体 " 虎小 Ai" 的实时解说。不仅能够在比赛中 " 玩梗 " 带来节目效果,还能分析选手历史数据、英雄适配度,还能呈现阵容搭配评分、战术策略。

这种人力难以企及的信息整合能力,是 AI 解说的天然优势。而 VAM-1.0 更像是和 " 虎小 Ai" 同一条技术路线上的延续布局。在原有功能的基础上,它补上了实时互动这一环,从一个会分析的声音,成长为一个真正意义上的解说员。甚至可以想象,当它和真人解说搭档配合,或许能带来多样化的观赛体验。

这种 " 电竞 +AI" 的技术应用,不仅能够降低赛事运营成本,还能让赛事解说向更多直播场景延伸。

我们不妨再往深一层想,如今直播除了内容呈现本身,在游戏发行环节的分量,也已经越来越重了。VAM-1.0 能做的,或许比想象中更多。

例如它能让常态化的直播宣发 " 永不下播 ",游戏上线、版本更新、道具促销,这类宣传直播间常常一挂就是好几天。真正有内容的往往只有真人开播那几个小时。VAM-1.0 提供的高时长实时数字人,正好能填补宣发的空窗期,还能靠弹幕互动、实时翻译进一步扩大触达,维持整个活动周期的热度。

此外,据官网介绍,VAM-1.0 一张图就能生成一个数字人形象。而在内容营销中,最贵、最慢的环节往往是真人拍摄。对需要大量铺量的发行来说,一个门槛低、不受拍摄周期约束的数字人,就意味着成本更低、出片更快。

借此,VAM-1.0 也可能成为虎牙从内容平台迈向营销服务商的一块跳板。

倘若将这些场景拼到一起,我们就会发现 AI 在游戏行业的触角,已经从研发、AIGC、买量,一路延伸到了游戏直播这样的分发环节、营销场景,并且同样颇具潜力。

至少从虎牙身上看," 游戏离不开 AI 了 " 这句话,已经不再像一句玩笑。VAM-1.0 像是瞄准了游戏 AI 链路中的一处缺口,再凭借数年的技术和应用积累,才得以在 AI 大模型的赛道上抢先落子。

  虎牙转型的最后一块拼图  

看到这里,VAM-1.0 大概达到了什么成色,大家应该也有自己的答案了。

问题来了,作为一个直播平台,去年虎牙还在接入 DeepSeek 这样的现成大模型,为 App 的搜索加入了一个 AI 助手。怎么才过了一年,虎牙就亲自下场啃起了模型研发的硬骨头,还让 VAM-1.0 成为市面上最接近实际应用的数字人之一了?

一个业内人士告诉我,虽然虎牙 AI 团队早就成立,但 VAM-1.0 项目组起步比较晚,在 2025 年才算正式组建,由 CEO 黄俊洪挂帅攻坚。团队有 30 人左右,核心成员基本都是来自多模态生成、音视频实时驱动、数字人工程落地等领域的资深骨干。

简单来说,这是一支为 VAM-1.0 准备的专项攻坚小队。

不难看出,虎牙做基础大模型并非临时起意,而是早有清晰的规划。这一点,与他们近年来在商业模式上的转型、AI 领域的布局同线同轴。

先说商业化这条线。虎牙一直想换个活法。就比如 2023 年定下的三年计划,不再局限于直播的内容窗口,而是把手里的生态流量、主播和运营经验打包出去,帮助厂商拉新、变现。

首次作为发行方代理《鹅鸭杀》,更是虎牙在发行上迈出的具体一步。真正从一个单纯的流量渠道,转向了综合游戏服务商的定位。

(虎牙官方赛事综艺节目《鹅斯卡之夜》)

今年作为三年计划的收官节点,虎牙的转向已见实效。根据虎牙 2026 年第一季度财报,虎牙的游戏相关服务、广告及其他收入同比增长 69.4% 至 6.3 亿元,其营收比例正在逐年上涨。

再说 AI 技术这条线,虎牙的入场其实比许多大厂都早。早在 2019 年的 LiveTech 大会上,虎牙就拿出了 HERO 平台和模拟真人的数字人方案,并将数字人作为直播业务的技术底座去铺线,后来也陆续在游戏解说、道具售卖这些场景成功落地。

把两条线接在一起,VAM-1.0 的意图就不难看懂了。虎牙这些年一直在补齐「为游戏提供一套完整内容社区生态」的能力,VAM-1.0 或许就是内容营销来驱动游戏发行的最后一块拼图。

当然,越是靠近实际应用,AI 大模型暴露的问题往往越多。距离 " 和真人无异 ",VAM-1.0 还需要在真实场景中不断收集反馈、慢慢打磨,单凭现在的表现下定论,还为时过早。

在我看来,虎牙拥有独特的产品属性与场景原生设计逻辑,以及作为直播平台的数据积累,也促成了 VAM-1.0 这样一张在实时数字人赛道的抢攻牌。而落地直播,可能仅仅是 VAM-1.0 实现迭代的一个新开始。

至少在目前,VAM-1.0 已经提供了一个难得的样本,让我们看到数字人真正落地时的形态和难点。距离 "AI 人 " 成为我们现实生活中的内容还有多远,答案很难确定。但可以说,虎牙让这件事离我们更近了一步。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 百度 阿里巴巴 浪潮 虎牙
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论