刚刚首曝，CEO牵头：游戏公司还在熬的AI，被直播巨头抢了？

文 / 游戏那点事弦问

今年，围绕 AI 大模型的较量，悄然走到了一个新的关口。

算力比拼不再是关键，因为底层模型的能力已经够用，开发门槛正在降低，记忆和长任务的瓶颈被接连突破。如何让 AI 系统化落地，才是如今大家在抢的一环。

同时，我们对 AI 的想象，也正从一个任务处理系统，转向一个由 AI 生成、能对视交谈的 " 真人 "。而 AI 走向台前，自然需要一个能与人面对面的载体——实时数字人就成了这股浪潮里新的争夺点。

例如百度一镜的前身 " 慧播星 "，在去年就已经把数字人应用到了电商领域。阿里巴巴的 LiveAvatar、蔡浩宇公司的 LPM 1.0 也都相继亮相。

而今天（6 月 30 日），这条赛道迎来了一个出人意料的入局者，虎牙首曝推出了实时、超拟真的交互数字人大模型 VAM-1.0（Vivid Avatar Model）。

据官网介绍，VAM-1.0 的数字人由语音实时驱动，在高分辨率、低延时的基础上，具备无限时长的全双工对话能力，既能边听边说、即时回应，神态和肢体动作也都自然到位。

从这一点看，虎牙 VAM-1.0 的路子和 LPM 1.0 有几分相通，他们都不满足于让数字人会说话，而是把倾听、全双工交互这些更难更 " 专 " 的部分作为研发重点。

不同的是，VAM-1.0 的场景更明确，首曝的状态也已经相当接近实际应用。目前虎牙已经开放了数字人直播展示，可以通过弹幕与主播互动，展示唱歌跳舞。

不过我更想聊一聊的是，直播能力一向是检验数字人成色的重要方式。数字人以往能在电商里跑通，其重心还是 " 照着脚本把货讲清楚 "；可到了强调双向交互的游戏、娱乐直播这类复杂场景，AI 还接得住吗？

这个问题，或许能从虎牙 VAM-1.0 里找到一些线索。

要会说话

得让 AI 先学会 " 听 "

我们不妨先思考一个问题，做一个拟真，又能实时交互的数字人有多难？

想要高拟真，就得堆画质、帧率和细腻的表情动作；想要实时交互，就得压低延迟。要满足这些要求，还要卡住成本这关，注定了研发上没法一步到位。更别提到了应用场景上，这种矛盾的要求只会更多更细。

正因如此，从技术展示到落地之间始终横着一道鸿沟。它并非单点突破就能跨过，往往要让多项指标同时精进，才能达到实用要求。也正因如此，市面上的实时数字人，总是先做技术、再找场景。继而我们能看到的多是中期技术报告和开源项目。

这道坎，虎牙也得过。不同的是，他们没在上游环节徘徊，而是结合下游场景打磨，让 VAM-1.0 先抢跑了一回。

这也勾起了我的好奇，面对大厂们都得熬的技术困境，虎牙是怎么让 VAM-1.0 落地到 " 直播 " 上的？

虽然虎牙没有公开完整的技术报告，但官网仍透露了不少技术细节，能看出他们在几个关键问题上花了力气。

首先，要像真人一样交流，需要「全状态交互」。数字人不能只会说话，还得能听、能停，而且不管在哪种状态下，都得有真实的神态和肢体动作。

而 VAM-1.0 能在静默、聆听、说话之间自然切换，并且能随时打断、即时转换，靠的是两个模块的配合。

一是自适应音频注入。它能灵活控制音频条件介入的时机和强度，让声音对画面的驱动不再是生硬的一刀切，而是该强的地方强、该弱的地方弱。

二是运动控制器。它负责丰富角色的表现行为，持续驱动数字人完成精准的言语表达、倾听反应、情感传递和肢体动作。

其次，直播还得维持「长时间稳定」。AI 生成长视频会崩，本质是误差一帧帧累积。而 VAM-1.0 为了保持长时间人物形象不漂移、画面不崩坏，从训练到推理布了一条防线。

训练阶段先练 " 抗性 "，团队用模拟退化和模拟隐变量误差，提前给模型喂进噪声，让它学会扛住误差累积，从而防止生成长视频时轻易崩溃。到了生成阶段还要 " 纠偏 "，自强制机制会拿已经生成的片段计算损失，边生成边校正。

而要让长序列里始终是同一个人，靠的是多参考帧加运动帧，解决跨视角的身份保持和时序连贯，让直播角色稳定维持。

此外，互动要跟得上，绕不开「低延迟实时渲染」。前面说过，高画质和实时响应天然存在制衡关系，怎么两头兼顾，是这类产品最难啃的硬骨头。

VAM-1.0 的解法，是在工程层面做多层叠加的优化，一点点把延迟压下来。从编译加速、注意力和位置编码的专项优化，到 VAE 解码提速、低精度量化和算子融合，覆盖了推理链路上的多个环节。

（与八个模型进行测试对比）

换句话说，它没有指望靠某一处提速一步到位，而是在整条链路上层层抠时间。

这一套组合拳，其实并不是只有虎牙在做。如果你读过蔡浩宇公司大模型的技术报告，就会知道 LPM 1.0 总结了数字人的 " 表演三难困境 "，高表现力、实时推理、长时身份一致，三者很难同时成立。而 LPM 1.0 给出的，更像一个不绑定具体场景、追求把三难指标都推到顶的通用方案。

（LPM 1.0 官网）

但虎牙 VAM-1.0 的应对策略，更像一个深度绑定直播、追求各指标平衡的落地方案。它靠算法和系统工程的协同设计，从实践角度推进问题解决，支撑起在直播场景跑起来的数据水平。

讲到这里，我们已经可以看出虎牙的 " 抢跑思路 "，他们在现有的技术框架下，选择了一组合适的参数，兼顾落地体验与算力成本，以便满足直播落地的应用要求。

因此不难发现，VAM-1.0 数字人的首发直播表现，长时间状态稳定统一，但拟真度和延迟上都还有迭代空间。微表情和肢体细节的真实感还可以继续打磨，延迟虽在理论上处于行业领先水准可也仍能察觉，不同状态之间的切换偶尔显得生涩。

但 VAM-1.0 或许已经规划好了一条落地后的技术迭代路线。虎牙依托独有的数据积淀、场景积累，以及海量真人主播视听素材，量身订造了一整套 AI 实时生成且能落地 " 直播 " 的技术体系。先满足上线，再打磨，通过一线反馈往前迭代。

AI 贯穿内容分发、营销环节

游戏彻底离不开 AI 了？

有了技术的支撑，我们总算能聊聊一些现实的问题，"VAM-1.0 能给一个直播平台带来什么样的改变？"

虎牙官网上，展示了不少 VAM-1.0 的应用能力，它可以接入对话大模型日常使用，也能支撑虚拟人内容创作；在观影陪伴、电商流媒体、教育辅导等通用场景也都能覆盖。

但在我回顾虎牙近年来的一系列动作后，真正值得关注的，或许是 VAM-1.0 借助虎牙的直播平台资源，在游戏板块释放出的价值。

一方面，是对游戏主播的赋能。作为平台主要的流量和内容来源，游戏板块和户外、颜值这类高度依赖真人身份互动的直播品类不同，它的直播核心看点在游戏本身，这恰恰给 AI 留出了介入互动环节的空间。

举个例子，会打游戏和会做直播，其实是两种能力，互动往往是部分游戏主播，尤其是新人的痛点。不少技术水平顶尖的存在，因为高强度对局难以分心，兼顾互动和带气氛，又或者缺乏合适的设备，直播始终难有起色。这类案例比比皆是。

而 VAM-1.0 能让主播越过互动的经验、设备门槛，可以专心做好核心内容，把粉丝互动和直播间维护交给数字人来接，补上了最缺的那块短板。

值得一提的是，AI 赋能平台主播这条路径，虎牙其实布局得很早。早在虎牙 2024 年第四季度及全年财报电话会上，公司 CEO 黄俊洪就提出，虎牙将深化 "AI+ 直播 " 战略实施，通过 AI 大模型赋能主播效能升级，推动直播行业向 " 技术驱动型 " 发展。

而另一方面，赛事解说也是虎牙 AI 的布局重心。

在去年虎牙主办的《英雄联盟》赛事传奇杯 S3 上，就曾实践过电竞 AI 智能体 " 虎小 Ai" 的实时解说。不仅能够在比赛中 " 玩梗 " 带来节目效果，还能分析选手历史数据、英雄适配度，还能呈现阵容搭配评分、战术策略。

这种人力难以企及的信息整合能力，是 AI 解说的天然优势。而 VAM-1.0 更像是和 " 虎小 Ai" 同一条技术路线上的延续布局。在原有功能的基础上，它补上了实时互动这一环，从一个会分析的声音，成长为一个真正意义上的解说员。甚至可以想象，当它和真人解说搭档配合，或许能带来多样化的观赛体验。

这种 " 电竞 +AI" 的技术应用，不仅能够降低赛事运营成本，还能让赛事解说向更多直播场景延伸。

我们不妨再往深一层想，如今直播除了内容呈现本身，在游戏发行环节的分量，也已经越来越重了。VAM-1.0 能做的，或许比想象中更多。

例如它能让常态化的直播宣发 " 永不下播 "，游戏上线、版本更新、道具促销，这类宣传直播间常常一挂就是好几天。真正有内容的往往只有真人开播那几个小时。VAM-1.0 提供的高时长实时数字人，正好能填补宣发的空窗期，还能靠弹幕互动、实时翻译进一步扩大触达，维持整个活动周期的热度。

此外，据官网介绍，VAM-1.0 一张图就能生成一个数字人形象。而在内容营销中，最贵、最慢的环节往往是真人拍摄。对需要大量铺量的发行来说，一个门槛低、不受拍摄周期约束的数字人，就意味着成本更低、出片更快。

借此，VAM-1.0 也可能成为虎牙从内容平台迈向营销服务商的一块跳板。

倘若将这些场景拼到一起，我们就会发现 AI 在游戏行业的触角，已经从研发、AIGC、买量，一路延伸到了游戏直播这样的分发环节、营销场景，并且同样颇具潜力。

至少从虎牙身上看，" 游戏离不开 AI 了 " 这句话，已经不再像一句玩笑。VAM-1.0 像是瞄准了游戏 AI 链路中的一处缺口，再凭借数年的技术和应用积累，才得以在 AI 大模型的赛道上抢先落子。

虎牙转型的最后一块拼图

看到这里，VAM-1.0 大概达到了什么成色，大家应该也有自己的答案了。

问题来了，作为一个直播平台，去年虎牙还在接入 DeepSeek 这样的现成大模型，为 App 的搜索加入了一个 AI 助手。怎么才过了一年，虎牙就亲自下场啃起了模型研发的硬骨头，还让 VAM-1.0 成为市面上最接近实际应用的数字人之一了？

一个业内人士告诉我，虽然虎牙 AI 团队早就成立，但 VAM-1.0 项目组起步比较晚，在 2025 年才算正式组建，由 CEO 黄俊洪挂帅攻坚。团队有 30 人左右，核心成员基本都是来自多模态生成、音视频实时驱动、数字人工程落地等领域的资深骨干。

简单来说，这是一支为 VAM-1.0 准备的专项攻坚小队。

不难看出，虎牙做基础大模型并非临时起意，而是早有清晰的规划。这一点，与他们近年来在商业模式上的转型、AI 领域的布局同线同轴。

先说商业化这条线。虎牙一直想换个活法。就比如 2023 年定下的三年计划，不再局限于直播的内容窗口，而是把手里的生态流量、主播和运营经验打包出去，帮助厂商拉新、变现。

首次作为发行方代理《鹅鸭杀》，更是虎牙在发行上迈出的具体一步。真正从一个单纯的流量渠道，转向了综合游戏服务商的定位。

（虎牙官方赛事综艺节目《鹅斯卡之夜》）

今年作为三年计划的收官节点，虎牙的转向已见实效。根据虎牙 2026 年第一季度财报，虎牙的游戏相关服务、广告及其他收入同比增长 69.4% 至 6.3 亿元，其营收比例正在逐年上涨。

再说 AI 技术这条线，虎牙的入场其实比许多大厂都早。早在 2019 年的 LiveTech 大会上，虎牙就拿出了 HERO 平台和模拟真人的数字人方案，并将数字人作为直播业务的技术底座去铺线，后来也陆续在游戏解说、道具售卖这些场景成功落地。

把两条线接在一起，VAM-1.0 的意图就不难看懂了。虎牙这些年一直在补齐「为游戏提供一套完整内容社区生态」的能力，VAM-1.0 或许就是内容营销来驱动游戏发行的最后一块拼图。

当然，越是靠近实际应用，AI 大模型暴露的问题往往越多。距离 " 和真人无异 "，VAM-1.0 还需要在真实场景中不断收集反馈、慢慢打磨，单凭现在的表现下定论，还为时过早。

在我看来，虎牙拥有独特的产品属性与场景原生设计逻辑，以及作为直播平台的数据积累，也促成了 VAM-1.0 这样一张在实时数字人赛道的抢攻牌。而落地直播，可能仅仅是 VAM-1.0 实现迭代的一个新开始。

至少在目前，VAM-1.0 已经提供了一个难得的样本，让我们看到数字人真正落地时的形态和难点。距离 "AI 人 " 成为我们现实生活中的内容还有多远，答案很难确定。但可以说，虎牙让这件事离我们更近了一步。

宙世代

一起剪

相关标签