从“抖音同款”到“豆包同款”：AI时代，视频云正在有了新表达

产业互联网第一媒体。产业家

伴随着AI云原生时代的来临，视频这种介质正在有全新的演绎，不论是内容效率的提升、媒体价值的放大，还是基于实时互动的更新交互形态，其全新的生产力价值也更在出现。

火山引擎，通过"路+车+人+海"的智能视频云体系，构建的恰是基于这种新介质的规范化操作界面。

作者|皮爷

出品|产业家

1895年，巴黎卡普辛大道14号，卢米埃尔兄弟的《火车进站》让观众惊慌四散 ——一束穿透黑暗的光影，第一次让静态图像拥有了流动的生命，但同时也留下了时代局限：单镜头、无剪辑、仅50秒时长，更遑论对内容的精细操控。

以视频为介质的表达，由此而始。

但在AI时代的2025年，人们对这个以卢米埃尔兄弟为起点的表达体系有了新"质疑"。在最近的3年时间里，关于音视频，一些更新的标签也在悄然出现。

比如在今年下半年大火的AI漫剧，比如游戏圈中频繁破圈的豆包视频指导策略陪玩，再比如在今年釜山电影节上出现的一系列AI短片等等。

这些新热议的话题主题仍然是视频，但对这个形态恒定超100年的介质而言，它的新使用方式却不是传统的"拍摄-制作-发布"管道体系，在这些新表达里，"Agent智能体"、"可交互对话"、"可编辑二创"、"一句话/一段话生成"在成为新的标签，这些标签在给C端创作人群带来不同以往的创作方式之外，也更在给一众产业带来看得见的生产力增量。

AI时代，视频到底在经历怎样的变化？以及在视频这个介质的主阵地上，全新的管道到底应该是怎样的？又或者说，被重新定义的"视频"应该具备怎样的工程化加持，才能实现它新形态下的更好表达？

今年的冬季FORCE原动力大会上，火山引擎交出了一张新答卷。这个答卷的主题是音视频的AI进化，也更是一个全新的、从实践里趟出来的AI音视频价值新思考。

AI云原生的视频时代，正在到来。

一

"AI+视频"，

被重构的三年

今年9月，韩国釜山电影节现场，几部由火山引擎和即梦AI共同带来的特殊参展短片引起了现场观众和行业大咖们的注意，它们中有面向心理学主题的《小怪物》，也更有取材古典志怪、以黑白版画格调呈现的《一目五先生》，同时还有一众来自中国香港和韩国本土的影片。

这些短片有一个共同的标签：AI电影。影视圈对于AI技术的应用不单纯是C端人群感知的AI视频生成，其对应是基于AI对视频的更深度改造，比如工业级影视制作，比如基于IP的视频二次创作，再比如从剧本小样到微型影片demo的生成。

如果把视角放大，则是不难发现，AI带给视频的变化不仅在产出流程本身，更在视频这个介质的更大价值表达，比如视频的"属性定位"不仅是内容的表达者，在游戏陪玩等场景中，它也更在成为一个工具的前端入口，完成从被动呈现到主动表达甚至交互的角色变迁，同样的现象也更出现在教育场景，如视频开始成为"学习交互"的新载体等等。

"过去三年，我们见证了一个历史性时刻。当大模型技术遇上视频技术，我们熟悉的那个「视频视界」正在被重构。"火山引擎视频与边缘产品负责人杜佑在这次大会现场这样表示。

诚然如此。如果从产业视角来看，伴随着AI浪潮的来袭，视频正在迎来"路、车、人、海"四个层面的立体式变化，这四个变化正在推动视频从静态走向动态，从表达走向新交互，也更推动其从云原生真正迈进AI云原生。

首先是"路"的变化，其对应的是底层基建侧的变化，即AI时代信息交互方式正在发生改变，从单纯的文字交互变成自然语言、音频、视频等多模态交互，以及交互对象也从固定的人与人交互变成人和智能体（或包含智能体的终端）交互，信息的形态、密度等都在发生变化，与之对应的则是对传输系统有了更高要求。

其次是"车"，即在新的基建道路之上，如何保证视频能够完成新形态下的价值表达，"车"恰是其中的关键，比如不论是对于多模态数据的AI理解，还是一系列基于多模态理解后高效率的视频生成、加工、二创、搜索等等更大程度、更多维度的媒体价值释放，这些都需要专业的"车"来保证整个流程的通畅。

以及"人"和"海"。前者对应的是视频的新式价值属性，即交互——和之前视频仅有的内容表达属性不同，基于AI的加持，音视频智能体可以具备主动交互的属性，让音视频成为应用和人建立连接的第一道工序。

"海"则对应的是基于这些全新的视频介质表达，不论是电影制作，还是游戏动漫，以及跨境电商、陪伴应用等等，肉眼可见的是，在过去一两年时间里，以新式AI音视频为阵地的一众中国AI产品和企业在出海已经崭露头角。

从更大的视角来看，大模型为以视频为形态的产品或者产业带来的是一轮全新重构，这种重构不单纯基于视频更低门槛生成链所对应的效率本身，也更在于视频开始从静态内容价值的基础上新增了"能听会说可理解"的新价值形态。

豆包就是一个最鲜明的例子。

从当下来看，过去3年时间里，豆包有两次"破圈"事件尤为引发行业瞩目。一次为2024 年9月，豆包视频生成模型（Seedance系列模型）首次亮相火山AI创新巡展，4个月后，AI视频功能全量上线豆包；另一次为2025年1月20日，豆包App升级至7.2.0新春版，全量上线实时语音通话。

前者对应的价值是，豆包在行业内掀起一个AI生成视频的热潮，其本身从一个AIGC产品正式升级为一个集合音视频能力的综合AIGC产品。

而后者带来的正向反馈着力点也恰是豆包自身。即在语音交互和对话功能发布后，不论是国内的媒体平台还是国外等平台，"用豆包当家庭教师"、"用豆包实时指导做菜"等等热门AI产品交互视频开始不断破圈，这个新的交互形式也恰悄然转化为豆包用户增长的更进一步飞轮。

那么，到底应该如何打造一个豆包同款的应用呢？又或者说，不论是对电影、动漫等内容产业的低成本、强智能的AI视频需求而言，还是对如游戏玩具、社交应用以及陪伴类产品等视频交互属性的需求来说，怎样的智能视频云基础设施才能保证视频生产力的足够可控、可用？

二

火山引擎，

搭建了一个新的智能视频云"骨架"

在这次大会上，一份AI音视频的答卷被火山引擎正式放到台前。或者更可以说，火山引擎把"支撑豆包的核心智能视频能力"整合成全新的方案，正式推向市场。

首先是最底层，也就是"路"的层面，一个必须要知道的事实是，相较于人和AI的文字交互方式，不论是多模态数据的理解、传输、生成，还是人和智能体基于音频/视频等形态的交互，其中对应的都是有足够差异化的底层环境，比如大并发的数据计算量，比如更高的网络带宽、比如交互中需要做到的实时响应。

火山引擎的做法是，把保障豆包信息传递和交互通畅底层关键能力之一的「AIGC传输」正式放到台前，即基于AIGC传输系统，其可以和豆包一样，做到为智能体应用提供稳定、实时、可扩展的多模态数据传输能力，同时也更可以覆盖足够多样化的实时交互场景，强化前端用户体验。

其次是中间层，火山引擎把既有的音视频经典能力进行了AI化升级，也就是被放到台前的AI MediaKit。

从能力来看，AI MediaKit更等同于为企业提供了一套完备的媒体处理原子能力"工具箱"，即从视频内容的生产端，到内容的分析端，再到最终的消费端，基于AI MediaKit企业可以获得全链条的流程加持。

比如在生产端，从之前的纯人工主导可以进化到"人机协同"，将内容生产效率提高至原来的5-10倍；在消费端，基于AI MediaKit，在单一的视频内容表达基础上，一系列视频AI搜推、内容二创（如短剧高光生成、AI漫剧）、多模态翻译（文字转化为视频）等等方式可以为其赋予更多元的内容生产加持，进而让其实现"一鱼多吃"的价值最大化；以及在消费端，相较于传统的音视频模式，AI MediaKit可以帮助媒体实现更细颗粒度的数据结果分析，进而帮助其优化前端策略。

从更大的角度来看，和固有音视频原子交付、工作流交付不同的是，AI MediaKit将更新的AI视频编辑范式（生成、编辑、分析、多模态转化）封装成一个丰富的AI视频工具箱，基于这个工具箱的一系列工具，一方面媒体可以构建新的视频表达形态，实现从生产端到消费端的每个环节的效率提升，另一方面也更可以基于其中的大模型降低内容思想表达的工程操作门槛，进而更轻松、更丰富地表达传递自身思考。

此外，也更值得一提的是，相较于直接调用大模型能力，AI MediaKit中预设的是一系列可配置的AI工作流，这些来自最佳实践的场景化工作流编排，可以帮助企业做到更好地落地效果；同时，最上层的Agent也更可以通过配置直接调用AI MediaKit的一系列能力，帮助企业更好地构建上层智能体应用。

如果说AI MediaKit的着力点更多是视频固有产业链的AI进化，帮助媒体做到更大的价值表达，那么音视频互动智能体则可以赋能企业做到基于音视频介质的新交互形态。

"在支持各行各业那么多客户需求的过程中，我们发现传统的音视频对话式AI方案越来越不足以满足业务上飞速增长的需求。一方面大家希望对面的AI在各种感官的表现上更大程度的趋近于真人的感觉，另一方面大家也希望对面的AI能够拥有自己各行各业一些更加专业的知识和特定的业务功能。"火山引擎智能互动产品负责人杨若扬表示。

诚然如此。即在过去的几年时间里，一系列AI实时互动的场景如火如荼出现，但尽管各家都在宣称自身实现了基于大模型的升级，但其中的两个核心问题仍然存在——一个是真人感，一个是"产业know-how"能力。

这也恰是火山引擎音视频互动智能体的核心着力点所在。首先来看真人感，即在火山引擎音视频互动智能体的设定里，一系列如"口语感对话"、"情绪与声线"设定、感知与承接等特点都经过特殊的设计，这种从音色到音质，再到情绪的工程设定一定程度上会强化产品真人感的属性。

而另一方面，通过多类型的视觉理解、长期记忆、知识库等工程强化，可以保证音视频互动智能体能识别多种场景并且基于长期数据形成稳定的技能，如游戏陪玩、工业质检、AI教学、陪伴类场景等等。

这种"真人感+场景技能"的设定同时配合AIGC传输系统的低时延，也恰可以为企业提供一众AI音视频实时活动的能力加持。

从整体视角来看，在火山引擎智能视频云的方案中，其一方面通过AIGC传输系统完成AI时代音视频流通的底层"路"的建设，如带宽、时延等等，保障信息传递的通畅，另一方面通过AI MediaKit这个"车"的角色完成内容的AI表达和更新的AI内容生产，最后基于音视频互动智能体完成"人"层面交互的重塑。

即通过"路+车+人"的复合体系，其可以帮助企业以足够立体且体系化的模式，把"豆包同款"的音视频能力真实嵌入到企业的相关业务中，帮助企业构建出适配自身的视频应用或智能体。

三

大模型时代，

我们需要怎样的AI音视频基建？

实际上，从另一个角度来看，在火山引擎智能视频云的方案背后，其对应的也恰是中国当下的最佳的AI音视频实践产品样本——豆包。

根据三方统计显示，截止11月，豆包国内 DAU约5670 万、MAU 约 1.76 亿，到年底其MAU预计接近1.9 亿，用户量和使用频次均位列中国AI应用市场第一。在这些日活和月活用户中，有一大批使用者调用的是豆包的AI视频功能和AI实时语音通话等能力。

而保障这些能力被顺利调用和使用的，正是如今被火山引擎放到台前的智能云视频解决方案。实际上，不论是AIGC传输系统，还是AI MediaKit，抑或是音视频互动智能体，在一众企业案例的落地中，豆包自身恰可以看作是"难度和复杂度最大的标杆客户"。

比如AIGC传输系统，其本身支撑的就是豆包这类大规模 AI 应用的数据传输；再比如音视频互动智能体，其对应的是把豆包每天数以亿次被调用的丝滑AI音视频互动能力封装成一个完备的智能体方案，赋能给一众游戏、陪伴应用、工业质检以及需要强RTC能力的企业，帮助其实现真正的音视频实时互动。

以及出海场景的全套体系加持，在本次大会上，火山引擎智能视频云也更发布了面向海外场景的方案全景图，其以智能媒体处理平台、AIGC传输系统、全球实时传输分发等技术为底座，同时Conversational AI、AI Media Studio（一站式AI视频处理方案）分别面向海外实时互动场景（如陪伴类应用）、本地化内容生产等需求，同时结合对应的营销方案，共同服务出海企业。

实际上，这个"路+车+人"的智能视频云体系如今已经有所落地。以短剧赛道的麦芽传媒为例，如今不论是基于本土剧的海外翻译，还是基于每个IP剧的高光片段自动生成，都已经跑在火山引擎上，基于智能视频云的AI MediaKit组件能力进行更高效地推进，极大提高企业效率。

据了解，后续双方还将就AI漫剧和AI审片等场景进行更为深入的合作。

以及在音视频交互场景，以TapTap游戏平台为例，作为定位游戏分发平台和玩家社区的企业，如今基于火山的音视频互动智能体等能力，其专门构建了一系列AI能力，以为专门适配游戏场景的AI游戏助手，后者通过对火山引擎RTC的能力的调用，集合自身在大模型上"大模型+小模型"的探索，进而为玩家构建出真正的AI游戏陪玩，其可以识别玩家的具体动作并实时交互给出策略。

从某种程度来看，伴随着AI云原生时代的来临，视频这种介质正在有全新的演绎，不论是内容效率的提升、媒体价值的放大，还是基于实时互动的更新交互形态，其全新的生产力价值也更在出现。

火山引擎，通过"路+车+人+海"的智能视频云体系，构建的恰是基于这种新介质的规范化操作界面。

也更可以说，从抖音同款到豆包同款背后，火山引擎智能视频云对应交付的不仅是能够帮助企业构建Agent和视频应用的底层视频云技术和工具，从更大角度来看，其赋能企业的也更是一个被清晰界定的新生产力形态和拥有AI云原生视频工程实践的体系模型。

有理由相信，未来的几年时间里，无数个豆包或将在千行百业里出现，带给人们不一样的AI新世界。到时候或许可以真的说：AGI时代，真的来了。

最新视频号内容推荐

▼

产业AI大模型

《财务大模型，产业路向何方？》

《沸腾的大模型：谁在成为主角？》

《大模型落地金融业，想象力在哪？|产业特稿》

《重新理解百度智能云：写在大模型开放后的24小时》

《一所南方学校，遇上AI的60天》