百度取道特定场景攻略AGI视频

作者：周源 / 华尔街见闻

在生成式 AI 技术从实验室走向产业应用的过程中，视频生成因其技术复杂度高、场景需求多元，始终是行业攻坚的重点领域。

百度商业研发团队在 7 月 2 日推出的视频生成 MuseSteamer 模型及 " 绘想 " 平台，瞄准了搜索、广告和推荐场景中原生化内容生产的实际痛点，试图通过技术适配性优化，探索 AIGC 视频落地的可行路径，宣告了百度开始进军 AI（人工智能）视频生成领域。

值得一提的是，2024 年，Sora 爆火引发生成式视频大模型热潮，百度创始人、董事长兼 CEO 李彦宏在一场内部讲话中称，Sora 这种视频生成模型的投入周期太长，10 年、20 年都可能拿不到业务收益，无论多火爆，百度都不去做。

百度技术团队不惜 " 打脸 " 李彦宏，很可能是解决了视频生成的核心挑战——如何让视觉元素与声音信息在时间轴上形成自然协同；另外，7 月 2 日有消息称，李彦宏在 2024 年那场闭门会议上还提了一嘴：基于多模态需求，可以做一个相对特定的视频生成场景。

MuseSteamer 正是一个相对特定的视频生成模型，从这个角度看，也确实算不上打脸老板。

这个模型的技术设计，解决了聚焦于中文语境下的多模态语义对齐问题。

与英文相比，中文的语义模糊性、语境依赖性更强，一句 " 这个产品很给力 "，既可能需要画面呈现产品性能测试，也可能需要通过人物表情传递赞叹情绪，对应的音效设计更是千差万别。

为解决这问题，MuseSteamer 底层数据处理采用了 " 场景颗粒度拆解 " 方案：将亿级中文视频数据按 " 生活服务、电商展示、知识科普 " 等 23 个搜广推高频场景分类，每个场景下再细分 " 动作 - 情绪 - 效果 " 三级标签。

比如在电商场景中，" 服装展示 " 被拆解为 " 静态悬垂（动作）- 无情绪（情绪）- 布料质感（效果）" 等子标签，使模型能精准理解 " 这件裙子垂感很好 " 等描述对应的音画表现形式。

这样的场景化训练思路，直接体现在生成效果上。

在测试中，针对 " 讲解手机拍照功能 " 指令，模型能自动匹配 " 镜头推拉（画面）+ 按键音效（声音）+ 平缓解说（人声）" 组合，而同类英文模型往往出现 " 画面快速切换却搭配慢速解说 " 的错位情况。

百度做出的此类优化虽不涉及颠覆性技术创新，却切中了中文商业内容生产的实际需求。

百度商业体系商业研发总经理刘林表示，在数字内容创作领域，视频时长与画质的突破通常意味着创作自由度的质变。

MuseSteamer 可支持电影级审美 10 秒长视频的生成，1080P 的高清晰度，为视频创作提供了更大的表现空间。

刘林表示，传统 AIGC 视频创作实践中，一般先生成视频，再做配音和添加音效。这种割裂的创作环节不仅消耗大量时间，更会削弱作品的完整艺术表达。

MuseSteamer 创新性支持一体化生成带有音效和人物台词的视频。就视频长度而言，MuseSteamer 可生成 5 秒和 10 秒两个版本，均能达到 1080p 清晰度。

百度此次同步发布 MuseSteamer 模型的家族版本，包括 Turbo、Lite 和 Pro，以及各版本对应的有声版，分别面向不同的创作需求和成本考量。

" 绘想 " 平台的版本矩阵，本质是对不同用户成本结构的差异化回应。

Turbo 版的免费公测策略，瞄准的是中小商家试错成本敏感的特点：淘宝店主在尝试生成产品视频时，最担心的是 " 花了钱却不符合平台算法推荐偏好 "，免费模式使其可快速测试不同画面风格与转化率的关联。

Pro 版的付费设计则对应专业机构的时间成本痛点；全系列有声版对 " 边际成本的控制。

传统广告制作中，每增加一种方言配音，需额外支付配音演员酬劳，而有声版通过中文语音合成技术的迁移应用，支持粤语、川语等 8 种方言的即时生成，使区域化营销内容的边际制作成本大幅降低。

作为最早布局大模型的国内科技企业的一份子，百度竞逐视频生成赛道，与字节跳动和快手等对手相比，属实 " 后（luo）发（hou）"。

快手旗下的可灵 AI 在今年 5 月宣布，推出全新 2.1 系列模型，高品质模式（1080p）下生成 5 秒视频仅需不到 60s。

快手官网信息显示，可灵 AI 在推出 10 个月之后（即今年 3 月）的年化收入运行率（Annualized Revenue Run Rate）突破 1 亿美元，今年 4 月和 5 月的月度付费金额均超过 1 亿元人民币。

除了在 2024 年宣布领投清华系视频大模型公司生数科技之外，百度在生成式视频领域没有更多动作；到今年 3 月，百度发布文心大模型 4.5 和 4.5 Turbo，实现文本、图像和视频混合训练。

与对手相比，在国内 AIGC 视频赛道，百度看上去是取道差异化竞争路径：做 " 特定场景生成视频 "，而非全场景模式。

与专注泛娱乐内容的同类产品相比，" 绘想 " 的核心优势在于与搜索、广告等商业场景的深度绑定。

比如绘想生成的视频可直接成为百度信息流广告系统的一个功能模块，自动匹配用户搜索关键词做动态优化；纯工具类产品难以复制 " 创作 - 分发 - 反馈 " 的闭环能力。

此等场景协同也体现在数据积累层面。

百度广告平台的亿级条用户互动数据（比如视频第几秒用户点击了购买按钮），反向成为 MuseSteamer 的优化依据，使模型能学习到 " 促销信息在视频第 8-10 秒出现时转化率最高 " 之类的商业规律，这种数据壁垒比单纯的模型参数更具竞争力。

果然百度的追求还是收益，当然商业价值考量是商业公司的立足之本。

随着技术的不断迭代，AIGC 视频工具的竞争焦点，从 " 能不能生成 " 转向 " 生成的内容能不能用 "。

百度此次推出的产品，未必在技术参数上如何领先，但通过对商业场景需求的精准捕捉，为行业提供了一种技术落地的可行范式。

故而百度 " 绘想 " 的价值不在于颠覆内容生产，而在于用技术填补传统流程中的效率洼地。应当说，这是一条务实的推进路径，毕竟商业化能力才是技术能否快速发展的主要推动力。

宙世代