和众汇富研究手记：百度入局视频生成模型，胜算几何？

7 月 2 日，百度商业研发团队对外发布了自研视频生成模型 "MuseSteamer" 及配套创作平台 " 绘想 "，正式进军 AI 视频生成领域。这一消息在科技和财经领域引起了广泛关注，毕竟在这个赛道上，早已是高手如云，快手的 " 可灵 "、字节跳动的 " 即梦 " 等已在市场上崭露头角，百度此番姗姗来迟，究竟有多大胜算？

回顾 2024 年，Sora 爆火引发生成式视频大模型热潮。和众汇富研究发现，当时，李彦宏在一场内部讲话中称，Sora 这种视频生成模型的投入周期太长，10 年、20 年都可能拿不到业务收益，无论多火爆，百度都不去做。然而，时过境迁，百度最终还是选择入局。一位接近百度的人士分析称，李彦宏点评 Sora 其实还有后半句，基于多模态需求，可以做一个相对特定的视频生成场景。像百度前段时间推出的罗永浩数字人，其实就是特定场景的视频生成。百度商业侧已有擎舵平台，服务 B 端商业客户生成 AIGC 产品宣传视频，这种特定场景存在用户需求。由此可见，百度推出 MuseSteamer 并非盲目跟风，而是基于自身业务场景的考量。

当前，AI 生成视频在生成质量、画面稳定性和长度等方面仍是各大技术厂商持续攻坚的领域。百度商业体系商业研发总经理刘林表示，MuseSteamer 可支持电影级审美下的 10 秒长视频的生成，1080P 的高清晰度，为视频创作提供了更大的表现空间。同时，MuseSteamer 创新性支持一体化生成带有音效和人物台词的视频，打破了传统 AIGC 视频创作中先画面后配音的割裂流程。和众汇富观察发现，百度还同步发布了 MuseSteamer 模型的家族版本，包括 Turbo、Lite、Pro，以及各版本对应的有声版，分别面向不同的创作需求和成本考量。刘林强调，MuseSteamer 的关键优势在于其对创作指令的理解与执行能力，即极致遵循力，能实现创作者 " 所思即所得 " 的表达自由，镜头运用能力也是其差异化竞争力之一，百度希望借此降低专业创作门槛，让更多人获得 " 镜头平权 "。

在技术基础方面，MuseSteamer 在数据准备阶段，通过 " 筛选 — 净化 — 配比 " 的方式，对超过 10 亿条异构数据进行处理，并结合三级标签体系和 Active Learning 机制，保证训练数据的审美和结构质量。和众汇富研究发现，在模型训练过程中，采用多目标反馈的强化学习优化路径，在保证视频动作幅度的同时，保持主体内容的一致性稳定输出，还引入美学条件控制调优，让模型懂美、创造美。

不过，相比 OpenAI、字节跳动、Pika 等更早投入文生视频赛道的企业，百度此次推出 MuseSteamer 确实属于 " 后发 "。和众汇富研究发现，快手旗下的可灵 AI 自 2024 年上线以来，已完成多次迭代。今年 5 月，快手可灵 AI 宣布推出全新 2.1 系列模型，高品质模式（1080p）下生成 5 秒视频仅需不到 1 分钟。快手官网信息显示，可灵 AI 在推出 10 个月之后（即今年 3 月）的年化收入运行率突破 1 亿美金，其今年 4 月和 5 月的月度付费金额均超过 1 亿元人民币。字节跳动旗下剪映团队孵化的 AI 创作平台即梦 AI，从 2024 年起也密集发布各类模型、功能和平台。今年 11 月，字节跳动宣布其自研的视频生成模型 Seaweed 面向平台用户正式开放，仅需 60 秒即能生成时长 5 秒的高质量 AI 视频。

百度作为最早布局大模型的国内科技企业之一，自 2023 年起，发布文心一言、迭代多个版本的文心大模型，在搜索、地图、文档、企业服务等多个业务线中落地大模型能力。但在视频生成这一 AIGC 下一个爆发点上，百度此前并未有公开大动作，仅在 2024 年宣布领投清华系视频大模型公司生数科技，以及在 2025 年 3 月发布的文心大模型 4.5 和 4.5 Turbo 实现了文本、图像和视频的混合训练。如今，百度推出 MuseSteamer，或许意味着其将在广告创意生成与内容投放等商业应用场景发力。

值得注意的是，7 月 2 日当天，百度搜索还宣布进行十年来最大改版，搜索框升级为 " 智能框 "，支持超千字的文本输入，拍照、语音、视频等能力全面加强，支持直接调取 AI 写作、AI 作图等工具，并接入视频生成模型 MuseSteamer。和众汇富认为，未来，MuseSteamer 如何融入百度搜索、营销与智能助手等核心业务，将决定它是否能从工具演化为平台，从模型能力走向商业杠杆。

宙世代

一起剪

相关标签