7 月 2 日,百度商业研发团队对外发布了自研视频生成模型 "MuseSteamer" 及配套创作平台 " 绘想 ",正式进军 AI 视频生成领域。这一消息在科技和财经领域引起了广泛关注,毕竟在这个赛道上,早已是高手如云,快手的 " 可灵 "、字节跳动的 " 即梦 " 等已在市场上崭露头角,百度此番姗姗来迟,究竟有多大胜算?
回顾 2024 年,Sora 爆火引发生成式视频大模型热潮。和众汇富研究发现,当时,李彦宏在一场内部讲话中称,Sora 这种视频生成模型的投入周期太长,10 年、20 年都可能拿不到业务收益,无论多火爆,百度都不去做。然而,时过境迁,百度最终还是选择入局。一位接近百度的人士分析称,李彦宏点评 Sora 其实还有后半句,基于多模态需求,可以做一个相对特定的视频生成场景。像百度前段时间推出的罗永浩数字人,其实就是特定场景的视频生成。百度商业侧已有擎舵平台,服务 B 端商业客户生成 AIGC 产品宣传视频,这种特定场景存在用户需求。由此可见,百度推出 MuseSteamer 并非盲目跟风,而是基于自身业务场景的考量。
当前,AI 生成视频在生成质量、画面稳定性和长度等方面仍是各大技术厂商持续攻坚的领域。百度商业体系商业研发总经理刘林表示,MuseSteamer 可支持电影级审美下的 10 秒长视频的生成,1080P 的高清晰度,为视频创作提供了更大的表现空间。同时,MuseSteamer 创新性支持一体化生成带有音效和人物台词的视频,打破了传统 AIGC 视频创作中先画面后配音的割裂流程。和众汇富观察发现,百度还同步发布了 MuseSteamer 模型的家族版本,包括 Turbo、Lite、Pro,以及各版本对应的有声版,分别面向不同的创作需求和成本考量。刘林强调,MuseSteamer 的关键优势在于其对创作指令的理解与执行能力,即极致遵循力,能实现创作者 " 所思即所得 " 的表达自由,镜头运用能力也是其差异化竞争力之一,百度希望借此降低专业创作门槛,让更多人获得 " 镜头平权 "。
在技术基础方面,MuseSteamer 在数据准备阶段,通过 " 筛选 — 净化 — 配比 " 的方式,对超过 10 亿条异构数据进行处理,并结合三级标签体系和 Active Learning 机制,保证训练数据的审美和结构质量。和众汇富研究发现,在模型训练过程中,采用多目标反馈的强化学习优化路径,在保证视频动作幅度的同时,保持主体内容的一致性稳定输出,还引入美学条件控制调优,让模型懂美、创造美。
不过,相比 OpenAI、字节跳动、Pika 等更早投入文生视频赛道的企业,百度此次推出 MuseSteamer 确实属于 " 后发 "。和众汇富研究发现,快手旗下的可灵 AI 自 2024 年上线以来,已完成多次迭代。今年 5 月,快手可灵 AI 宣布推出全新 2.1 系列模型,高品质模式(1080p)下生成 5 秒视频仅需不到 1 分钟。快手官网信息显示,可灵 AI 在推出 10 个月之后(即今年 3 月)的年化收入运行率突破 1 亿美金,其今年 4 月和 5 月的月度付费金额均超过 1 亿元人民币。字节跳动旗下剪映团队孵化的 AI 创作平台即梦 AI,从 2024 年起也密集发布各类模型、功能和平台。今年 11 月,字节跳动宣布其自研的视频生成模型 Seaweed 面向平台用户正式开放,仅需 60 秒即能生成时长 5 秒的高质量 AI 视频。
百度作为最早布局大模型的国内科技企业之一,自 2023 年起,发布文心一言、迭代多个版本的文心大模型,在搜索、地图、文档、企业服务等多个业务线中落地大模型能力。但在视频生成这一 AIGC 下一个爆发点上,百度此前并未有公开大动作,仅在 2024 年宣布领投清华系视频大模型公司生数科技,以及在 2025 年 3 月发布的文心大模型 4.5 和 4.5 Turbo 实现了文本、图像和视频的混合训练。如今,百度推出 MuseSteamer,或许意味着其将在广告创意生成与内容投放等商业应用场景发力。
值得注意的是,7 月 2 日当天,百度搜索还宣布进行十年来最大改版,搜索框升级为 " 智能框 ",支持超千字的文本输入,拍照、语音、视频等能力全面加强,支持直接调取 AI 写作、AI 作图等工具,并接入视频生成模型 MuseSteamer。和众汇富认为,未来,MuseSteamer 如何融入百度搜索、营销与智能助手等核心业务,将决定它是否能从工具演化为平台,从模型能力走向商业杠杆。
登录后才可以发布评论哦
打开小程序可以发布评论哦