7 月 2 日,《每日经济新闻》记者获悉,百度商业研发团队对外发布了自研视频生成模型 "MuseSteamer" 及配套创作平台 " 绘想 ",正式进军 AI(人工智能)视频生成领域。
2024 年,Sora 爆火引发生成式视频大模型热潮,李彦宏则在一场内部讲话中称,Sora 这种视频生成模型的投入周期太长,10 年、20 年都可能拿不到业务收益,无论多火爆,百度都不去做。
7 月 2 日,一位接近百度的人士对《每日经济新闻》记者分析称,Robin(李彦宏)点评 Sora 其实还有后半句,基于多模态需求,可以做一个相对特定的视频生成场景。" 包括百度前段时间的罗永浩数字人其实也是特定场景的视频生成。原本商业侧已有擎舵这个平台,那么去服务 B 端商业客户生成 AIGC(人工智能生成内容)产品宣传视频,其实就是特定场景,也是有用户需求的。"
关键优势在于极致遵循力
当前,AI 生成视频在生成质量、画面稳定性和长度等方面仍是各大技术厂商持续攻坚的领域。
百度商业体系商业研发总经理刘林表示,在数字内容创作领域,视频时长与画质的突破往往意味着创作自由度的质变。MuseSteamer 可支持电影级审美下的 10 秒长视频的生成,1080P 的高清晰度,为视频创作提供了更大的表现空间。
刘林表示,传统 AIGC 视频创作实践中,往往是先生成视频,再进行配音和添加音效。割裂的创作环节不仅消耗大量时间,更会削弱作品的完整艺术表达。MuseSteamer 创新性支持一体化生成带有音效和人物台词的视频。
此外,在视频长度方面,MuseSteamer 目前支持生成 5 秒和 10 秒两个版本,并可达 1080p 清晰度。百度此次同步发布了 MuseSteamer 模型的家族版本,包括 Turbo、Lite、Pro,以及各版本对应的有声版,分别面向不同的创作需求和成本考量。
刘林强调,MuseSteamer 的关键优势在于其对创作指令的理解与执行能力,即所谓的极致遵循力,能实现创作者 " 所思即所得 " 的表达自由。此外,镜头运用能力也是其差异化竞争力之一,百度希望通过该模型降低专业创作门槛,让更多人获得 " 镜头平权 "。
据介绍,MuseSteamer 模型的技术基础包括三大方面:首先,在数据准备阶段,通过 " 筛选—净化—配比 " 的方式,对超过 10 亿条异构数据进行处理,并结合三级标签体系和 Active Learning(主动学习)机制,以保证训练数据的审美和结构质量。
其次,在模型训练过程中,采用多目标反馈的强化学习优化路径,试图在保证视频动作幅度的同时,保持主体内容的一致性稳定输出。同时,MuseSteamer 引入美学条件控制调优,通过隐式批判学习和影视标准严选,让模型懂美、创造美。
MuseSteamer 如何面对劲敌
相比 OpenAI、字节跳动、Pika 等更早投入文生视频赛道的企业,百度此次推出 MuseSteamer 确属 " 后发 "。无论是国外如 Pika、Runway,还是国内如快手旗下的可灵 AI、字节跳动旗下剪映团队孵化的 AI 创作平台即梦 AI,均从 2024 年起就密集发布各类模型、功能和平台,并已完成多次迭代。
今年 5 月,快手可灵 AI 宣布推出全新 2.1 系列模型,高品质模式(1080p)下生成 5 秒视频仅需不到 1 分钟。快手官网信息显示,可灵 AI 在推出 10 个月之后(即今年 3 月)的年化收入运行率(Annualized Revenue Run Rate)突破 1 亿美金,其今年 4 月和 5 月的月度付费金额均超过 1 亿元人民币。
百度是最早布局大模型的国内科技企业之一。自 2023 年起,百度发布文心一言、迭代多个版本的文心大模型,同时已在搜索、地图、文档、企业服务等多个业务线中落地大模型能力。
但在视频生成这一 AIGC 下一个爆发点上,百度此前并未公开大动作,仅在 2024 年宣布领投清华系视频大模型公司生数科技。此外,2025 年 3 月,百度发布的文心大模型 4.5 和 4.5 Turbo 实现了文本、图像和视频的混合训练。
2024 年,Sora 爆火引发国内生成式视频大模型热潮,李彦宏则在一场内部讲话中称,Sora 这种视频生成模型的投入周期太长,10 年、20 年都可能拿不到业务收益,无论多火爆,百度都不去做。
7 月 2 日,一位接近百度的人士对《每日经济新闻》记者分析称:" 之前提到的不做类似 Sora,更多是不去训一个 general-purpose(通用)的视频生成模型,但是在特定场景、特定目的下的视频生成能力是需要的,或者说基于对市场需求的判断,外界确实没有这种能力,会自己来生产、研发这样的能力。"
上述人士表示,Robin(指李彦宏)点评 Sora 其实还有后半句,基于多模态需求,可以做一个相对特定的视频生成场景。" 包括百度前段时间的罗永浩数字人其实也是特定场景的视频生成。原本商业侧已有擎舵这个平台,那么去服务 B 端商业客户生成 AIGC 产品宣传视频,其实就是特定场景,也是有用户需求的。"
记者注意到,MuseSteamer 由百度商业研发团队主导推出,或许意味着其背后的直接应用场景有可能是广告创意生成与内容投放。
此外,7 月 2 日,百度搜索还宣布进行十年来最大改版,从搜索框、搜索结果页到搜索生态全面革新。具体而言,百度搜索框升级为 " 智能框 ",支持超千字的文本输入,拍照、语音、视频等能力也全面加强,支持直接调取 AI 写作、AI 作图等工具。 百度搜索还宣布接入视频生成模型 MuseSteamer。
未来,MuseSteamer 如何融入百度搜索、营销与智能助手等核心业务,将决定它是否能从工具演化为平台,从模型能力走向商业杠杆。
每日经济新闻
登录后才可以发布评论哦
打开小程序可以发布评论哦