开年第一个月,国产 AI 真的是卷没边儿了。
这不,AI 视频生成圈又新鲜出炉了个大的——
全球首个支持一口气生成16 秒音视频直出的 AI!
然后啊,我反手就做一个真人版《火影忍者》第四次忍界大战的名场面,请欣赏:
如何?是不是从画面到台词再到音效,都有原版日漫的那个味道了?
而制作这部真人剧背后的模型,正是生数科技新鲜出炉的Vidu Q3。
在体验一番下来,最大的感受就是全自动:
视频和音频是一次性一锅出的
运镜和转场是自由切换一步到位的
文字和图片都能生成音视频的
清晰度是支持 1080P 的(生成后可提升至 4K)
叙事能力是完整的、文字渲染是精准的
在语言上,这次 Vidu Q3 还同时支持中文、英文和日文等多种。
有点意思,着实有点意思。
而且 Vidu Q3 这次的实力也是得到了国际权威 AI 基准测试机构 Artificial Analysis 的认证。
在最新的榜单中,Vidu Q3 排名中国第一,全球第二;与之同台竞技的选手包括马斯克 xAI Grok,超越 Runway Gen-4.5、Google Veo3.1 和 OpenAI Sora 2。

如此好玩的新 AI,老规矩,一波深度实测,走起 ~
拍剧吗?一张图就够了
首先在操作上,我们在图生视频页面中,需要先选择"Vidu Q3"这个模型,可以一口气出 1-4 个视频。

在上传首帧图片、输入对应提示词后,我们还可以选择生成视频的秒数,从 1 秒到 16 秒都可以。

接下来,我们用图生音视频的方式,一次性生成一段主播连麦对话的视频,首帧和 Prompt 如下:

请欣赏效果:
有一说一,冷不丁一看,还真像是从真实连麦视频录像中截出来的一段恶搞片段。
不仅一次性 16 秒的音视频可以直出,而且台词和演绎的效果吻合 Prompt 的要求。
更让人意外的是,Vidu Q3 似乎是识别到了直播场景,在 Prompt 没有提示的情况下,自动让弹幕动了起来。
用类似的方式,我们再来玩个有意思的。
假设有个短剧的场景是这样:一位年轻女性正在综艺节目当导师,点评参赛选手的演技,需要犀利且愤怒的锐评。
嗯,这个演技,台词的愤怒和表情是恰到好处地对上了;不说是 AI,都可以拿去以假乱真了。
看完现代愤怒的短剧,接下来,我们再来尝试一下苦情的古装电视剧。

AI 的演技依旧是相当到位,但更细节的是,像风声、抽泣声,还有抬手、摸脸的音效,都是 AI 在理解场景后自己补上去的,细节可谓是拉满了。
最后,我上一下难度,测试一下 Vidu Q3 在 16 秒内一次性转场、换镜头的丝滑程度。
首帧图片和 Prompt 如下:

稍等片刻后,我们就得到了这样的结果:
同样是有点小惊喜,Vidu Q3 在稳稳按照 Prompt 换场之后,自行补加了背景的闪电,以及仰视恶龙的角度等细节。
由此可见,现在 Vidu Q3,不论是视觉效果亦或是理解意图的能力,都已经是几乎可以达到" 为剧而生 "的程度。
为剧而生,一句话也能直出高清音视频
除了图生音视频之外,Vidu Q3 其实用只用自然语言也能做到相似的效果。
同样是支持 1-16 秒的时长,在文生音视频的界面中,还多出了宽高比的选项,包含 16:9、9:16、1:1、4:3 和 3:4 五个比例。
这一次,我们以 3D 皮克斯风格,只用 Prompt 的方式生成英文动画片,涵盖镜头切换:
皮克斯 3d 动画风格。
分镜一(中景 / 侧面视角):温暖明亮的背景中,传来衣物摩擦的沙沙声,右侧成年人缓缓蹲下,与左侧小男孩平视。他温和地说:"I know you ’ re disappointed, buddy. I really am sorry." 手势略微比划,镜头侧拍捕捉着两人之间微妙的距离感。
分镜二(大人视角 / 小男孩特写):镜头转到成年人身后,对准小男孩的脸。他眼神低垂,嘴角微微下撇,肩膀无力地耸着。背景音乐渐弱,只听见他一声极轻的、压抑的吸鼻子声。镜头缓缓推近,背景柔化,将失望与无奈的情绪张力拉满。
嗯,整个剧情都是稳稳地按照 Prompt 指示来展开。
3D 皮克斯能拿捏,国产修仙动漫定然也是可以直接复用,类似的分镜,我们只需稍加修改一下场景和台词即可:

由此可见,不同风格短剧、漫剧、影视剧的 " 迁移学习 "、批量生产,在 Vidu Q3 这里是行得通的。
除此之外,Vidu Q3 的文生音视频还有个好玩且实用的用法——渲染文字。
因为画面中的文字(建筑、背景等)渲染得好,才能省去后期二次加工所带来的麻烦,真正做到一次性出片。
实测的 Prompt 可以是这样的:
伴随着紧张的电子鼓点,《黑客帝国》风格的 "0" 和 "1" 数字铺满屏幕,瞬间形成 "Vidu" 的字样。细节丰富,质感饱满,极具视觉冲击力。
芭提雅的沙滩边上,面向大海,阳光明媚,背景音乐轻快。海上的天空有一个直升机拉着横幅飞过。横幅上有 " 快来玩 Vidu" 的字样。
总而言之,不同比例、不同风格,不论是人物、场景亦或是文字素材,Vidu Q3 几乎是能够到影视作品的门槛了。
进击的 AI 视频生成
最后,让我们跳出具体的案例,把目光投向整个行业的时间轴。
自从 AI 视频生成走进大众视线以来,毫不夸张地说,它每次的进化都给人带来不小的惊喜;这种震撼感,或许在某种程度上源于一种历史的压缩。
回看人类电影史,从卢米埃尔兄弟 1895 年放映《火车进站》(默片),到 1927 年第一部有声电影问世,人类整整走了32 年。
而在 AI 视频生成领域,从 Sora 引爆 " 默片时代 " 的视觉震撼,到业界有声视频直出,这段路程仅用了不到 9 个月。
在 Sora 2 之前,视频生成模型的竞争维度,主要还停留在画面的物理一致性、光影质感以及运动幅度上。
那时候的 AI 视频,就像是一个画面精美但失语的哑巴,声音往往需要后期单独配音或通过其他工具对口型,割裂感在所难免。
但音视频直出的出现,标志着竞争维度的升维:从单一的视觉生成,进化到了音视频原生的多模态融合。
它证明了在统一的模型架构下,AI 不仅能理解物理世界的运动规律,还能理解声音与画面之间微妙的时序关联。这种脑补能力,已经从单纯的生成画面,进化到了导戏。
而 Vidu Q3 的出现,让这种能力得到了更好地延伸:更长、更稳、更连贯。
尤其是它在 16 秒时长内能做到一镜到底,可以说是让 AI 真正具备了完整的叙事能力的短片雏形。
当音视频对齐不再是难题,当多语言表达变得轻而易举,我们有理由相信,AI 视频生成的下一个 " 啊哈 Moment",或许比我们想象中来得还要快。
毕竟在 AI 的世界里,一天真的能当一年用。
最后,附上一点小福利:
量子位邀请码 LZW2,登陆 Vidu.cn 注册,即送 500 积分,快来体验 Vidu Q3 最新功能!
Vidu Q3 体验地址:
https://www.vidu.cn
Vidu API 地址:
https://platform.vidu.cn
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦