雷科技 14小时前
国产视频大模型大横评:可灵、即梦不分仲伯,表现最差的竟是它?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

视频生成大模型,能帮助我们成为视频创作者吗?

前段时间,AI 歌手 Yuri 火爆全网,不少网友惊叹 AI 大模型生成的视频居然真假难辨,口型和声音近乎完美同步。完全由 AI 创作的 MV 视频《SURREAL》似乎向我们证明,每个人都可以使用 AI 创作出高质量的视频,但事实真的如此吗?

《SURREAL》的背后是汗青工作室,拥有专业的后期团队,该 MV 的背后更有上万张图片,无法代表大众水平。

为了验证视频生成大模型的真实能力,雷科技挑选了国内人气和能力较强的可灵、即梦、清影、拍我四款视频生成模型,将通过一场评测,展现当前国产视频生成模型的能力,以及探讨哪款视频生成模型最强。

(图源:mockup 网站套壳)

这四款模型中,可灵出自快手,曾有「国产 Sora」的称号,但上线时间比 Sora 更早;即梦出自字节跳动,可用抖音扫码登录;清影出自智谱 AI 团队,而智谱核心成员来自国内顶级学府清华大学的 KEG(知识工程)实验室;拍我原名 PixVerse,出自爱诗科技,此前主要面向海外市场,今年 6 月才推出国内版 App。

介绍完毕,四款 App 实力如何,咱们看表现说话。

先说一下测试环境,可灵选择了 2.1 大师版本,即梦为视频 3.0 版本,清影暂不支持更改版本,因而使用默认版本,拍我为 V4.5 版本,生成的视频均为 16:9 比例、5 秒时长、720P 分辨率,但由于图片大小限制,雷科技将视频制作成 GIF 时会进行压缩。

为了保证公平性,镜头运动、风格等参数均不调整,保持默认设置。所有视频均生成一次,拒绝 " 人工筛选 " 优秀作品或后期修改,测试共分为三轮。

第一轮《天净沙 · 秋思》:静态画面完美,动态可灵完胜。

若想实现让每个人都能利用视频生成模型挥洒创意,最重要的就是提高 AI 对自然语言的理解能力,而非依靠特定的提示词,所有视频生成大模型也都在朝着这个方向发展。

因此,第一题雷科技选择了马致远的《天净沙 · 秋思》,这首初中课本上的散曲,相信大家还能背诵下来,作者仅用三言两语,就勾勒出了一幅凄凉哀愁的晚景,能否解构作者想要表达的意境,对于生成视频的准确性尤为重要。

有着「国产 Sora」之称的可灵,生成的视频大体与散曲相符,水中的波纹、孤独的老者,以及桥上栏杆和路边草木的光影拟真程度较高,镜头的拉升凸显出了孤寂感。美中不足的是,桥对岸类似隧道的洞口,以及上方如同被泥土掩埋的房子不够协调。在我看来,前方一片平原,寥寥几户人家,再加上几缕炊烟,更能凸显寂寥的美感。

(图源:可灵生成)

即梦生成的视频若不看马儿,可能会有点分不出来究竟是 AI 生成的,还是有人在黄昏时拍摄的,水面的波纹、天空云彩的变化,以及远处的夕阳,接近完美。然而两匹马走路的姿态却有一点虚浮,导致我们认真观察时,能够辨别出画面由 AI 生成。最重要的是,这段视频缺少了这首散曲的核心「断肠人」。

(图源:即梦生成)

清影生成的视频就有些离谱了,先不说同样缺少「断肠人」这一核心元素,马匹走着走着竟在空中飘起来就很不合理。清影生成的整个画面真实度很高,特别是河流的细节,水流冲击到河岸时会形成回流。只是马儿腾空而起的画面,问题实在太严重。

(图源:清影生成)

拍我生成的画面,能够体现出孤独的意境,后面的转场令我想到了留守儿童送父母外出打工的画面。不过这段视频人物的整体装束过于现代化,而且转场有些突兀,马儿和转场后的英文略显多余。

(图源:拍我生成)

静态景物和动作幅度较小的动态景物,四款 AI 大模型的差距不明显,但到运动度较大的景物时差距立见分晓,即梦、清影的马儿行动都有些不自然。总体来说,本轮测试中,可灵表现最好,其次为即梦和拍我,清影生成的视频中马儿腾空而行,导致扣分严重。

第二轮《舞女谢幕》:面部、肢体均有瑕疵,协调性有待改进,可灵、即梦不分仲伯。

与文生视频不同,采用图生视频时,用户可以限定环境和事物主体,便于创作连续性较高的长视频。视频生成大模型能否完美复刻图片的环境和事物特点,则是考验它们能力的关键。本轮的测试题为:舞女结束了表演,向台下观众鞠躬致敬。所用的图片为豆包 AI 大模型生成,如下:

(图源:豆包 AI 生成)

可灵在评测中发挥稳定,人物的动作幅度是几款大模型生成的视频中最大的,且地板的倒影和人物裙摆的实际摆动一致,人物整体动作还算自然。然而右手在最后的鞠躬动作从上往下摆动时,还是出现了虚影。

即梦生成的视频动作幅度较小,鞠躬的动作也较为标准,但手指处依然有一些不协调,在从上向下移动时,手指数量似乎不对。不过即梦的表现已经极为出色,没有出现明显的瑕疵。

(图源:即梦生成)

上一轮测试中表现不太出色的清影,这一轮又出现了问题,人物鞠躬动作显得极为缓慢,而且在移动过程中,手臂、手指、面部都出现了扭曲变形的情况,显然是根据人物的图片生成立体动作时处理不够完善,以至于存在明显的不协调画面。

拍我生成的视频除了提示词描述的舞女鞠躬,还主动将镜头向后拉,展示出了下方观众鼓掌的画面。问题是,人物的鼓掌动作极度不协调,以至于画蛇添足。

与上一轮评测的结果相似,静态事物各家模型生成的视频质量相似,动态事物的处理存在明显差距。至于手指处不协调的问题,自从 AI 能够创作图片和视频开始就一直存在,时至今日仍未被彻底解决。

可灵虽然有手臂虚影这一明显问题,但主动给自己增加难度的转圈动作属于加分项,与即梦仍可并列第一,拍我虽然也存在观众鼓掌时动作扭曲的问题,但类似电影镜头的处理,也能为其加分。清影在没有主动给自己增加难度的情况下,仍出现了手臂、手指、面部扭曲且动作较为缓慢的问题,表现最差。

值得一提的是,四款 AI 大模型并未消除图片的水印,比较尊重原创,但清影用自己的水印挡住了图片的水印,处理不是太好。

第三轮《荷塘月色》:阅读理解比拼,即梦堪称「高考状元」。

在课本、试卷上,我们经常读到名家散文,有时还需要结合自己的阅读理解,回答相应的问题。这一次,雷科技也给视频模型准备了一道阅读理解,要求它们按照朱自清的散文《荷塘月色》段落生成一段视频。具体内容如下:

曲曲折折的荷塘上面,弥望的是田田的叶子。叶子出水很高,像亭亭的舞女的裙。层层的叶子中间,零星地点缀着些白花,有袅娜地开着的,有羞涩地打着朵儿的;正如一粒粒的明珠,又如碧天里的星星,又如刚出浴的美人。微风过处,送来缕缕清香,仿佛远处高楼上渺茫的歌声似的。这时候叶子与花也有一丝的颤动,像闪电般,霎时传过荷塘的那边去了。叶子本是肩并肩密密地挨着,这便宛然有了一道凝碧的波痕。叶子底下是脉脉的流水,遮住了,不能见一些颜色;而叶子却更见风致了。

可灵生成的视频一如既往高质量,说是用手机或相机拍摄的,可能都有人信,荷叶、荷花真实度极高,水面的倒影、波纹也宛如真实画面,镜头的移动更为这段视频增添了一丝灵动感。美中不足的是,可灵可能误解了「像闪电般」这句话,导致画面开头部分真的有闪电划过。

即梦创作视频的质量同样稳定,荷花、荷叶随风摇摆,水中的倒影也在晃动。尽管植物茎叶在水中晃动时激起波纹的特性,该视频没能太好地展示出来,但不能掩盖这段视频的优秀。

至于清影生成的视频,荷叶与荷花铺满了水面,却与段落中的「叶子出水很高」不相符,也没有体现出来波痕、流水等特点,整个视频宛如静态,只有小幅度的变化。

如果说可灵生成的视频中掠过的闪电可以用晴空霹雳强行解释,拍我生成的画面中,从水中钻出的诡异人头,只能用 「荷花修炼成精」这样的玩笑来解释了。出现这种画面,可能是拍我理解错了「又如刚出浴的美人」这句话。清影生成的画面清新唯美,如果没有人头从水面钻出的画面,可以给高分,但很遗憾。

在这一轮测试中,表现最好的是即梦,画面很好地展示出了荷花池随风而动的景象,不存在多余的元素。其次则是可灵,镜头推进丝滑顺畅,开头的闪电也容易修改。清影和拍我各有各的问题,表现相对较差。

相较于口语化的文字,散文通常更加晦涩难懂,出现些许偏差也可以理解,能够将荷塘、荷花、荷叶展示出来,可见几款 AI 大模型在人类语言识别方面已经相当出色。

小结:可灵、即梦并列冠军,清影、拍我略显逊色。

从三轮测试的结果不难看出,固定镜头下动作幅度较小的场景,对于视频生成大模型来说已不是难题,生成的视频足以以假乱真。而到了动作幅度较大的场景,可灵和即梦表现稍强一些。

其中可灵喜欢给自己增加难度,比如舞女转个圈、荷塘镜头推进等等,对于文字描述的理解能力也相对准确。

即梦以求稳为主,三轮测试均未出现大错。清影则在三轮测试中,均出现了较为严重的问题,生成的第一个视频马儿在空中行走,第二个视频肢体和面部扭曲且动作缓慢,第三个视频未能正确刻画出场景。

至于拍我,三轮测试中整体表现还算不错,除了最后一轮的诡异人头。拍我全球用户已突破 6000 万,在国内市场实力与名气存在落差。

数月前,雷科技曾针对多款 AI 大模型做过一期评测,它们的表现却令我大失所望,生成的画面僵硬、虚假。短短几个月过去,AI 大模型对于真实世界物理变化的理解上升了一个台阶,光影效果、衣服的摆动等等,都几乎难以分辨真伪。

可灵和即梦的背后分别是国内头部短视频平台快手和抖音,拥有庞大的视频资源可供训练,它们升级幅度也是最大的。视频模型领域大战将起,可灵与即梦似乎已经拥有了竞争王座的资格。

据界面新闻报道,在 2024 年第三季度百度总监会上,百度董事长兼 CEO 李彦宏表示,Sora 这种视频生成模型投入周期长,可能拿不到收益,无论多么火爆,百度都不会去做。然而日前百度却在 AI Day 科技开放日上推出了自研视频生成模型 MuseSteamer 和绘想平台,并宣称 MuseSteamer 在权威榜单 VBench I2V 中以总分 89.38% 位列全球第一。

雷科技进入绘想进行了一番体验,该平台较为简洁,仅提供视频生成和数字人生成两个功能,其中数字人生成功能暂未开放,视频生成目前只支持图生视频。

于是雷科技也用第二轮题目对其进行了测试,除了人物面部表情不够自然,且动作也略显迟缓外,其他方面表现不比可灵、即梦等大模型差,光影效果刻画到位,尤其是脚部的动作。不过这段视频也有一个问题,绘想似乎想要消除插入图片的水印,但又没能去除干净。

(图源:绘想生成)

百度进入视频生成模型领域,只有一个解释,那就是看到了视频生成模型的前景,以及其能够带给百度的利益。

视频生成模型在专业领域已有不少成绩,除了开头提到的《SURREAL》,还有《三星堆:未来启示录》《中国神话》《新世界加载中》《冰霜》等内容。

绘想平台提供的数字人生成功能,大概率将用于微短剧创作,数字人的形象可以在多个视频中使用,更便于用户创作内容。而且微短剧一集一般在 1 分钟到 3 分钟,创作的难度较低,AI 大模型甚至可以提高视频的质量,让微短剧不是停留在大篇幅对话和狭小场景,能够展示更多场景。

作为国产视频生成模型的佼佼者,截至今年第一季度可灵全球用户规模已突破 2200 万,相较上线初期增长了 25 倍,累计生成了 1.68 亿个视频和 3.44 亿张图片,并且可灵 2.0 模型曾登顶 AI 基准测试机构 Artificial Analysis 图生视频榜单。

无论是可灵、拍我用户数量的爆发式增长,还是百度入局视频生成模型领域,都预示着视频生成模型即将迎来爆发期。不过以目前视频生成模型的能力而言,普通人用其创作长视频难度较高,视频模型在处理大幅度动作方面的能力仍有待提升。专业团队则有足够的技术实力和资源对视频进行优化,消除 AI 生成视频的瑕疵。

视频模型短短数月从生成的视频质量堪忧,发展到瑕不掩瑜,进步堪称神速。或许几个月后之后,视频模型生成的内容将再无违和感,可生成视频的时长也有望进一步增加。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 字节跳动 分辨率 抖音 歌手
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论