量子位 01-23
猜AI视频,你猜你也错!只有10%的人过关了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

坏事儿了,这回我是真有点分不清 AI 和真人视频了……

我已经说不清楚了,大家伙干脆直接一起猜猜看吧。

Round1:先来个热身题,左右这两段「眼睛」视频,哪一个是 AI 生成的?

Round2:难度稍微加一点,左右这两只狮子特写镜头,哪一段更像是 AI 做的?

Round3:换个生活点的,左右这两块拿披萨的视频,哪一块是 AI 生成的?

Round4:动态场景来了,左右这两段骑摩托车的画面,哪一段更像 AI 视频?

Round5:最后一题收官——左右这两个日历画面,哪一个是 AI 生成的?

好了,答案揭晓时刻来了!每一道题里,由 AI 生成的视频依次是:

右、右、左、左、右

怎么样,猜对了几个? (欢迎友友们在评论区报战绩~)

这组视频,其实来自Runway做的一项 AI 实验:结果发现,在 1043 名参与者里,只有10%的人能成功分辨出哪些是 AI 视频。

以前刷视频:这不一眼 AI 吗? 现在刷视频:到底哪个才是真的啊??

反正我是真分辨不出来了。

只有 10% 的人,真的分得清 AI 视频和真实视频

其实 Runway 搞这么个实验,也真不是一时兴起。

起因是他们偶然发现,连《自家员工》都快分不清来自家模型生成的视频和真实视频之间的区别了…(你就说离谱不

所以,为了更好地测试模型的实际表现效果,以及大家对 AI 视频的辨别能力,Runway 才特意发起了这么一场「盲测」。

测试方法也很简单:把自家新模型 Gen-4.5 生成的视频,混进真实视频里,看普通人还能不能猜出来。

对此,他们随机拉来了1043名参与者,让每位参与者随机观看 20 个视频(由 10 个真实视频和 10 个生成视频组成)。

并让他们逐条判断:这段视频到底是真实拍的,还是 AI 生成的。

为了更准确、客观地评估结果,他们还特意要求每个视频只生成一次——

输出不做任何编辑,也没有为了提升质量或避免偏差而反复抽卡,尽量把模型的原始效果直接丢给人眼来审~

您猜怎么着哈?

只有99 位参与者,能在 20 道题里答对 15 道以上的题目,算下来,占比其实也就只有 10%。

换句话说就是,超过 90% 的参与者其实是没办法准确地区分 Gen-4.5 的输出的视频和真实视频的……

不仅如此,整体数据也蛮尴尬:所有人加起来的平均正确率是57.1%,其实也就比纯靠蒙 50% 稍微高那么《一丢丢》。

更抓马的是:他们发现,大家更容易把 AI 生成的视频当成真实视频,把真实视频错认成 AI 的情况,却没那么常见……

这样,为了更好地论证他们这个结论,我把刚才做过的一道题拿出来,咱再仔细研究一下:

咱看下面这道题,其实我第一反应是:我其实看不出什么区别…所以答案也是盲选的。

我不知道跟我有同样感觉的友友们,是不是跟我的「判断标准」一样:

就是,我们其实对 AI 一直有点「歧视」心理。

具体表现在,总觉得视频越清晰、画质越高、画面元素轮廓越明确,越像是 AI 搓出来的,反而画面稍微有点「糊」的意思,我们会下意识觉得更像真实拍的。

其实去年 Sora2 那么大火的原因,还不在于说产品噱头本身有多大,而是那画质确实让人看不出来有 AI 的痕迹……

类似的,像上面这道题里,左边 AI 生成的视频在画面处理上几乎和右边没啥差的时候,那就真的只能盲猜了,基本分辨不出来。

当然,也有网友也给出了自己的分析,觉得咱答不对的原因,主要是「镜头太快」的锅,根本来不及抠细节。

(问题是…镜头放慢了,咱就能分辨出来了吗… )

人眼这套 AI 判断体系,开始不够用了

说实话,我做完这轮测试最直观的感受,一边是在感叹模型能力已经离谱到什么程度了,一边也会打个冷颤。

因为总觉得照这个速度下去,咱以后刷到的 10 条视频里,没准有 8 条都是 AI 做的,而我们根本看不出来。

这其实也和 Runway 给出的判断一致——

如果现在的视频模型训练数据和算力继续往上堆,视频生成模型迭代速度越跑越猛。

那人工智能产业和整个社会将会逼近一个临界点,普通人将越来越难判断一段视频是否由 AI 生成。

是的,单单指望大家靠肉眼来鉴定真假,这套方法其实已经有点不够用了。

得出类似「让人悲哀又震惊」结论的,还不止 Runway 一家。

在去年的时候,全球领先的生物识别验证和认证技术公司「iProov」也做了类似的研究调查。

他们的测试样本规模更大, 一共测试了 2000 名英国和美国消费者,来判断他们能不能辨别 AI 生成的内容。

他们得出的结论,比 Runway 更抓马:

只有0.1%的参与者,能在所有题中能把 AI 内容和真实内容全部答对。(约 · 全军覆没)

而且他们还发现,AI 视频比 AI 图片更会骗人!

参与者判断 AI 合成视频的正确率,比判断 AI 图像的正确率低了 36%。

更离谱的是,在这些测试者里,居然还有差不多 20% 的人连「AI 生成」这事儿都没听说过……

这边呢,是集体翻车,另一边呢,则是超绝自信爆棚:

他们发现,还有 60% 的测试者对自己「能不能看穿 AI 生成」这事儿特自信。

不管他们最后答对还是答错,这种自信都一样存在,特别是 18 – 34 岁的人群极其明显……

(我答错了你也别管,反正我就是能辨别得出来 AI 不 AI!)

此外,澳大利亚的一个面向高中生的教育新闻节目「ABC News」,在同类实验中,也得出了差不多的结论:

他们找来了 4 名澳大利亚高中生,给他们展示了 21 个短视频(10 个真实视频、11 个 AI 生成视频),逐一播放后让他们判断:这段视频到底是真实的,还是 AI 生成的。

结果同样有点扎心——整体正确分辨率只有 67%,和 Runway 这次得出的数据,其实差不多……

说实话,如果没做 Runway 这次的 AI 辨别测试,我也一直都是超绝自信体,总觉得是不是 AI,一眼就能看出来。

但现实确实狠狠打脸了,AI 的进化速度和「防伪」手段,真远比咱肉眼的段位高得多。

其实换个角度想想,对有内容创作需求的朋友来说,这事儿反倒算个好消息,也侧面说明,现在的 AI 视频生成效果,确实已经卷到一个新高度了。

至于里面更深一层的冷思考嘛,咱就静等一波更狠的 AI 辨别工具早点登场吧……

对了,Runway 这次的盲测完整版我放下面了,有兴趣的 uu 可以自己上手试试,欢迎大家在评论区 share 一下成绩~

「Runway」AI 辨别测试链接:TuringReel.com

参考链接:

[ 1 ] https://www.iproov.com

[ 2 ] https://x.com/runwayml/status/2014339182009758173

[ 3 ] https://www.abc.net.au/news

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

 年度「AI 100」产品榜单正式发布!

量子位智库通过三大板块——最强综合实力的「旗舰 AI 100」、最具未来潜力的「创新 AI 100」和十大热门赛道代表产品,全面梳理 2025 年度国内 C 端 AI 产品的发展脉络与创新成果。

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论