坏事儿了,这回我是真有点分不清 AI 和真人视频了……
我已经说不清楚了,大家伙干脆直接一起猜猜看吧。
Round1:先来个热身题,左右这两段「眼睛」视频,哪一个是 AI 生成的?

Round2:难度稍微加一点,左右这两只狮子特写镜头,哪一段更像是 AI 做的?

Round3:换个生活点的,左右这两块拿披萨的视频,哪一块是 AI 生成的?

Round4:动态场景来了,左右这两段骑摩托车的画面,哪一段更像 AI 视频?

Round5:最后一题收官——左右这两个日历画面,哪一个是 AI 生成的?

好了,答案揭晓时刻来了!每一道题里,由 AI 生成的视频依次是:
右、右、左、左、右。
怎么样,猜对了几个? (欢迎友友们在评论区报战绩~)
这组视频,其实来自Runway做的一项 AI 实验:结果发现,在 1043 名参与者里,只有10%的人能成功分辨出哪些是 AI 视频。
以前刷视频:这不一眼 AI 吗? 现在刷视频:到底哪个才是真的啊??
反正我是真分辨不出来了。

只有 10% 的人,真的分得清 AI 视频和真实视频
其实 Runway 搞这么个实验,也真不是一时兴起。
起因是他们偶然发现,连《自家员工》都快分不清来自家模型生成的视频和真实视频之间的区别了…(你就说离谱不
所以,为了更好地测试模型的实际表现效果,以及大家对 AI 视频的辨别能力,Runway 才特意发起了这么一场「盲测」。

测试方法也很简单:把自家新模型 Gen-4.5 生成的视频,混进真实视频里,看普通人还能不能猜出来。
对此,他们随机拉来了1043名参与者,让每位参与者随机观看 20 个视频(由 10 个真实视频和 10 个生成视频组成)。
并让他们逐条判断:这段视频到底是真实拍的,还是 AI 生成的。
为了更准确、客观地评估结果,他们还特意要求每个视频只生成一次——
输出不做任何编辑,也没有为了提升质量或避免偏差而反复抽卡,尽量把模型的原始效果直接丢给人眼来审~

您猜怎么着哈?
只有99 位参与者,能在 20 道题里答对 15 道以上的题目,算下来,占比其实也就只有 10%。
换句话说就是,超过 90% 的参与者其实是没办法准确地区分 Gen-4.5 的输出的视频和真实视频的……
不仅如此,整体数据也蛮尴尬:所有人加起来的平均正确率是57.1%,其实也就比纯靠蒙 50% 稍微高那么《一丢丢》。
更抓马的是:他们发现,大家更容易把 AI 生成的视频当成真实视频,把真实视频错认成 AI 的情况,却没那么常见……

这样,为了更好地论证他们这个结论,我把刚才做过的一道题拿出来,咱再仔细研究一下:
咱看下面这道题,其实我第一反应是:我其实看不出什么区别…所以答案也是盲选的。

我不知道跟我有同样感觉的友友们,是不是跟我的「判断标准」一样:
就是,我们其实对 AI 一直有点「歧视」心理。
具体表现在,总觉得视频越清晰、画质越高、画面元素轮廓越明确,越像是 AI 搓出来的,反而画面稍微有点「糊」的意思,我们会下意识觉得更像真实拍的。
其实去年 Sora2 那么大火的原因,还不在于说产品噱头本身有多大,而是那画质确实让人看不出来有 AI 的痕迹……
类似的,像上面这道题里,左边 AI 生成的视频在画面处理上几乎和右边没啥差的时候,那就真的只能盲猜了,基本分辨不出来。
当然,也有网友也给出了自己的分析,觉得咱答不对的原因,主要是「镜头太快」的锅,根本来不及抠细节。

(问题是…镜头放慢了,咱就能分辨出来了吗… )
人眼这套 AI 判断体系,开始不够用了
说实话,我做完这轮测试最直观的感受,一边是在感叹模型能力已经离谱到什么程度了,一边也会打个冷颤。
因为总觉得照这个速度下去,咱以后刷到的 10 条视频里,没准有 8 条都是 AI 做的,而我们根本看不出来。
这其实也和 Runway 给出的判断一致——
如果现在的视频模型训练数据和算力继续往上堆,视频生成模型迭代速度越跑越猛。
那人工智能产业和整个社会将会逼近一个临界点,普通人将越来越难判断一段视频是否由 AI 生成。
是的,单单指望大家靠肉眼来鉴定真假,这套方法其实已经有点不够用了。

得出类似「让人悲哀又震惊」结论的,还不止 Runway 一家。
在去年的时候,全球领先的生物识别验证和认证技术公司「iProov」也做了类似的研究调查。
他们的测试样本规模更大, 一共测试了 2000 名英国和美国消费者,来判断他们能不能辨别 AI 生成的内容。

他们得出的结论,比 Runway 更抓马:
只有0.1%的参与者,能在所有题中能把 AI 内容和真实内容全部答对。(约 · 全军覆没)
而且他们还发现,AI 视频比 AI 图片更会骗人!
参与者判断 AI 合成视频的正确率,比判断 AI 图像的正确率低了 36%。
更离谱的是,在这些测试者里,居然还有差不多 20% 的人连「AI 生成」这事儿都没听说过……
这边呢,是集体翻车,另一边呢,则是超绝自信爆棚:
他们发现,还有 60% 的测试者对自己「能不能看穿 AI 生成」这事儿特自信。
不管他们最后答对还是答错,这种自信都一样存在,特别是 18 – 34 岁的人群极其明显……
(我答错了你也别管,反正我就是能辨别得出来 AI 不 AI!)

此外,澳大利亚的一个面向高中生的教育新闻节目「ABC News」,在同类实验中,也得出了差不多的结论:
他们找来了 4 名澳大利亚高中生,给他们展示了 21 个短视频(10 个真实视频、11 个 AI 生成视频),逐一播放后让他们判断:这段视频到底是真实的,还是 AI 生成的。
结果同样有点扎心——整体正确分辨率只有 67%,和 Runway 这次得出的数据,其实差不多……

说实话,如果没做 Runway 这次的 AI 辨别测试,我也一直都是超绝自信体,总觉得是不是 AI,一眼就能看出来。
但现实确实狠狠打脸了,AI 的进化速度和「防伪」手段,真远比咱肉眼的段位高得多。
其实换个角度想想,对有内容创作需求的朋友来说,这事儿反倒算个好消息,也侧面说明,现在的 AI 视频生成效果,确实已经卷到一个新高度了。
至于里面更深一层的冷思考嘛,咱就静等一波更狠的 AI 辨别工具早点登场吧……
对了,Runway 这次的盲测完整版我放下面了,有兴趣的 uu 可以自己上手试试,欢迎大家在评论区 share 一下成绩~
「Runway」AI 辨别测试链接:TuringReel.com
参考链接:
[ 1 ] https://www.iproov.com
[ 2 ] https://x.com/runwayml/status/2014339182009758173
[ 3 ] https://www.abc.net.au/news
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度「AI 100」产品榜单正式发布!
量子位智库通过三大板块——最强综合实力的「旗舰 AI 100」、最具未来潜力的「创新 AI 100」和十大热门赛道代表产品,全面梳理 2025 年度国内 C 端 AI 产品的发展脉络与创新成果。
一键关注 点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦