猜AI视频，你猜你也错！只有10%的人过关了

坏事儿了，这回我是真有点分不清 AI 和真人视频了……

我已经说不清楚了，大家伙干脆直接一起猜猜看吧。

Round1：先来个热身题，左右这两段「眼睛」视频，哪一个是 AI 生成的？

Round2：难度稍微加一点，左右这两只狮子特写镜头，哪一段更像是 AI 做的？

Round3：换个生活点的，左右这两块拿披萨的视频，哪一块是 AI 生成的？

Round4：动态场景来了，左右这两段骑摩托车的画面，哪一段更像 AI 视频？

Round5：最后一题收官——左右这两个日历画面，哪一个是 AI 生成的？

好了，答案揭晓时刻来了！每一道题里，由 AI 生成的视频依次是：

右、右、左、左、右。

怎么样，猜对了几个？（欢迎友友们在评论区报战绩～）

这组视频，其实来自Runway做的一项 AI 实验：结果发现，在 1043 名参与者里，只有10%的人能成功分辨出哪些是 AI 视频。

以前刷视频：这不一眼 AI 吗？现在刷视频：到底哪个才是真的啊？？

反正我是真分辨不出来了。

只有 10% 的人，真的分得清 AI 视频和真实视频

其实 Runway 搞这么个实验，也真不是一时兴起。

起因是他们偶然发现，连《自家员工》都快分不清来自家模型生成的视频和真实视频之间的区别了…（你就说离谱不

所以，为了更好地测试模型的实际表现效果，以及大家对 AI 视频的辨别能力，Runway 才特意发起了这么一场「盲测」。

测试方法也很简单：把自家新模型 Gen-4.5 生成的视频，混进真实视频里，看普通人还能不能猜出来。

对此，他们随机拉来了1043名参与者，让每位参与者随机观看 20 个视频（由 10 个真实视频和 10 个生成视频组成）。

并让他们逐条判断：这段视频到底是真实拍的，还是 AI 生成的。

为了更准确、客观地评估结果，他们还特意要求每个视频只生成一次——

输出不做任何编辑，也没有为了提升质量或避免偏差而反复抽卡，尽量把模型的原始效果直接丢给人眼来审～

您猜怎么着哈？

只有99 位参与者，能在 20 道题里答对 15 道以上的题目，算下来，占比其实也就只有 10%。

换句话说就是，超过 90% 的参与者其实是没办法准确地区分 Gen-4.5 的输出的视频和真实视频的……

不仅如此，整体数据也蛮尴尬：所有人加起来的平均正确率是57.1%，其实也就比纯靠蒙 50% 稍微高那么《一丢丢》。

更抓马的是：他们发现，大家更容易把 AI 生成的视频当成真实视频，把真实视频错认成 AI 的情况，却没那么常见……

这样，为了更好地论证他们这个结论，我把刚才做过的一道题拿出来，咱再仔细研究一下：

咱看下面这道题，其实我第一反应是：我其实看不出什么区别…所以答案也是盲选的。

我不知道跟我有同样感觉的友友们，是不是跟我的「判断标准」一样：

就是，我们其实对 AI 一直有点「歧视」心理。

具体表现在，总觉得视频越清晰、画质越高、画面元素轮廓越明确，越像是 AI 搓出来的，反而画面稍微有点「糊」的意思，我们会下意识觉得更像真实拍的。

其实去年 Sora2 那么大火的原因，还不在于说产品噱头本身有多大，而是那画质确实让人看不出来有 AI 的痕迹……

类似的，像上面这道题里，左边 AI 生成的视频在画面处理上几乎和右边没啥差的时候，那就真的只能盲猜了，基本分辨不出来。

当然，也有网友也给出了自己的分析，觉得咱答不对的原因，主要是「镜头太快」的锅，根本来不及抠细节。

（问题是…镜头放慢了，咱就能分辨出来了吗… )

人眼这套 AI 判断体系，开始不够用了

说实话，我做完这轮测试最直观的感受，一边是在感叹模型能力已经离谱到什么程度了，一边也会打个冷颤。

因为总觉得照这个速度下去，咱以后刷到的 10 条视频里，没准有 8 条都是 AI 做的，而我们根本看不出来。

这其实也和 Runway 给出的判断一致——

如果现在的视频模型训练数据和算力继续往上堆，视频生成模型迭代速度越跑越猛。

那人工智能产业和整个社会将会逼近一个临界点，普通人将越来越难判断一段视频是否由 AI 生成。

是的，单单指望大家靠肉眼来鉴定真假，这套方法其实已经有点不够用了。

得出类似「让人悲哀又震惊」结论的，还不止 Runway 一家。

在去年的时候，全球领先的生物识别验证和认证技术公司「iProov」也做了类似的研究调查。

他们的测试样本规模更大，一共测试了 2000 名英国和美国消费者，来判断他们能不能辨别 AI 生成的内容。

他们得出的结论，比 Runway 更抓马：

只有0.1%的参与者，能在所有题中能把 AI 内容和真实内容全部答对。（约 · 全军覆没）

而且他们还发现，AI 视频比 AI 图片更会骗人！

参与者判断 AI 合成视频的正确率，比判断 AI 图像的正确率低了 36%。

更离谱的是，在这些测试者里，居然还有差不多 20% 的人连「AI 生成」这事儿都没听说过……

这边呢，是集体翻车，另一边呢，则是超绝自信爆棚：

他们发现，还有 60% 的测试者对自己「能不能看穿 AI 生成」这事儿特自信。

不管他们最后答对还是答错，这种自信都一样存在，特别是 18 – 34 岁的人群极其明显……

（我答错了你也别管，反正我就是能辨别得出来 AI 不 AI！）

此外，澳大利亚的一个面向高中生的教育新闻节目「ABC News」，在同类实验中，也得出了差不多的结论：

他们找来了 4 名澳大利亚高中生，给他们展示了 21 个短视频（10 个真实视频、11 个 AI 生成视频），逐一播放后让他们判断：这段视频到底是真实的，还是 AI 生成的。

结果同样有点扎心——整体正确分辨率只有 67%，和 Runway 这次得出的数据，其实差不多……

说实话，如果没做 Runway 这次的 AI 辨别测试，我也一直都是超绝自信体，总觉得是不是 AI，一眼就能看出来。

但现实确实狠狠打脸了，AI 的进化速度和「防伪」手段，真远比咱肉眼的段位高得多。

其实换个角度想想，对有内容创作需求的朋友来说，这事儿反倒算个好消息，也侧面说明，现在的 AI 视频生成效果，确实已经卷到一个新高度了。

至于里面更深一层的冷思考嘛，咱就静等一波更狠的 AI 辨别工具早点登场吧……

对了，Runway 这次的盲测完整版我放下面了，有兴趣的 uu 可以自己上手试试，欢迎大家在评论区 share 一下成绩～

「Runway」AI 辨别测试链接：TuringReel.com

参考链接：

[ 1 ] https://www.iproov.com

[ 2 ] https://x.com/runwayml/status/2014339182009758173

[ 3 ] https://www.abc.net.au/news

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

年度「AI 100」产品榜单正式发布！

量子位智库通过三大板块——最强综合实力的「旗舰 AI 100」、最具未来潜力的「创新 AI 100」和十大热门赛道代表产品，全面梳理 2025 年度国内 C 端 AI 产品的发展脉络与创新成果。

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签