数字生命卡兹克 2025-11-20
AI看不到的爱心,成了最棒的AI检测器
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

本文来自微信公众号:数字生命卡兹克,首发于 2025 年 10 月 31 日,作者:数字生命卡兹克,题图来自:AI 生成

这两天在网上刷到了一张图,很有意思。

其实就是一张经典的视觉错觉图,做了个漂浮的心形图案。

如果你用电脑打开这篇文章的话,没看到这个图动起来的话,那就用手机打开或者直接把页面缩小。

瞬间,你就能看到这个图里的爱心,直接左右横跳起来了。

看到的兄弟可以把公屏打在弹幕上。

这哥们说,这是最好的 AI 探测器,说,没有 AI 能看到这个图中间还有个爱心

我顺手找了几个模型试试,结果无一例外,果然,没一个 AI 认出来。

比如 Gemini 2.5 Pro,率先翻车。

给我扯了一堆有的没的,然后说了一句,圆圈。

圈你妹 = =

GPT-5-Thinking,想了 2 分多分钟,直接阵亡。

甚至,我还试了一下豪华版 GPT-5 Pro。

在长达 7 分钟的花里胡哨之后,宣布直接躺平。

国产三巨头,豆包、Qwen、元宝,也都倒在了这张图的淫威之下。

DeepSeek 因为没有多模态,反而逃过一劫。

在这测试过程中,我一度产生了一种错觉,就是,不会这些模型,不知道啥叫心形吧。

导致我非常智障地还去问了一下。

认识,看来没啥问题。

你们也能看到,我用的都是同一套提示词。

我觉得,同样的问题交给随便的一个人,应该都是能得出正确答案的。

所以,我就产生了很强的好奇。

这到底是什么?

再抽空花了一晚上的时间去 DeepReaserch 和研究之后,我看到了一篇 AI 这块超级好玩的论文。

是今年 5 月发的,叫《Time Blindness: Why Video-Language Models Can’t See What Humans Can?》

真的,AI 研究到后面,怎么发现,研究的全是人类。

这个标题翻译过来大概就是:

为什么视觉语言模型看不到人类能看到的东西?

虽然文中的例子是视频,跟我们上文的爱心图有点不太一样,但是底层原理,其实在我读完以后看来,是完全一脉相通的。

这项研究设置了一个基准,叫做 SpookyBench,合成了一堆由噪点组成的视频,是黑白的。

随便暂停一下,这个视频的每一帧,看起来都像是随机的雪花点或者电视噪音。

但是播放的时候,我们可以非常明确地看到一只鹿。

这个鹿我甚至都没法截图给大家看,只要截图出来就必是噪点图。

这玩意,跟最近 X 上流行的一个视觉错觉的宝剑视频还挺像的。

你只要一暂停,就啥也看不到了。

还有很多类似的。

这篇论文就拿 451 个这样的视频,组成了一个基准,去视觉大模型进行测试。

结果就是,非常的喜闻乐见。

人类可以毫不费力地识别出这些视频中的形状、文本和图案,准确率超过 98%。

而大模型的准确率,为 0%。

全军覆没,无一幸免。

我已经很久很久没见过这么多的 0 分了。

太特么赤鸡了。

无论模型架构大小、训练数据规模、是否经过微调或采用何种提示策略,AI 从未答对任何一段视频的内容。

我也拿几个模型去试了一下,同样的那头鹿的视频,Gemini2.5-Pro 同样无法识别。

原因其实特别简单。

AI 是空间维度上的王者,却是时间维度上的瞎子。

我这么说可能会有点难以理解。

我们可以先想想,现在所有的大模型,包括 GPT-5、Gemini 2.5 Pro,它们是怎么看视频的。

很多人以为他们跟人一样,就是搬个小板凳搁那坐着,目不转睛地看完了整个视频?

错了,不是这样的。

现在大模型的主流做法,本质上不是看视频,是看照片。

它们会从视频里,每隔一段时间抽帧,也就是截取几张静态的图片。 比如,第 1 秒截一张,第 1.5 秒截一张,第 2 秒截一张等等等等。

然后,AI 会用它那分析静态图片(也就是空间信息)的能力,去分析这些所有的照片。

“哦,这张照片里有噪点。”“哦,这张照片里还是噪点。”“哦,这张照片里依然是噪点。”

最后,它得出结论:“这特么就是个噪点视频。”

这就是最本质的问题所在,AI 彻底丢掉了所有的帧与帧之间的信息。

而那个“漂浮的心形”和“噪点中的鹿”,其实本质上,它们的信息恰恰只存在于帧与帧之间

这其实,就是,时间维度

在任何一个单独的瞬间,心形和鹿都是不存在的,都是不可见的。

你只有把这些瞬间连续播放,让时间流动起来,你才能看到他们。

突然想起了以前做交互设计的时候,有一个几乎刻在我血液里的心理学,这玩意,叫格式塔心理学。

几乎就是用户体验行业的基石之一。

里面有一个非常牛逼的原则,叫“共同命运法则”(Law of Common Fate)。

这个法则是说,我们的大脑会本能地、自动地、不讲道理地,把朝着同一方向运动的物体,识别为一个整体。

这玩意几乎就是刻在我们的史前基因里面的。

比如在几万年前的草原上,我们的老祖宗“智人坤坤”,正蹲在草丛里。

他眼前是一片随风摆动的、杂乱的灌木。

突然,在灌木丛中,有一小片叶子的摆动方式,跟周围所有的叶子都不一样,它们在以一个相同的规律,朝着同一个方向(比如坤坤的方向)缓慢移动。

坤坤的大脑,甚至不需要他思考,就会立刻拉响警报: “卧槽!快跑!老虎来了!!!有危险!!”

那些“共同运动”的像素点,在坤坤的大脑里自动组合成了老虎这个整体。

所以,你看,当你看到那个“噪点鹿”的视频时,你根本不需要努力,你大脑里的共同命运法则就自动启动了。

它帮你把所有一起往上移动的噪点归为一类,识别为“鹿”,把所有一起往下移动的噪点归为另一类,识别为“背景”。

你之所以能看到鹿,不是因为你看见了鹿,而是因为你看见了运动本身。

但 AI 不行。它没有我们这套“共同命运法则”的视觉系统。

它的架构,论文里叫“ Spatial Bias ”空间偏见,决定了它只能先去识别空间上的特征。

它看每一帧,都是一堆杂乱无章的噪点。

但它无法从时间的维度上,去发现这些噪点之间“共同的命运”,所以,它看不到那只鹿。

这个问题,在论文中,被称为。

时间盲视,Time Blindness。

目前看,好像没有啥解决办法,不仅仅是一个技术漏洞了,或者一个可以喂数据就能解决的小 bug,论文里也试了,微调训练也没用。

我们活在流中,而 AI 活在帧中。

这个世界对我们来说,首先是连续的、流动的、充满过程的。

而对 AI 来说,这个世界首先是离散的、静态的、充满物体的。

太有意思了,这是我最近看到的最哲学最让我喜欢的一段表述。

我们现在理解了噪点,让我们回到最开始的爱心。

这时候,我其实又产生了问题,不对啊,运动这事,是时间维度的,但是那个爱心,明明就是一张图,根本没有时间属性,那这玩意,到底为啥也能让人感觉到,动呢???

我没理解,于是,我又进行了新一轮的研究。

结果,答案居然让我有点无语。

答案特别简单,就是因为:

我们自己会动

还是,不受控制地动。

在 20 世纪 50 年代,眼动领域有一个实验证明了一个事情,就是,人眼在注视时并非完全静止,而是不断进行微小的运动。

正是这些不自主的眼球运动,保证了我们对静止图像的持续感知。

这样的视错觉图,基本上都是利用了我们这个会自己运动的特征,来做出动态效果的。

为了使人类能够看见,视网膜上的图像必须持续发生一定程度的运动。

反过来讲,如果某个视野(无论其大小、颜色或亮度)保持严格的静止,那么在 1~3 秒内,该区域就会在视野中逐渐消失。

视觉科学里有个差不多的理论是特克斯勒消逝效应,说的是当人们长时间注视一个固定点时,周边视野中不变的刺激会逐渐淡化甚至消失。

听起来挺绕的,但如果你想试一下,刻意控制眼球静止不动的话,你可以放大这张图,然后刻意的牢牢盯住中间的十字。

应该可以感觉到十字周围的颜色在慢慢消失,然后变成一片灰白色。

这就是著名的特克斯勒消逝效应的哲学。

没有变化,则等于没有信息。

这篇文章写着写着,突然感觉回到了 7、8 年前还在做用户体验设计的时候,天天研究认知心理学的日子。

那时候,我们天天在研究人,研究认知心理学,研究人的行为、研究人的眼动路线、研究人的注意力、研究人的记忆,就想着,我们的产品,怎么让用户体验更丝滑一点,让他更爽一点,我们的转化率更高一点。

没想到这么多年以后,天天研究 AI,发现到头来。

又回到了当年。

原来当年研究了那么久的知识,在如今的时代,又以另一种路径,穿越了时空,散发出了新的光彩。

AI 跟人,也真的都是超级有趣的物种。

在无数路径上殊途同归,却又在各自的路线上,分道扬镳。

但我还是更喜欢人一点。

毕竟,我们不仅能看到噪点中的鹿,我们还能看到沉默中的爱,看到无常中的美。

还有,那时间。

流逝的本身。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 三巨头 微信公众号 翻译 探测器
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论