量子位 12小时前
苹果AI论文太坑了,用GPT写的GT,导致北京程序员通宵加班
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

大无语事件天天有,今天特别多——

AI 大模型公司阶跃星辰的研究员,自曝被苹果挂在 arXiv 上的论文,狠狠坑了一把。

自己去反馈问题,对方简单回了两句就把 issue 关了;直到自己留下公开评论,对方才撤稿下架代码了。

别着急,我们先来梗概一下故事线:

这个月月初,阶跃研究员 Lei Yang 被同事安利了一篇 arXiv 上苹果出品的论文(该论文也在投 ICLR 2026),论文中提出的 benchmark 和 Lei Yang 最近做的研究非常契合。

他超级开心,马上停下手头的工作,开始适配这个 benchmark。

结果这个声称 " 小模型全面超越 GPT-5、数据经人工精心把控 " 的视觉 benchmark,实际上却存在荒谬的官方代码 bug 和高达约 30% 的 GT(Ground Truth)错误率

看到这儿,你是不是已经觉得够离谱了?

不好意思了朋友们,这还不是最离谱的……后续的故事看得人脑子上一个问号接一个问号冒出来。

这场闹剧的荒诞程度,一步步升级,直到最终 Lei Yang" 公开把它喷撤稿了 "。

总之看得围观的 Reddit 吃瓜网友连连摇头:

我们曾拥有 BatchNorm、ResNet、Dropout、Transformer 这些革命性成果。但到了大模型时代看起来真的是一团糟。

好了,咱们一起来详细看看这个大无语事件到底是怎么回事。

什么,GT 的错误率可能高达 30%?

这个荒诞故事涉及的论文名为《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。

它提出了一个基于谜题的视觉推理任务的诊断 benmark。

巧的是,论文中提出的这个新 benchmark,和 Lei Yang 近期的研究方向挺契合。

所以 Lei Yang 读完论文后,停下手头其他工作,开始着手适配。

没想到的是,熬了一个周末的通宵完成适配后,模型跑出来的点数极其之低,远低于预期。

" 我非常沮丧。"Lei Yang 又开始做各种检查和尝试。

这个阶段就开始出现不对劲了。Lei Yang 发现了官方代码的 bug

请求 VLM 的时候只用了图片路径的字符串,而不包含图片本身。

行,有 bug 咱们就修 bug 呗!

好家伙,修复这个 bug 后,模型的点数更低了……

这结果给 Lei Yang 干懵了。他在多个平台公开的小作文中写道:" 由于结果过于离谱,我不得不做更多的验证工作,最终结论仍然是修了 bug 后点会更低。"

不得已,Lei Yang 决定一条一条地分析错题,看看自家的模型是怎么做错的。

他抽查了前 20 道阶跃模型答错的题,结果令人大吃一惊:

里面有 6 道题明确属于 GT 错误。

从 GT 错误风格来看,很可能是模型自动生成的 GT 加上质检严重不足,导致 GT 包含大量幻觉。

这意味着,写进论文里、作者精心挑选用于展示的内容存在大问题。

他初步估算了一下,GT 错误率可能高达 30%

" 我公开把它喷撤稿了 "

于是,Lei Yang 选择在 GitHub 上向作者反馈,指出其中的错误。

6 天过后,论文作者简单回复了一下,然后直接关闭了 issue

给 Lei Yang 气的呀,组织语言一通回击。

然而这件荒谬事件没有最离谱,只有更离谱——

ICLR review 公布后,Lei Yang 看了看该论文的5 条 reviews,居然没有任何一个审稿人发现 GT 质量问题,也没人发现论文中的例子存在幻觉和错误

(这里中插一下 Openreview 的直通车:https://openreview.net/forum?id=pS9jc2zxQz)

愤怒之下,他撰写了一份详尽的 Public Comment。

内容大概是列举 GT 问题的实例,提醒 ICLR 审稿人和社区这个数据集质量堪忧、极易误导研究方向。

在这条评论最后,Lei Yang 留了句话

我在这里评论是为了防止有兴趣的研究人员重复我经历的相同循环——看到第一个错误检测任务时的兴奋,运行它后的震惊和失望,以及追踪底层 GT 问题后的沮丧——从而节省每个人的时间和精力

Fine,看似是输出愤怒,实则是真没招了,顺便警醒一下后来人不要再被坑。

不少网友为 Lei Yang 的这个行为超棒的:

最后,在这条公开评论发表的第二天,论文作者就宣布撤稿,并删除了 GitHub 上的 repo

原论文作者公开回应

这两天 Lei Yang 在多个平台分享自己的惨痛踩坑经历,希望通过分享这一遭遇,让更多研究者警觉起来,尤其不要盲目信任表面包装,哪怕是来自大公司。

今天上午,论文作者在小地瓜(没错就是那个平台)上现身回应了。

他首先声明自己这边已经和 Lei Yang 详细交流,也感谢和尊重推动学术社区进展的每个人。

我们梳理了一下论文作者的回应。

首先关于数据质量,作者承认审核不周

虽然当初对 injected error(人为注入错误)的样本做了人工检查,但没有认真审核更关键的部分。

所以也就没有留意到 GT 解答思路由 GPT 自动转换成分步骤 CoT 时出现了幻觉,导致 step label 出现了问题。

这部分实质上承认了此次荒谬事件中最核心的问题,即自动构建数据时的质检严重不足。

其次说了说关于论文中 example inference 的事儿。

他解释称项目中的 example inference 代码是一个 dummy 示例,不是正式的演示代码。

在 o3 的输出例子中,是可以看到模型确实看到了图片的。

然后,他表示当时接收到 Lei Yang 的提醒后,修改了 dummy 代码,并且回复了 Lei Yang。

最后他对自己当时直接关闭了 issue 感到非常抱歉。

" 当时 reopen 并且回复了新提出的问题,下次也会一直开着直到问题全部解决。"

回应贴的最后一点是这么写的:

我们的目标包括这个 benchmark 的目的都是推进各个研究方向,在做数据时有不应出现的疏忽,但我们各自都是出于对这个方向的兴趣,利用业余时间在做这个项目,也在其中花费了大量时间精力为了推进这个小方向的发展。我们会认真总结这次的经验教训,再接再厉。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai the reddit
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论