据北京大学 24 日消息,在北京大学化学与分子工程学院,有机化学考试是许多同学痛并快乐着的挑战。然而,期中考前突如其来的一条通知,却让这场考试的气氛变得不同寻常:
" 请注意,本次考试范围不仅限于有机化学。"
但比起考试范围的变化,考场里迎来的一批 " 特殊考生 ",更让人意想不到。
它们不需要落座,也无需纸笔。它们是 GPT、Gemini、DeepSeek ……这些当下世界上最聪明的 AI,正在云端与 174 位北大化学与分子工程学院的大二学生同场竞技。
这是一场精心设计的 " 图灵测试 ",也是北大科研团队为大语言模型投下的一块 " 试金石 "。
近日,北京大学化学与分子工程学院联合北大计算中心、计算机学院、元培学院团队,发布了最新成果 SUPERChem。近期,他们以一套 " 北大试卷 " 为标尺,冷静丈量着 AI 在科学推理上的真实边界。

一场特殊的期中考
打开 SUPERChem 的题库,一种 " 压迫感 " 扑面而来。
晶体结构的精细解析、反应机理的深度推演、物化性质的定量计算……这 500 道题目并非来自网络上随手可得的公开题库,而是源于对高难度试题和前沿专业文献的深度改编。
为什么要费尽周折重新出题?
" 因为大模型太会‘背书’了。"团队成员解释道。互联网可及的测试题大多已被博闻强识的 AI 在训练阶段熟读。而化学,恰恰是一门不能只靠死记硬背的学科。它既有严密的逻辑推演,又充满了对微观世界的空间想象。" 我们非常好奇,大语言模型的一维 next token prediction,能否解决二维、甚至三维空间中的复杂推理问题。"
要设计一套让 AI" 没见过 "、必须靠硬实力推理的题目,难度极高。然而,这正是北大化院的独特优势所在。近百名师生——其中不乏奥赛金牌得主——集结起来,决定给 AI 出一套高门槛、重推理、防作弊的试卷。
他们要考的,是 AI 是否真的 " 懂 " 化学。
一场游戏中的学术共创
设计题目往往是枯燥的,但这群年轻的北大人却把它变成了一场 " 游戏 "。
为了构建这套高质量评估集,团队搭建了一个专属协作平台。在这里,出题、审题、修题从单调的任务,变成了一套循序渐进的 " 通关 " 流程。成员们在平台上协作,互相审阅、彼此 " 找茬 ",让严谨的科学探讨与活跃的思维碰撞交织共融。
团队还引入了积分激励系统,让出题过程就像在游戏中打怪升级。一道题目需历经编写初稿、撰写解析,再通过初审与终审的严格审核,每个环节均由不同的同学把关,并发放相应的积分。终审通过的题目,甚至最多迭代过 15 个版本。

当最强大脑遇上 " 北大难度 "
考试成绩揭晓。
在这场精心设计的考试中,人类展现出了复杂的科学直觉。作为基线,参与测试的北大化院本科生取得了 40.3% 的平均准确率。这个数字本身,就足以说明这套题目的硬核程度。
而 AI 的表现如何?
即便是接受测试的顶尖模型,其成绩也仅与低年级本科生的平均水平相当。


让团队感到意外的是视觉信息带来的困惑。化学的语言是图形,分子结构、反应机理图蕴含着关键信息。然而对于部分模型而言,当引入图像信息时,其准确率不升反降。这说明,当前的 AI 在将视觉信息转化为化学语义时,仍存在明显的感知瓶颈。

然而,即使选对了答案,解题步骤也可能经不起推敲。因此,团队为每一道题目都标注了详细的评分规则。在 SUPERChem 这台 " 显微镜 " 下,AI 是真懂还是装懂,一目了然。
团队发现,AI 的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高阶任务。当前的顶尖模型虽然拥有海量的知识储备,但在处理需要严密逻辑和深刻理解的硬核化学问题时,仍显得力不从心。

通向 AGI 的一小步
SUPERChem 的诞生,填补了化学领域多模态深度推理评测的空白。
团队发布这项成果,并非为了证明 AI 的短板,而是为了推动它走得更远。SUPERChem 就像一个路标。它提醒我们:从通用的聊天机器人,到能够理解构效关系、推演反应机理的专业科学助手,中间还有很长的一段路要走。那是从 " 记住知识 " 到 " 理解物理世界 " 的跨越。
目前,SUPERChem 项目已全面开源。团队希望这套源自北大的 " 试卷 ",能成为全球科学与人工智能领域的公共财富,去催化下一次技术的爆发。或许在不久的将来,当我们再次打开这张试卷时,AI 能交出一份满分的答卷。那将是化学与人工智能共同的惊喜。
挑战一下?
我们选取了一道未能进入 SUPERChem 题库的 " 简单 " 题目,邀请你来体验这场考试。
为纪念门捷列夫发现元素周期律 150 周年,国际纯粹和应用化学联合会将 2019 年设为 " 国际化学元素周期表年 "。门捷列夫预言了多种当时未知的元素,M 即为其中之一。
M 是一种银白色金属,质软,能溶于浓硫酸、硝酸、盐酸和稀碱溶液。M 与氧气加热至 250 ° C 反应,可得到淡黄色固体 A,A 经 SOCl2 处理可得到亮黄色固体 B,B 也可由 M 与黄绿色气体 C 直接加热反应得到;若将 B 与单质气体 D 加热至 200 ° C 反应,则转化为红色固体 E;将 M 直接溶于稀盐酸,也可得到 E 的溶液;但若将镀有 M 的镁片溶于稀盐酸,可以制得少量二元化合物 F;F 在常温下为液体,不稳定,其水溶液显酸性;F 能与金属钾反应,生成淡灰色固体 G,并放出单质气体 D。
根据上述信息,从以下选项选出正确的说法:
A:物质 M 的原子序数和族数的奇偶性不同
B:镀有 M 的镁片与稀盐酸反应,产物中 Mg 的化合价与 A 中 M 的化合价一样
C:G 具有反萤石结构
D:由于空气氧化,E 溶液久置会转化成含 B 溶液
每日经济新闻综合北京大学
每日经济新闻


登录后才可以发布评论哦
打开小程序可以发布评论哦