集智俱乐部 19小时前
AI 也会“自我反思”?Claude 模型现内省迹象,大语言模型认知新突破
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

摘要

你是否曾好奇 AI 在 " 思考 " 什么?当被问及如何得出答案时,AI 的回应是真实剖析还是编造?理解 AI 是否具备内省(introspection)能力,对提升系统透明度、可靠性至关重要。Anthropic 团队通过可解释性(interpretability)技术与概念注入(concept injection)实验,发现 Claude 系列模型(尤其 Claude Opus 4 和 4.1)展现出一定内省意识,能监测并控制内部状态。尽管该能力仍有局限且异于人类内省,但为 AI 认知研究与透明化发展提供了新方向。原文链接:https://www.anthropic.com/research/introspection

关键词:内省(Introspection)、概念注入(concept injection)、大型语言模型(Large Language Models)、Claude 模型(Claude Models)、AI 透明度(AI Transparency)、可靠性(Reliability)

赵思语丨作者

赵思怡丨审校

核心探索:AI 的 " 自我审视 " 何以成立?

当我们询问 AI" 你在想什么 " 时,其回应常令人困惑——是真实反映内部思考,还是基于训练数据的表面生成?这一追问的核心,在于探寻 AI 是否具备真正的 " 自我审视 " 能力。这种能力的存在,不仅能帮助排查 AI 行为异常、提升可靠性,更能深化我们对 AI 本质的认知。值得注意的是,大语言模型的内省与人类内省存在本质区别:它并非主观意识层面的自我反思,而是建立在内部神经活动之上,具体表现为模型对自身神经激活模式所表征的抽象概念(如区分已知人物、评估陈述真实性等)的识别与准确报告能力,而这些内部表征正是模型决策的核心基础。

实验验证:三重维度解锁 AI 内省能力

1. 概念注入:验证内省的创新实验方法

为验证模型是否真正内省,研究团队创新提出 " 概念注入 " 方法:先在特定语境下记录模型与已知概念对应的神经向量(如 " 全大写文本 " 的神经活动模式),再在无关语境中注入该向量,询问模型是否察觉异常。

图 1 Claude Opus 4.1 检测到概念被注入其激活过程的更多示例

实验显示,Claude Opus 4.1 能在提及注入概念前,就识别出内部处理的异常,例如注入 " 全大写文本 " 向量后,模型会描述其与 " 响度 " 或 " 大喊 " 相关。但该能力可靠性较低,最优方案下正确识别率仅约 20%,且对注入强度敏感 —— 过弱无法察觉,过强易产生幻觉。值得注意的是,Claude Opus 4 和 4.1 的表现远超其他模型,暗示内省能力可能随模型性能提升而增强。

2. 实用验证:内省助力异常输出检测

研究进一步探究模型在实际任务中是否自发运用内省。实验中,通过预填充无关词汇迫使模型输出不合理内容(如在 " 一幅画歪挂在墙上 " 的语境中强迫输出 " 面包 " 这个词),模型起初会道歉称是意外。但当回溯性注入 " 面包 " 的神经向量,模拟模型 " 一直思考面包 " 的状态后,模型不仅认可该输出是有意为之,还编造了合理解释。

这表明模型判断输出合理性时,会回溯自身内部 " 意图 "(神经活动状态),而非仅对比输入与输出,证明内省机制在实际任务中发挥作用。

图 2 两例验证:在 Claude Opus 4.1 人工回应生成前,向其激活过程注入特定词汇概念,可使模型将人为插入转录文本的该词汇误认为自身意图表达内容。

3. 主动调控:模型对内部状态的控制能力

研究还发现,模型能在指令或激励下调控内部表征。要求模型 " 思考 " 某概念时,相关神经活动强度显著高于 " 不要思考 " 的情况;采用激励措施,如 " 思考 X 获奖励 ",也能产生类似效果,正向激励下的神经活动强度高于负向激励,显示模型具备自主调控内部状态的能力。

图 3 一个示例显示,Claude Opus 4.1 能响应直接指令调节其内部激活状态:当被指令 " 多思考 " 水族箱相关内容时,模型对 " 水族箱 " 概念的内部表征强度高于被指令 " 不要思考 " 该概念时(尽管两种情况下,模型对该概念的表征水平均高于基线水平)。

结论与展望:内省能力的边界与价值

核心结论显示,先进大语言模型已具备一定内省能力,但可靠性低、范围有限,且与人类内省有本质区别。这一发现为提升 AI 透明度提供了新路径 —— 未来或可通过询问模型思考过程排查异常,但需建立内省报告验证机制,防范虚假报告风险。

未来研究需聚焦四大方向:完善内省评估方法、揭示神经机制、自然场景验证、建立报告验证与反欺骗机制。需要明确的是,这些实验并不涉及 AI 模型是否具有主观体验或类人自我意识的问题。随着 AI 迭代,对机器内省的深入研究,将推动更可信 AI 系统研发,也助力我们理解 AI 与人类认知的本质差异。当前 AI 内省虽处于初级阶段,但已为 AI 认知能力的发展点亮了新可能。

大模型 2.0 读书会

o1 模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind 研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型 II:融合学习与推理的大模型新范式 」读书会,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索 o1 具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。读书会已完结,现在报名可加入社群并解锁回放视频权限。

详情请见:大模型 2.0 读书会:融合学习与推理的大模型新范式!

推荐阅读

1.  AI 的思维地图:揭秘大模型的 " 推理图 "

2.  打开 AI 黑箱:如何用归因图绘制大语言模型的脑回路?

3.  从归因图到 AI 的 " 生物学 ":探索大语言模型的内部机制「上」

4.  系统科学前沿十讲:探究复杂世界演变背后的规则(二)

5.  集智学园精品课程免费开放,解锁系统科学与 AI 新世界

6.  高考分数只是张入场券,你的科研冒险在这里启航!

点击 " 阅读原文 ",报名读书会

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论