
摘要
你是否曾好奇 AI 在 " 思考 " 什么?当被问及如何得出答案时,AI 的回应是真实剖析还是编造?理解 AI 是否具备内省(introspection)能力,对提升系统透明度、可靠性至关重要。Anthropic 团队通过可解释性(interpretability)技术与概念注入(concept injection)实验,发现 Claude 系列模型(尤其 Claude Opus 4 和 4.1)展现出一定内省意识,能监测并控制内部状态。尽管该能力仍有局限且异于人类内省,但为 AI 认知研究与透明化发展提供了新方向。原文链接:https://www.anthropic.com/research/introspection
关键词:内省(Introspection)、概念注入(concept injection)、大型语言模型(Large Language Models)、Claude 模型(Claude Models)、AI 透明度(AI Transparency)、可靠性(Reliability)
赵思语丨作者
赵思怡丨审校
核心探索:AI 的 " 自我审视 " 何以成立?
当我们询问 AI" 你在想什么 " 时,其回应常令人困惑——是真实反映内部思考,还是基于训练数据的表面生成?这一追问的核心,在于探寻 AI 是否具备真正的 " 自我审视 " 能力。这种能力的存在,不仅能帮助排查 AI 行为异常、提升可靠性,更能深化我们对 AI 本质的认知。值得注意的是,大语言模型的内省与人类内省存在本质区别:它并非主观意识层面的自我反思,而是建立在内部神经活动之上,具体表现为模型对自身神经激活模式所表征的抽象概念(如区分已知人物、评估陈述真实性等)的识别与准确报告能力,而这些内部表征正是模型决策的核心基础。
实验验证:三重维度解锁 AI 内省能力
1. 概念注入:验证内省的创新实验方法
为验证模型是否真正内省,研究团队创新提出 " 概念注入 " 方法:先在特定语境下记录模型与已知概念对应的神经向量(如 " 全大写文本 " 的神经活动模式),再在无关语境中注入该向量,询问模型是否察觉异常。

图 1 Claude Opus 4.1 检测到概念被注入其激活过程的更多示例
实验显示,Claude Opus 4.1 能在提及注入概念前,就识别出内部处理的异常,例如注入 " 全大写文本 " 向量后,模型会描述其与 " 响度 " 或 " 大喊 " 相关。但该能力可靠性较低,最优方案下正确识别率仅约 20%,且对注入强度敏感 —— 过弱无法察觉,过强易产生幻觉。值得注意的是,Claude Opus 4 和 4.1 的表现远超其他模型,暗示内省能力可能随模型性能提升而增强。
2. 实用验证:内省助力异常输出检测
研究进一步探究模型在实际任务中是否自发运用内省。实验中,通过预填充无关词汇迫使模型输出不合理内容(如在 " 一幅画歪挂在墙上 " 的语境中强迫输出 " 面包 " 这个词),模型起初会道歉称是意外。但当回溯性注入 " 面包 " 的神经向量,模拟模型 " 一直思考面包 " 的状态后,模型不仅认可该输出是有意为之,还编造了合理解释。
这表明模型判断输出合理性时,会回溯自身内部 " 意图 "(神经活动状态),而非仅对比输入与输出,证明内省机制在实际任务中发挥作用。

图 2 两例验证:在 Claude Opus 4.1 人工回应生成前,向其激活过程注入特定词汇概念,可使模型将人为插入转录文本的该词汇误认为自身意图表达内容。
3. 主动调控:模型对内部状态的控制能力
研究还发现,模型能在指令或激励下调控内部表征。要求模型 " 思考 " 某概念时,相关神经活动强度显著高于 " 不要思考 " 的情况;采用激励措施,如 " 思考 X 获奖励 ",也能产生类似效果,正向激励下的神经活动强度高于负向激励,显示模型具备自主调控内部状态的能力。

图 3 一个示例显示,Claude Opus 4.1 能响应直接指令调节其内部激活状态:当被指令 " 多思考 " 水族箱相关内容时,模型对 " 水族箱 " 概念的内部表征强度高于被指令 " 不要思考 " 该概念时(尽管两种情况下,模型对该概念的表征水平均高于基线水平)。
结论与展望:内省能力的边界与价值
核心结论显示,先进大语言模型已具备一定内省能力,但可靠性低、范围有限,且与人类内省有本质区别。这一发现为提升 AI 透明度提供了新路径 —— 未来或可通过询问模型思考过程排查异常,但需建立内省报告验证机制,防范虚假报告风险。
未来研究需聚焦四大方向:完善内省评估方法、揭示神经机制、自然场景验证、建立报告验证与反欺骗机制。需要明确的是,这些实验并不涉及 AI 模型是否具有主观体验或类人自我意识的问题。随着 AI 迭代,对机器内省的深入研究,将推动更可信 AI 系统研发,也助力我们理解 AI 与人类认知的本质差异。当前 AI 内省虽处于初级阶段,但已为 AI 认知能力的发展点亮了新可能。
大模型 2.0 读书会
o1 模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind 研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型 II:融合学习与推理的大模型新范式 」读书会,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索 o1 具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。读书会已完结,现在报名可加入社群并解锁回放视频权限。

详情请见:大模型 2.0 读书会:融合学习与推理的大模型新范式!
推荐阅读
2. 打开 AI 黑箱:如何用归因图绘制大语言模型的脑回路?
3. 从归因图到 AI 的 " 生物学 ":探索大语言模型的内部机制「上」
5. 集智学园精品课程免费开放,解锁系统科学与 AI 新世界
点击 " 阅读原文 ",报名读书会



登录后才可以发布评论哦
打开小程序可以发布评论哦