AI 也会“自我反思”？Claude 模型现内省迹象，大语言模型认知新突破

摘要

你是否曾好奇 AI 在 " 思考 " 什么？当被问及如何得出答案时，AI 的回应是真实剖析还是编造？理解 AI 是否具备内省（introspection）能力，对提升系统透明度、可靠性至关重要。Anthropic 团队通过可解释性（interpretability）技术与概念注入（concept injection）实验，发现 Claude 系列模型（尤其 Claude Opus 4 和 4.1）展现出一定内省意识，能监测并控制内部状态。尽管该能力仍有局限且异于人类内省，但为 AI 认知研究与透明化发展提供了新方向。原文链接：https://www.anthropic.com/research/introspection

关键词：内省（Introspection）、概念注入（concept injection）、大型语言模型（Large Language Models）、Claude 模型（Claude Models）、AI 透明度（AI Transparency）、可靠性（Reliability）

赵思语丨作者

赵思怡丨审校

核心探索：AI 的 " 自我审视 " 何以成立？

当我们询问 AI" 你在想什么 " 时，其回应常令人困惑——是真实反映内部思考，还是基于训练数据的表面生成？这一追问的核心，在于探寻 AI 是否具备真正的 " 自我审视 " 能力。这种能力的存在，不仅能帮助排查 AI 行为异常、提升可靠性，更能深化我们对 AI 本质的认知。值得注意的是，大语言模型的内省与人类内省存在本质区别：它并非主观意识层面的自我反思，而是建立在内部神经活动之上，具体表现为模型对自身神经激活模式所表征的抽象概念（如区分已知人物、评估陈述真实性等）的识别与准确报告能力，而这些内部表征正是模型决策的核心基础。

实验验证：三重维度解锁 AI 内省能力

1. 概念注入：验证内省的创新实验方法

为验证模型是否真正内省，研究团队创新提出 " 概念注入 " 方法：先在特定语境下记录模型与已知概念对应的神经向量（如 " 全大写文本 " 的神经活动模式），再在无关语境中注入该向量，询问模型是否察觉异常。

图 1 Claude Opus 4.1 检测到概念被注入其激活过程的更多示例

实验显示，Claude Opus 4.1 能在提及注入概念前，就识别出内部处理的异常，例如注入 " 全大写文本 " 向量后，模型会描述其与 " 响度 " 或 " 大喊 " 相关。但该能力可靠性较低，最优方案下正确识别率仅约 20%，且对注入强度敏感 —— 过弱无法察觉，过强易产生幻觉。值得注意的是，Claude Opus 4 和 4.1 的表现远超其他模型，暗示内省能力可能随模型性能提升而增强。

2. 实用验证：内省助力异常输出检测

研究进一步探究模型在实际任务中是否自发运用内省。实验中，通过预填充无关词汇迫使模型输出不合理内容（如在 " 一幅画歪挂在墙上 " 的语境中强迫输出 " 面包 " 这个词），模型起初会道歉称是意外。但当回溯性注入 " 面包 " 的神经向量，模拟模型 " 一直思考面包 " 的状态后，模型不仅认可该输出是有意为之，还编造了合理解释。

这表明模型判断输出合理性时，会回溯自身内部 " 意图 "（神经活动状态），而非仅对比输入与输出，证明内省机制在实际任务中发挥作用。

图 2 两例验证：在 Claude Opus 4.1 人工回应生成前，向其激活过程注入特定词汇概念，可使模型将人为插入转录文本的该词汇误认为自身意图表达内容。

3. 主动调控：模型对内部状态的控制能力

研究还发现，模型能在指令或激励下调控内部表征。要求模型 " 思考 " 某概念时，相关神经活动强度显著高于 " 不要思考 " 的情况；采用激励措施，如 " 思考 X 获奖励 "，也能产生类似效果，正向激励下的神经活动强度高于负向激励，显示模型具备自主调控内部状态的能力。

图 3 一个示例显示，Claude Opus 4.1 能响应直接指令调节其内部激活状态：当被指令 " 多思考 " 水族箱相关内容时，模型对 " 水族箱 " 概念的内部表征强度高于被指令 " 不要思考 " 该概念时（尽管两种情况下，模型对该概念的表征水平均高于基线水平）。

结论与展望：内省能力的边界与价值

核心结论显示，先进大语言模型已具备一定内省能力，但可靠性低、范围有限，且与人类内省有本质区别。这一发现为提升 AI 透明度提供了新路径 —— 未来或可通过询问模型思考过程排查异常，但需建立内省报告验证机制，防范虚假报告风险。

未来研究需聚焦四大方向：完善内省评估方法、揭示神经机制、自然场景验证、建立报告验证与反欺骗机制。需要明确的是，这些实验并不涉及 AI 模型是否具有主观体验或类人自我意识的问题。随着 AI 迭代，对机器内省的深入研究，将推动更可信 AI 系统研发，也助力我们理解 AI 与人类认知的本质差异。当前 AI 内省虽处于初级阶段，但已为 AI 认知能力的发展点亮了新可能。

大模型 2.0 读书会

o1 模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind 研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型 II：融合学习与推理的大模型新范式」读书会，本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索 o1 具体实现的技术路径，帮助我们更好的理解机器推理和人工智能的本质。读书会已完结，现在报名可加入社群并解锁回放视频权限。

详情请见：大模型 2.0 读书会：融合学习与推理的大模型新范式！

推荐阅读

1. AI 的思维地图：揭秘大模型的 " 推理图 "

2. 打开 AI 黑箱：如何用归因图绘制大语言模型的脑回路？

3. 从归因图到 AI 的 " 生物学 "：探索大语言模型的内部机制「上」

4. 系统科学前沿十讲：探究复杂世界演变背后的规则（二）

5. 集智学园精品课程免费开放，解锁系统科学与 AI 新世界

6. 高考分数只是张入场券，你的科研冒险在这里启航！

点击 " 阅读原文 "，报名读书会

宙世代

一起剪

相关标签