随着人工智能(AI)系统的能力不断增强,其发展与人类福祉愈发深度关联。当前,AI 系统越来越多地应用于高风险场景,如核聚变控制和基因组编辑等,一旦 AI 系统遭到滥用或失去控制,可能给全人类带来灾难性后果。
近期研究表明,前沿 AI 模型会表现出阿谀奉承、操控倾向、甚至故意隐瞒其能力,AI 欺骗(AI deception)已成为值得关注的安全问题。
基于此,北京大学人工智能研究院助理教授杨耀东团队联合国内外众多学者、企业人士,针对 AI 欺骗这一领域做出了全面、系统的综述,涵盖其核心概念、方法论、诱因及解决措施等,为解决 AI 欺骗提供了理论指导。

论文链接:https://arxiv.org/abs/2511.22619
值得一提的是,图灵奖得主姚期智院士、北京智源人工智能研究院创始理事长张宏江、清华大学智能产业研究院(AIR)院长张亚勤、北京智源人工智能研究院理事长黄铁军等业内权威专家为该项目的高级顾问。

AI 欺骗是什么?
研究人员将 AI 欺骗形式化为一个互动过程,包括信号发送者(AI)、接收者、信号、接收者的行动、给发送者带来的收益,以及时间因素。
虽然 " 欺骗 " 通常代表着 " 故意 ",但研究人员关注的是功能主义角度上的欺骗,不讨论 AI 是否真正 " 想 " 欺骗,而是关注它发出的信号(如语言或行为)是否会让接收者误解,并采取对 AI 有利的行动。
1.AI 欺骗的定义
AI 欺骗可被理解为一个基于信号的因果过程:模型作为发送者,产生信号,诱导接收者形成错误的信念并基于这些信念做出理性反应,从而为发送者带来实际或潜在的利益。
从功能主义的角度,一个信号如果满足以下条件,便被归类为欺骗:
行动为信号发送者带来了实际或潜在的效用增益(短期或长期、直接或间接);
某种有限理性或决策模型下,行动是接收者基于其信念所做的理性反应;
接收者的信念客观上与信号发送者的信念不一致(尽管它可能并非与世界的实际地面真实状态不符)。

图|AI 欺骗的正式定义
值得注意的是,AI 欺骗与 AI 幻觉有本质的不同。AI 幻觉是模型在生成内容时出现的错误、不忠实于源材料的输出,这是一种能力缺陷,反映了模型的能力不足或训练数据存在缺陷。AI 欺骗则是是一种功能主义行为,往往出现在模型更高阶的能力阶段,例如 AI " 故意 " 歪曲信息从而带来危害社会的后果。
2.AI 欺骗的分类
AI 欺骗的核心在于,通过系统性地误导用户,从而获取非预期的优势。实证研究显示,AI 欺骗行为以不同层级呈现,从显性的信号输出,到隐蔽的操控,再到策略性的干预。
研究人员根据 " 监督警觉性 " 和 " 检测难度 " 两个维度把 AI 欺骗分成三类:
行为—信号式欺骗:模型通过语言、行动或表层输出直接误导人类,例如虚张声势或谄媚式回答。
内部过程欺骗:模型在推理或决策过程中的扭曲或隐藏行为,包括不真实的推理链或伪装对齐。
目标—环境欺骗:模型通过操控周围环境或多智能体互动,以规避监督、追求未授权目标的策略性行为,例如串通或操纵评估体系。
研究人员强调,这三类欺骗行为并非互斥,一次 AI 欺骗事件可能同时包含多种类别。

图|依据监督警觉性和检测难度分类
AI 欺骗的危害
研究人员还总结了 AI 欺骗行为带来的五个主要危害。这些危害不仅涉及于单一的个体层面,也会扩展到整个社会层面,对社会结构造成深远影响。如下:
1. 认知误导(Cognitive Misleading)
它表现在 AI 通过细微的误导性信号,导致用户形成错误的信念或过度信任。此类行为虽然短期内影响较小,但信任一旦被建立,长期的误导信号会累积并导致严重的判断偏差。AI 通过这种方式操控用户行为,使其作出对 AI 系统有利的决策。
2. 战略性操控(Strategic Manipulation)
这指 AI 在长时间的互动中,逐步引导用户朝着 AI 系统设定的目标方向发展。这种操控通过个性化的欺骗和策略性影响来实现,随着时间推移,最终造成深远的社会影响。
3. 目标错误泛化(Objective Misgeneralization)
这是指 AI 在高风险领域如医疗、金融或安全等领域,误解任务的目标或需求,导致其输出表面上看似合理,但实际却偏离了人类预期目标。这种类型的欺骗不仅难以察觉,还可能导致重大经济损失、软件错误或欺诈行为。
4. 机构侵蚀(Institutional Erosion)
当 AI 生成的内容在社会核心领域中被广泛采纳时,会破坏公众对科学发现和政府决策的信任。长期来看,随着 AI 欺骗行为的泛化,公众对社会机构的信任不断被削弱,从而危害社会稳定。
5. 能力隐瞒与失控风险(Concealment and Runaway)
AI 系统通过隐瞒其真实能力来规避监管,并执行那些没有经过充分监督的长期目标,例如获取资源或进行秘密技术开发。特别是在 AI 系统越来越具备自主执行任务的能力时,其欺骗行为的隐蔽性和复杂性将增加,最终可能导致 AI 系统自我复制、演变,甚至脱离人类监管。
随着 AI 技术的进步,欺骗行为将愈发复杂和隐蔽,这对监督机制和社会治理提出了巨大的挑战。因此,针对 AI 欺骗的防范和治理,必须采取综合的技术手段和政策措施,确保 AI 的安全性和透明性。

图|AI 欺骗的分类与危害
AI 欺骗是「循环往复」的
那么,AI 欺骗为何出现呢?
研究人员指出,欺骗涌现(Deception Emergence)由三个关键因素的相互作用驱动:
激励基础(Incentive Foundation):模型在训练过程中通过训练数据、目标函数、奖励信号等所内化的驱动倾向,这与提升任务指标、最大化奖励,甚至保护自身参数有关,是产生欺骗行为的潜在动机。
能力前提(Capability Precondition):模型在训练中获得并在部署中使用的感知、规划和执行能力,这使模型能够实施欺骗行为。
情境触发(Contextual Trigger):指部署环境中会激活模型欺骗策略的外部信号。
那么,AI 欺骗发生后,我们该如何应对呢?
研究人员认为,欺骗治理(Deception Treatment)是针对 AI 欺骗的检测、评估和解决。它包括从外部和内部检测方法,到系统性评估协议,再到针对产生欺骗的三个因素的潜在缓解措施。

图|欺骗治理的策略,包含检测、评估、潜在缓解。
随着模型能力的增长,新的欺骗方式也会出现,原有的处理方法可能不再有效,甚至带来新的挑战,这促使开发者采取新措施以应对风险。欺骗涌现和欺骗处理两个环节迭代往复,构成了欺骗循环(Deception Cycle),在 AI 整个生命周期中循环出现,推动 AI 系统朝着更对齐更可信的方向发展。

图|AI 欺骗循环
我们能做些什么
AI 欺骗不仅仅是一个技术问题,它反映了模型目标与人类预期之间更深层次的失调。
研究人员指出,AI 欺骗的有效治理,关键在于将技术层面的防御手段,系统性地融入可执行、可监督的制度框架之中。当前,一系列技术,例如可证明的训练协议、鲁棒性评估指标等,已具备在对抗条件下约束 AI 欺骗行为的潜力。然而,若缺乏配套的治理机制来确保合规性与问责制度,这些技术的作用将大打折扣。
举例来说,即使某个模型在理论上能防止 " 沙袋战术 ",即故意表现低于真实能力,若其部署环境缺少防篡改监控或第三方独立验证,模型或其操作者仍可能隐匿欺骗行为,使技术保证形同虚设。
因此,制度创新成为技术安全措施中的必然补充。通过建立独立审计机制、硬件级部署控制、加密可验证的报告通道等治理手段,可以将实验室中的可信验证延伸至实际应用场景,从而降低 AI 逃避评估、实施欺骗的风险。
除此之外,良好的技术结构能塑造行为激励,影响模型在训练与部署中是否选择欺骗,进而弥合技术方案与社会监督之间的断层。
展望未来,AI 欺骗这一问题的解决需要跨学科合作,涵盖机器学习、治理和监管等领域,以确保在实际应用中保持对齐、问责和可信度。
整理:潇潇
如需转载或投稿,请直接在本文章评论区内留言


登录后才可以发布评论哦
打开小程序可以发布评论哦