AI画手总是六根手指？阿大/美团/上交首次系统量化扩散模型计数幻觉

扩散概率模型（diffusion probability models，DPMs）在图像生成任务上取得了卓越的成就，但它们仍频繁产生与现实世界知识相悖的 " 幻觉样本 "（hallucinations），例如生成有六根手指的手掌或者漂浮在空中的多余物体。

尽管这类问题普遍存在，社区却一直缺乏系统性量化这些事实性错误的方法，这阻碍了下一代高可信度生成模型的研发进程。

为填补这一空白，来自阿德莱德大学、美团和上海交通大学的研究团队，首次对扩散模型中的一类特殊幻觉—— "计数幻觉" （counting hallucination）进行了系统性的研究。

他们提出了几个关键问题：

如何准确量化扩散模型 " 数错数 " 的问题？

增加采样步数等常用求解器优化技巧是改善还是加剧了这个问题？

FID 等主流图像质量评价指标能否有效捕捉到这类细粒度的错误？以及如何缓解扩散模型中的计数幻觉问题？

为了回答这些问题，该团队构建了首个用于量化计数幻觉的数据集套件CountHalluSet，并通过大量实验揭示了计数幻觉与扩散模型中不同采样条件之间的复杂关系。

更重要的是，他们基于实验提出了一种简单而有效的联合扩散模型（Joint-Diffusion Model，JDM），能够显著减少复杂真实图像中的计数幻觉和其它非计数类失败问题。

CountHalluSet: 计数幻觉评测基准

研究团队构建了包含三个数据集的 CountHalluSet 套件，其可数物体的形态复杂性逐级递增：

ToyShape: 包含简单的几何图形（三角形、正方形、五边形）。

SimObject: 包含照片级逼真度的日常三维物体（杯子、苹果、时钟）。

RealHand: 包含真实的、姿态各异的人手图像。

CountHalluSet 由三个覆盖不同形态复杂度层级的可计数对象数据集组成：ToyShape（三角形、正方形、五边形）、SimObject（马克杯、苹果、时钟）以及 RealHand（手指）。

此外，每个数据集有着各自的计数规则。在 ToyShape 和 SimObject 数据集中，每张图像最多包含每个类别的一个实例，且至少包含一个对象，而在 RealHand 数据集中，每张图像必须严格包含五根手指。

所谓计数幻觉，是指生成模型产生的图像违反了该数据集的计数事实，例如在一张图中生成了两个苹果，或仅生成了背景而没有任何对象，而这些模式在 SimObject 数据集中从未出现过。

各个数据集的计数幻觉评测流程如上图所示。对于 ToyShape 与 SimObject 数据集，生成图像可直接用于计数评估，由于它们的简单性和罕见的严重低质量图像。

而在 RealHand 数据集中，团队引入了 " 可计数性指示器（counting-ready indicator）"，用于区分计数幻觉样本与其他非计数类失败样本（如严重变形的手指）情况。

具体地，他们使用了一个 MaxViT 作为可计数性指示器，它是二分类器，在超过 2.5 千张代表性样本上训练得到。对于 ToyShape 与 SimObject 数据集，团队构建了一个超过 400，000 个样本的大型 ToyShape/SimObject 数据集，每个样本出现 0-3 次，以微调 ResNet-50 得到它们对应的 "计数模型（counting model）"。

对于 RealHand 数据集，他们在超过 2k 张手部生成图像上对 YOLO-12 模型进行了微调，训练检测指尖，来得到该数据集的计数模型。

利用这些计数模型，团队可以检测生成图像中的对象出现次数，从而判断它们是否违反了数据集中的计数规则，最终实现量化计数幻觉。

比如，给定一个 counting-ready 样本，如果 YOLO 模型检测出该样本存在 6 个指尖，那么它就会被归类为计数幻觉样本。

实验及核心发现量化实验

研究者们在扩散模型不同的采样条件下，量化了各个数据集生成样本的计数幻觉率，结果如下表所示：

发现一：采样步数对幻觉的影响呈现 " 合成–真实 " 分化趋势

研究发现，在常用的 ODE 求解器（25、50、100 步）设置下，增加采样步数能有效降低合成数据集（ToyShape、SimObject）的计数幻觉率（CHR），但在真实数据集（RealHand）中却反而提升了计数幻觉率。

这表明：合成数据因结构简单、分布规则，能从更细粒度的求解器中获益；而真实数据分布更复杂，额外的采样步可能过度拟合局部不一致，从而放大幻觉。

发现二：更高阶的 ODE 求解器可降低总体失败率，却提升计数幻觉率

作为另一种 ODE 优化策略，DPM-Solver-2 在相同步数下生成质量一般优于 DPM-Solver-1。尽管这一策略显著降低了 RealHand 数据集的总体失败率（TFR），但却增加了计数幻觉率。

这揭示出：更高阶求解器虽能稳定全局结构，但可能削弱了模型对对象计数约束的敏感性。

发现三：祖先采样（DDPM）在幻觉抑制上表现最优

在所有对比中，DDPM 始终实现最低的计数幻觉率、非计数类失败率和总体失败率。

这意味着：祖先采样为生成模型的失败率提供了一个现实下限，尤其在计算效率不是主要限制时，是最有效的减幻觉策略。

发现四：更合理的初始噪声可显著降低幻觉率

相较于标准高斯噪声（Normal），使用 " 扩散 " 噪声（Ground-truth 初始噪声）能同时降低计数幻觉率、非计数类失败率和总体失败率。

这一结果表明：初始化的一致性对生成稳定性至关重要，更符合训练分布的噪声可有效缓解幻觉现象。

发现五：对象形态越复杂，计数幻觉越显著

随着对象形态从简单几何体（ToyShape）、中等复杂的合成物体（SimObject）到真实生物结构（RealHand）逐渐复杂，计数幻觉率持续上升。

这表明：结构复杂性显著挑战了扩散模型保持正确对象计数的能力。模型在处理高复杂度形态时更容易出现对象的 " 遗漏 " 或 " 重复 "，解释了为何当前扩散模型尽管生成能力强大，却仍普遍存在幻觉问题。

宙世代

一起剪

相关标签