精准锁定「硬骨头」：难样本筛选破局SFT依赖，GRPO-only斩获感知推理双最优

中兴通讯 AIM 团队投稿

量子位 | 公众号 QbitAI

一组被 AAAI 2026 接收的新实验，一口啃向了多模态大模型后训练的硬骨头

在视觉推理与视觉感知两大类基准测试上，只用中等 + 困难样本训练、且完全不做 SFT 的 GRPO-only 范式，反而拿下几乎所有最优成绩。

MathVista 最高 68.3、OCRBench 达 77.8、MMMU 提升 0.107、MMStar 提升 0.083，相比全量数据训练大幅跃升，甚至全面超越传统的 "SFT+RL" 双阶段范式。

结论直截了当：

多模态后训练环节里，样本难度比训练范式更关键，而 SFT 并非 RL 的必要前置步骤。

这项由中南大学 & 中兴通讯团队完成的新研究，为多模态大模型找到了可量化、可操作的 " 难度采样 " 标准，并第一次系统性验证了一个过去被视为 " 不可能有效 " 的训练路线，即仅靠 RL 强化策略（GRPO），就能独立完成多模态能力的优化。

而研究切入点，正是多模态后训练长期卡住的两个老问题。

第一，缺乏可量化的样本难度指标。

多模态数据包含视觉与文本双重特征，文本模态难度常无法直接表征多模态样本整体难度（如 OCR、目标检测等任务），因此无法沿用纯文本数据的难度划分方式，导致难以筛选对模型优化具有高价值的训练样本。

第二，训练范式无法协同优化感知与推理能力。

现有方法多采用 " 监督微调 + 强化微调 " 的固定流程，且大多数研究侧重于提升模型的推理性能，但多模态场景常常既包含视觉推理类（数学、科学、图表分析等），又包含视觉感知类（目标检测、目标定位、计数、OCR 等），单一范式可能无法适配两类数据的训练需求，导致模型在感知或推理任务中出现性能偏科。

针对这些痛点，团队从模态内敏感性与跨模态交互复杂度双重视角，提出PISM（渐进式图像语义掩码）与 CMAB（跨模态注意力平衡）两种难度量化策略，并设计分层训练框架，验证了强化学习独立优化多模态能力的可行性，为多模态后训练提供全新技术路径。

核心方法：难度感知采样策略与训练框架

研究人员提出了 2 种互补的难度量化策略，分别从视觉敏感性与跨模态注意力平衡维度来实现样本难度分层。

渐进式图像语义掩码（PISM）

下面是渐进式图像语义掩码（PISM，Progressive Image Semantic Masking）方法示意图。

从无掩码（mask_ratio = 0.0）到重度掩码（mask_ratio > 0.7），研究团队渐进式地对图像的不同部分进行掩码操作。

每张掩码图像通过随机隐藏一定比例的像素区域，该过程模拟了不同程度的视觉信息损失。

随后在这些掩码图像上评估模型性能，以了解模型为了准确推理对视觉细节的依赖程度。

如图所示，PISM 基于 " 难样本对视觉信息损失更敏感 " 的核心假设，通过系统的图像退化实验量化样本难度，具体流程如下：

1、掩码设计。

对图像 - 文本样本对 s= ( I，Q ) ，设置掩码比例序列 Λ ={ λ i| λ i=0.0,0.1, … ,0.9}，模拟从无退化 ( λ =0.0 ) 到重度退化 ( λ =0.9 ) 的视觉信息损失场景。

2、性能评估。

对每个掩码比例 λ i，生成扰动图像（M ( · ) 为随机像素掩码操作），输入模型得到预测结果，通过二元指标（1 表示预测正确，0 表示错误）评估性能。

3、鲁棒性计算。

为降低随机性影响，每个掩码比例重复实验 K=10 次，计算鲁棒准确率。

4、难度划分。

定义失败阈值，据此将样本分为 4 类：

跨模态注意力平衡（CMAB）

下面是跨模态注意力平衡（CMAB，Cross-Modality Attention Balance）方法示意图。

对于每个生成 token，我们计算其在所有 Transformer 层上对输入文本 token 和图像 token 的平均注意力分数，然后对所有生成的 token 的这些分数取平均值。

( N ) 代表 Transformer 的总层数。

如上图所示，CMAB 通过分析模型生成响应时对文本和对图像的注意力之比，评估跨模态交互复杂度，具体逻辑如下：

1、注意力分解。

对输入的图像与文本计算模型生成每个响应 token yt 时，在第 l 层 Transformer 的跨模态注意力权重，并分解为图像注意力总和与文本注意力总和。

2、注意力平衡比计算。

定义跨层的 token 级注意力平衡比，为降低层间噪声，排除首末层（主要负责输入编码与输出解码），计算几何均值（ε ≈ 10-8 避免数值不稳定）。

3、样本级平衡比。

对所有响应 token 取算术平均，得到样本级注意力平衡比。

基于区分样本难度：

分层训练框架与实验设计

基于 PISM 与 CMAB 的难度分层结果，设计两种后训练范式进行对比。

第一种，GRPO-only 范式。

直接对难度分层后的样本（为中等 + 困难样本）应用组相对策略优化（GRPO，Group Relative Policy Optimization,），无 SFT 预处理。

第二种，SFT+GRPO 范式。

先对筛选后的样本（如困难样本、中等样本）进行 SFT，再对目标样本应用 GRPO，并测试 SFT 阶段样本难度顺序（如 SFT ( 困难 ) +GRPO ( 中等 ) 、SFT ( 中等 ) +GRPO ( 困难 ) ）对模型性能的影响。

实验配置如下：

基础模型：Qwen2.5VL-7B（多模态大模型，支持视觉 - 文本联合推理）；

硬件环境：5 个节点（每节点 8 × 80GB NVIDIA A800 SXM4 GPU）+2 个节点（每节点 8 × 96GB NVIDIA H20 GPU）；

框架工具：SFT 基于 LLaMA-Factory 实现，GRPO 基于 Swift 框架实现，评估基于 OpenCompass 框架，采用 GPT-4o-mini 作为统一评分器；

基准数据集：涵盖 6 类通用场景的多模态任务。

实验结果与分析 PISM 策略下的性能对比（以视觉推理数据集为例）

下表展示了 PISM 分层后，不同训练范式在视觉推理数据集上的性能。

（注：表 1，通过 PISM 在视觉推理数据集上使用 SFT+GRPO 和仅使用 GRPO 的训练结果比较，* 表示次优结果，加粗表示最优结果）

从表中可观察到——

第一，GRPO-only ( 中等 + 困难 ) 范式优势显著。

在 MathVista（68.300）、OCRBench（77.800）、MMMU（0.547）、MMStar（0.639）4 项指标上均取得最优，较全量数据 GRPO-only 提升幅度最大（MathVista 提升 14.9 分，MMMU 提升 0.107）；

第二，SFT 阶段未带来增益。

所有 SFT+GRPO 范式的性能均低于 GRPO-only ( 中等 + 困难 ) ，且 SFT 阶段样本难度顺序对结果影响较小（如 SFT ( 中等 ) +GRPO ( 困难 ) 与 SFT ( 困难 ) +GRPO ( 中等 ) 性能接近），说明 SFT 可能引入 " 伪思维链 "（Pseudo-CoT），限制模型真实推理能力；

第三，随机样本性能有限。

GRPO-only ( 随机样本 ) 虽在部分指标（如 MMVet）表现较好，但整体低于中等 + 困难样本训练结果，验证了难度分层对样本质量筛选的有效性。

CMAB 策略下的性能对比（以视觉感知数据集为例）

下表展示了 CMAB 分层后，不同训练范式在视觉感知数据集上的性能。

（注：表 2，通过 CMAB 在视觉感知数据集上对采用 SFT+GRPO 和 GRPO-only 两种训练方式的结果对比，* 表示次优结果，加粗表示最优结果）

从表中可观察到 CMAB 在推理任务中优势凸显——

GRPO-only ( 中 + 困难 ) 在 MathVista（68.300）、MMVet（50.367）、MMMU（0.550）、MMStar（0.629）上表现最优，尤其在需要跨模态深度融合的任务中（如 MathVista），较 SFT+GRPO 范式提升 1.5-2.5 分，验证了 CMAB 对跨模态交互复杂度评估的有效性。

推翻 "SFT 是 RL 后训练必要前提 " 的传统认知关键结论

通过以上实验，研究团队得出了一系列结论。

首先，难度感知采样是核心。

无论 PISM 还是 CMAB，基于中等 + 困难样本的 GRPO-only 训练均显著优于全量数据、随机样本及 SFT+GRPO 范式，证明 " 数据质量（难度分层）比数量更重要 "。

其次，GRPO-only 范式可行。

实验推翻了 "SFT 是 RL 后训练必要前提 " 的传统认知，GRPO-only 在排除 SFT 后，极大地简化了训练流程，提高了模型后训练效率，为多模态模型通用训练提供新思路。

该研究提出多模态样本难度量化标准，首次从视觉敏感性与跨模态注意力平衡两个维度，建立可量化的多模态样本难度评估体系，解决了多模态数据 " 难筛选 " 问题。

通过聚焦多模态后训练的 " 样本筛选 " 核心问题，为多模态大模型性能提升提供了全新技术路径，也为后续研究打开了 " 数据驱动优化 " 的新视角。

最后，研究团队还提出了三个未来研究方向：

动态难度调整：当前难度评估为静态，未来可结合模型训练过程动态更新样本难度，实现自适应课程学习；

多策略融合：探索 PISM 与 CMAB 的联合采样策略，进一步提升样本筛选精度；

更大模型验证：在百亿参数级多模态模型上验证方法有效性，探索难度感知采样在更大尺度模型中的泛化性。

目前，研究代码已开源，扩展版本包含详细实验配置，为后续研究提供可复现的技术基础。

期待更多研究者基于此方法，推动多模态 AI 在医疗、教育、自动驾驶等领域的实际应用。

arXiv：

https://arxiv.org/abs/2511.06722

GitHub：

https://github.com/qijianyu277/DifficultySampling

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪