学术头条 前天
北大、小米团队:多头潜注意力Is All You Need
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

速览热门论文

1. 谢赛宁团队新作:用于文生图的 LLM、DiT 融合

2. Meta 提出强化学习方法 J1:让 LLM 法官更多地思考

3. BLIP3-o:完全开放的统一多模态模型

4. UC 伯克利团队:通过生成游戏评估通用智能

5. 西湖大学、浙大团队推出统一连续生成式模型

6. 港中文王本友团队:在推理模型中 " 向同伴学习 "

7. 小米推出 MiMo-7B:释放 LLM 的推理潜能

8. 北大、小米团队:多头潜注意力 Is All You Need

这项工作并没有描述一种新方法,而是深入探讨了与文本到图像合成进展相关的一个重要但未被充分研究的设计空间——特别是用于多模态生成的大语言模型(LLM)和扩散 transformers(DiT)的深度融合。以往的研究主要关注系统的整体性能,而不是与其他方法进行详细比较,关键的设计细节和训练方法也往往没有公开。这些不足导致无法确定这种方法的真正潜力。

为了填补这些空白,纽约大学计算机科学助理教授谢赛宁团队对 " 文生图 " 进行了实证研究,与已建立的基线进行了对照比较,分析了重要的设计选择,并为大规模训练提供了清晰、可重复的方法。他们希望,这项工作能够为未来的多模态生成研究提供有意义的数据点和实用指南。

论文链接:https://arxiv.org/abs/2505.10046

人工智能(AI)的进步受到评估质量的瓶颈制约,"LLM-as-a-Judge" 模型已被证明是一种核心解决方案。更强的思维链(CoT)推理有助于提高评判能力,因此我们有必要找到训练此类模型思考的更优方案。

在这项工作中,Meta 团队提出了训练此类模型的强化学习(RL)方法 J1,其将可验证和不可验证的提示转换为具有可验证奖励的判断任务,从而激励思考并减少判断偏差。特别是,这一方法在训练 8B 或 70B 模型时,优于所有其他现有的同规模模型,包括从 DeepSeek-R1 中蒸馏的模型。尽管训练的模型规模较小,J1 在某些基准上也优于 o1-mini,甚至优于 R1。

他们对 Pairwise-J1 与 Pointwise-J1 模型、离线与在线训练方案、奖励策略、种子提示以及思维长度和内容的变化进行了分析和消减比较。他们的模型通过学习概述评估标准、与自我生成的参考答案进行比较以及重新评估模型回答的正确性,做出了更好的判断。

论文链接:https://arxiv.org/abs/2505.10320

在最近的多模态模型研究中,图像理解与生成的统一受到越来越多的关注。尽管对图像理解的设计选择进行了广泛的研究,但对图像生成统一框架的最佳模型架构和训练方案的研究仍然不足。

受自回归模型和扩散模型在高质量生成和可扩展性方面巨大潜力的启发,Salesforce 团队及其合作者对其在统一多模态环境中的应用进行了全面研究,重点关注图像表征、建模目标和训练策略。在这些研究的基础上,他们提出了一种新方法,与传统的基于 VAE 的表征方法不同,它该方法采用扩散 transformer 生成语义丰富的 CLIP 图像特征。这既提高了训练效率,又改善了生成质量。

此外,他们还证明了统一模型的顺序预训练策略——先进行图像理解训练,再进行图像生成训练——具有实用优势,既可以保持图像理解能力,又可以培养强大的图像生成能力。

最后,通过向 GPT-4o 提示涵盖各种场景、物体、人的手势等各种标题集,他们推出了一个用于图像生成的高质量指令调整数据集 BLIP3o-60k。

在此基础上,他们推出了 SOTA 统一多模态模型 BLIP3-o,其在大多图像理解和生成任务主流基准测试中都取得了优异的性能。为了促进未来的研究,他们将模型代码、模型权重、训练脚本以及预训练和指令微调数据集全部开源。

论文链接:https://arxiv.org/abs/2505.09568

为了评估语言模型的通用推理能力,加州大学伯克利分校团队提出了游戏环境 gg-bench。与大多数静态基准不同,gg-bench 是一个数据生成过程,可以随意生成新的评估实例。

具体来说,gg-bench 通过以下方式合成生成:(1)使用大语言模型(LLM)生成新游戏的自然语言描述;(2)使用 LLM 将每个游戏作为 Gym 环境用代码实现;(3)通过在生成的游戏上进行自我博弈来训练强化学习(RL)agent。

gg-bench 非常具有挑战性: GPT-4o 和 Claude 3.7 Sonnet 等 SOTA LLM 在 gg-bench 上使用上下文学习的胜率为 7%-9%,而 o1、o3-mini 和 DeepSeek-R1 等推理模型的平均胜率为 31%-36%。

论文链接:https://arxiv.org/abs/2505.07215

连续生成式模型的最新进展,包括扩散和流匹配等多步骤方法(通常需要 8-1000 个采样步骤)和一致性模型等少步骤方法(通常需要 1-8 个步骤),都展示了令人印象深刻的生成性能。然而,现有的工作通常将这些方法视为不同的范例,导致训练和采样方法的分离。

在这项工作中,来自西湖大学和浙江大学的研究团队提出了一个统一框架,用于模型的训练、采样和分析。他们的实现,即统一连续生成式模型训练器 UCGM-T 和采样器 UCGM-S 达到了 SOTA 性能。例如,在使用 675M 扩散 transformer 的 256x256 ImageNet 上,UCGM-T 在 20 个步骤中训练出一个达到 1.30 FID 的多步骤模型,而仅在 2 个步骤中训练出一个达到 1.42 FID 的少步骤模型。

此外,将 UCGM-S 应用于一个预训练模型(之前 250 步 1.26 FID),仅用 40 步就将性能提高到了 1.06 FID。

论文链接:https://arxiv.org/abs/2505.07447

大型推理模型(LRM)即使在推理过程中出现错误,也有能力进行自我纠正。

然而,来自香港中文大学王本友和 Duality 的研究团队及其合作者发现,当推理过程的开端很短但很糟糕时,模型就很难恢复。他们将这种现象称为 " 前缀支配陷阱 "(Prefix Dominance Trap)。心理学研究发现,同伴间的互动可以促进自我纠正,同时不会对已经很准确的个体产生负面影响,受此启发,他们提出了 " 向同伴学习 "(Learning from Peers,LeaP)来解决这一现象。具体来说,每一个推理路径都会总结自己的中间推理,并通过路由机制与他人分享,从而使推理路径在推理过程中吸取同伴的见解。他们还发现,较小模型有时无法有效地遵循总结和反思指令。

为了解决这个问题,他们在 LeaP-T 模型系列中对其进行了微调。在 AIME 2024、AIME 2025、AIMO 2025 和 GPQA Diamond 上的实验表明,LeaP 提供了实质性的改进。例如,使用 LeaP 的 QwQ-32B 平均比基准高出近 5 个绝对分数,在三个数学基准上超过了 DeepSeek-R1-671B,平均提高了 3.3 个分数。值得注意的是,他们经过微调的 LeaP-T-7B 在 AIME 2024 上的性能媲美 DeepSeek-R1-Distill-Qwen-14B。

深入分析显示,LeaP 能通过及时的同伴洞察进行鲁棒的纠错,表现出很强的容错能力和处理不同任务难度的能力。

论文链接:https://arxiv.org/abs/2505.07787

小米 LLM 核心团队提出了推理大语言模型 MiMo-7B,它在预训练和后训练两个阶段都进行了优化。在预训练阶段,他们改进了数据预处理管道,并采用了三阶段数据混合策略,以增强基础模型的推理潜力。MiMo-7B-Base 基于 25 万亿个 token 进行预训练,并增加了多 token 预测目标,以提高性能和加快推理速度。在后训练中,他们为强化学习策划了一个包含 13 万个可验证数学和编程问题的数据集,整合了一个测试难度驱动的代码奖励方案,以缓解稀疏奖励问题,并采用战略性数据重采样来稳定训练。

广泛的评估表明,MiMo-7B-Base 具有强大的推理潜力,甚至超过了更大的 32B 模型。经过 RL 调整的最终模型 MiMo-7B-RL 在数学、代码和一般推理任务中表现出色,超过了 OpenAI o1-mini。

论文链接:https://arxiv.org/abs/2505.07608

现代大语言模型(LLM)在当前的硬件上经常会遇到通信瓶颈,而不是纯粹的计算限制。多头潜在注意力(MLA)通过在键值(KV)层中使用低秩矩阵来应对这一挑战,从而允许缓存压缩的潜在 KV 状态。与传统的多头注意力相比,这种方法大大减少了 KV 缓存的大小,从而加快了推理速度。此外,MLA 采用向上投影矩阵来提高表达能力,以减少通信开销来换取额外的计算量。尽管 MLA 已在 Deepseek V2/V3/R1 中证明了其高效性和有效性,但许多主要模型提供商仍依赖于分组查询注意力(GQA),并未宣布任何采用 MLA 的计划。

来自北京大学和小米的研究团队展示了 GQA 始终可以用 MLA 表示,同时保持相同的 KV 缓存开销,但反之则不成立。为了鼓励更广泛地使用 MLA,他们提出了 TransMLA,这是一种后训练方法,可将广泛使用的基于 GQA 的预训练模型(如 LLaMA、Qwen、Mixtral)转换为基于 MLA 的模型。转换后,模型可以进行额外的训练,在不增加 KV 缓存大小的情况下提高表达能力。此外,他们还计划开发针对 MLA 的推理加速技术,以保持转换后模型的低延迟,从而更高效地蒸馏 Deepseek R1。

论文链接:https://arxiv.org/abs/2502.07864

整理:学术君

如需转载或投稿,请直接在公众号内留言

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

小米 北大 abs 浙大 人工智能
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论