字节跳动新研究:问问题比抄文本更能教会AI读长文档

多模态 AI 模型正在疯狂扩容上下文窗口，从 10 万到 100 万 token，能塞进整本 PDF、数小时视频。但一个尴尬的事实是：这些模型到底是怎么学会处理长文档的，各家 AI 实验室守口如瓶。字节跳动 Seed 团队与香港科技大学的一项新研究，终于撬开了这个黑箱的一角。

他们的核心发现堪称反直觉——让模型做文字识别，反而会让它变笨；用问答对训练，效果远超简单的文本转录。

文字识别是个陷阱

研究团队基于阿里开源的 Qwen2.5-VL，开发了一个名为 MMProLong 的模型。测试设计很直接：一组让模型逐页转录文档文字，另一组用 ByteDance 自研的 Seed 2.0 模型为文档各段落生成问答对，再把问题丢给训练中的模型，迫使它在长上下文中定位答案。

结果一边倒。纯文字识别任务的表现甚至比基线还差，而问答训练带来了显著提升。研究者解释，模型只有带着明确目标去筛选、归类信息时，才真正学会在长文本中导航。机械地 " 抄写 " 每一页，反而让它迷失在噪声里。

三个意外发现

实验还揭示了更多训练细节。第一，别只喂超长文档。上下文窗口顶端的极长样本并非越多越好，长短混合的多样化数据更可靠。长文本能力不是绑定特定长度的技能，而是需要跨不同距离灵活搜索的能力。

第二，真正的瓶颈是 " 找到 " 而非 " 理解 "。任务配比上，偏重信息提取、少量计算任务的组合效果最佳。定位相关段落比推理内容本身更难。

第三，短样本并非毒药——这与纯文本语言模型的常见做法相悖。适当加入短训练样例不会稀释长文本能力，反而有助于模型建立更通用的定位策略。

MMProLong 最终击败了多个体量更大的竞争对手。这项研究的价值在于，它把 " 长文档训练 " 从玄学变成了可复现的方法论：放弃低效的转录任务，用目标驱动的问答对激活模型的长程定位能力，再搭配合理的数据配比。对于依赖长上下文的 RAG 系统、智能体记忆和多模态应用开发者来说，这些发现直接指向更高效的训练路径。

宙世代

一起剪

相关标签