赛博兰博 昨天
字节跳动新研究:问问题比抄文本更能教会AI读长文档
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

多模态 AI 模型正在疯狂扩容上下文窗口,从 10 万到 100 万 token,能塞进整本 PDF、数小时视频。但一个尴尬的事实是:这些模型到底是怎么学会处理长文档的,各家 AI 实验室守口如瓶。字节跳动 Seed 团队与香港科技大学的一项新研究,终于撬开了这个黑箱的一角。

他们的核心发现堪称反直觉——让模型做文字识别,反而会让它变笨;用问答对训练,效果远超简单的文本转录。

文字识别是个陷阱

研究团队基于阿里开源的 Qwen2.5-VL,开发了一个名为 MMProLong 的模型。测试设计很直接:一组让模型逐页转录文档文字,另一组用 ByteDance 自研的 Seed 2.0 模型为文档各段落生成问答对,再把问题丢给训练中的模型,迫使它在长上下文中定位答案。

结果一边倒。纯文字识别任务的表现甚至比基线还差,而问答训练带来了显著提升。研究者解释,模型只有带着明确目标去筛选、归类信息时,才真正学会在长文本中导航。机械地 " 抄写 " 每一页,反而让它迷失在噪声里。

三个意外发现

实验还揭示了更多训练细节。第一,别只喂超长文档。上下文窗口顶端的极长样本并非越多越好,长短混合的多样化数据更可靠。长文本能力不是绑定特定长度的技能,而是需要跨不同距离灵活搜索的能力。

第二,真正的瓶颈是 " 找到 " 而非 " 理解 "。任务配比上,偏重信息提取、少量计算任务的组合效果最佳。定位相关段落比推理内容本身更难。

第三,短样本并非毒药——这与纯文本语言模型的常见做法相悖。适当加入短训练样例不会稀释长文本能力,反而有助于模型建立更通用的定位策略。

MMProLong 最终击败了多个体量更大的竞争对手。这项研究的价值在于,它把 " 长文档训练 " 从玄学变成了可复现的方法论:放弃低效的转录任务,用目标驱动的问答对激活模型的长程定位能力,再搭配合理的数据配比。对于依赖长上下文的 RAG 系统、智能体记忆和多模态应用开发者来说,这些发现直接指向更高效的训练路径。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 字节跳动 效果 技能 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论