今天,Nature 刊登了一项由华盛顿大学与艾伦人工智能研究所主导研发的科研成果—— OpenScholar。这是全球首个专为科学研究设计的、全开源的检索增强生成(RAG)语言模型。它不仅能精准检索、拒绝幻觉,更能生成高质量的引用式回答。
OpenScholar 的引文准确率与人类专家相当,虽然仍需进一步优化,但该工具有望帮助科学家处理复杂且日益繁重的科学文献综述任务。

论文链接:https://www.nature.com/articles/s41586-025-10072-4
尽管大语言模型(LLM)在许多领域表现出色,但在科研辅助任务中仍面临严峻挑战:随着科学文献总量的快速增长,模型难以跟上最新进展,且常伴随严重的 " 幻觉 " 现象。实验数据显示,GPT-4o 在引用科学文献时,产生错误引用的比例高达 78% 至 90%。
OpenScholar 通过整合 4500 万篇开放获取论文和独特的自反馈机制,实现了精准的文献检索与准确的引用生成,有效解决了现有模型在科学知识合成中的准确性与可信度问题。
首个全开源的科学文献综述 AI 系统
OpenScholar 是一个专门为科学研究任务设计的检索增强语言模型。它通过从 4500 万篇开放获取论文中识别相关段落,并合成带有引用支持的内容来回答科学查询。
OpenScholar 的卓越性能,源于其三大核心技术创新:
1. 专属数据库(OSDS):OpenScholar 拥有一个专属知识库—— OSDS,它构建了一个完全开放且保持最新状态的语料库,涵盖了 4500 万篇开放获取的科学论文和 2.36 亿个段落嵌入向量。这一庞大的数据规模为训练和推理提供了可复现的基础,确保了检索的全面性和时效性。
2. 自适应检索:为了在浩如烟海的文献中精准定位信息,系统采用了专门训练的检索器。这超越了简单的关键词匹配,能够根据查询的语义深度,精准识别并提取最相关的文献段落,为后续生成提供高质量的上下文。
3. 自反馈机制:这是 OpenScholar 在技术上的关键创新。模型引入了一个 " 自我反馈 " 推理循环——在生成初步回答后,模型会对自身产出进行检查,评估其事实性、覆盖率和引用准确性,并据此进行迭代优化。这种自我反思机制显著提升了最终回答的质量。

图 | OpenScholar 整体架构。OpenScholar 包含专用数据存储、检索器和语言模型,通过检索过程中的自反馈推理迭代优化响应。
性能评估:全面超越现有系统
以往针对文献合成的评估通常专注于短文本输出、多项选择形式或特定领域的推理任务。为此,研究团队引入了 ScholarQABench —— 这是首个大规模、多领域的开放式科学文献综合评测基准,旨在真实模拟科研前沿的挑战:它包含 2967 个专家撰写的查询和 208 个长篇答案,涵盖计算机科学、物理学、神经科学和生物医学领域,并且要求基于来自大量论文的最新文献生成长篇回答。

图 | ScholarQABench 的概览。该测试包含 2200 道由专家撰写的跨学科科学问题,研究团队针对其开发了自动评估与人工评估方案。
在这一严谨的新基准测试中,OpenScholar 取得了以下关键结果:
规模较小的轻量模型 OpenScholar-8B,在综合正确率上超过了 GPT-4o 6.1%,也超过了专用系统 PaperQA2 5.5%,实现了性能的全面领先。
在引用准确性方面,OpenScholar 不仅达到了人类专家水平,更展现出系统性优势。分析显示,人类撰写的答案在基于评分标准的评估中比无检索的 GPT-4o 高出 9.6 分,而 OpenScholar-8B 的表现仅略低于人类专家 2.9 分。

图 | 专家撰写回答统计。
在人类专家评估中,专家明显更倾向于选择 OpenScholar 生成的答案。具体而言,OpenScholar 使用研究团队训练的 80 亿参数模型和 GPT-4o,分别以 51% 和 70% 的胜率击败人工生成答案,而未经增强的原始 GPT-4o 胜率仅为 31%,低于人类专家基线。

图 | 自动评估与人工评估结果:基于 ScholarQABench 计算机科学子集(Scholar-CS,100 个问题)的实验数据表明,使用团队训练的的 8B 模型或 GPT-4o 的 OpenScholar 系统表现显著优于其他系统,在人工评估中超过 50% 的案例优于专家。本次人工评估由 16 位博士专家对 Scholar-Multi 的 108 个问题进行评估。
除了性能卓越,OpenScholar 在设计上也注重实用性。其采用的轻量级专用检索器,相比依赖庞大通用模型进行检索的方案,显著降低了系统的运行与计算成本,使得高质量、可信赖的文献综述辅助能够更可持续、更广泛地被应用。
局限性与未来展望
尽管 OpenScholar 取得了突破性进展,当前的评测框架与系统中仍存在局限性。
ScholarQABench 主要关注计算机科学、生物医学和物理学,尚未涵盖社会科学、工程学等其他重要学科,因此研究发现可能无法完全推广到其他领域。由于专家标注成本高昂且耗时,基于人工标注的评估集规模较小,可能引入方差和注释者专业偏差。并且,ScholarQABench 是一个静态的公开基准,未来存在数据污染的风险,增加了在训练或搜索中暴露的可能性。
在某些复杂查询中,OpenScholar 仍无法保证始终检索到最具代表性或最新的相关论文。80 亿参数的 OpenScholar-8B 模型虽已表现优异,但在指令遵循和科学知识理解方面能力有限,可能导致输出存在事实性偏差。OpenScholar-GPT-4o 版本依赖 GPT-4o 专有 API,随着底层模型更新,实验结果可能难以完全复现,这为研究的可重复性带来挑战。此外,当前系统仅使用开放获取论文,如何合理合法地整合大量受版权保护的学术文献,仍是一个亟待解决的问题。
目前,研究团队已经开源了 OpenScholar 的核心资源,包括代码、数据、模型检查点、数据存储和 ScholarQABench,以支持和加速未来的研究工作。
在此基础上,未来的工作将致力于整合平台的用户反馈,持续优化检索质量、引用准确性及整体可用性。同时,团队计划进一步拓展应用边界,将支持范围延伸至更多科学领域及多语言场景,并积极寻求与学术出版机构合作,探索兼顾知识产权与开放获取的合规数据使用机制。
作者:王跃然
如需转载或投稿,请直接在本文章评论区内留言。



登录后才可以发布评论哦
打开小程序可以发布评论哦