不卷参数的专业模型,会不会被通用大模型取代?
在医疗领域,这个疑问正在被打破。
蚂蚁集团联合研究团队发布的《MedResearcher-R1: Expert-Level Medical Deep Researcher》技术报告,证明了一条关键路径:专业开源模型只要做好领域化设计,有机会在垂直赛道上 " 以小博大 ",反超通用大模型。
团队发布的医学 AI 智能体 MedResearcher-R1,靠 2100 条(约 2K 规模)训练样本,在权威医疗基准测试 MedBrowseComp 上,将复杂医疗研究任务的准确回答数量提升至27.5。
刷新该榜单纪录的同时,超过 o3、Gemini 2.5 Pro 等领先通用大模型,突破了此前25.5的业界准确回答 " 卡点 "。
研究背景
现在,基于大语言模型 ( LLM ) 的 Agent 已展现出跨越多个领域的卓越能力。
例如深度研究系统在复杂信息搜索和合成任务中就展现了高性能。但它们在医疗等专业领域容易出现不同程度的 " 水土不服 ",面对复杂医疗查询时也常 " 掉链子 ",核心问题就两个:
缺 " 专业储备 ":通用模型没有密集的医疗知识,面对罕见病、多病症关联等场景,支撑不了临床推理;
缺 " 精准工具 ":依赖公开网页搜索的通用工具,要么找不到权威医疗数据,要么被错误信息干扰,无法保障推理严谨性。
而 MedResearcher-R1 的突破源于数据、工具、训练方法三大核心创新。
据此,蚂蚁团队提出了知识指引下的轨迹合成框架(KISA),在 12 个医学专业领域生成了 2100 多条不同的轨迹,每条轨迹平均与 4.2 个工具交互,为构建 " 专家级 AI 医疗研究员 " 提供了全新范式。
三大核心技术:不堆参数,只做 " 精准突破 "
MedResearcher-R1 没有走 " 堆参数、喂海量数据 " 的老路,而是从 " 让 AI 学会像医学专家那样思考 " 出发,做了三个关键设计:
1. 主动 " 造难题 ":从 3000 万文献里炼出 "4.2 步推理题 "
传统 AI 训练靠 " 啃现成数据 ",而 MedResearcher-R1 学会了 " 自己造题 ",尤其是医疗领域的 " 高难度研究型问题 "。
研究团队先从超过 3000 万篇医学文献中,筛选出罕见病、特殊药理机制等 " 冷门但关键 " 的医学实体,再围绕这些实体搭建知识图谱。
最核心的一步是:从知识图谱里提取 " 最长推理路径 " ——比如 " 罕见遗传病→关联基因→靶向药物→代谢副作用 " 的多环节链条,最终生成需要平均调用 4.2 次工具才能解决的复杂问题。
这意味着 AI 训练时学的不是 " 翻书查答案 ",而是 " 拆解问题、逐步验证 " 的专家级思维,比如面对 " 某罕见心脏病的用药副作用 ",它会主动追溯药物机制、临床数据,而非直接套模板回答。
2. 专属 " 工具箱 ":不囿于公开搜索,直连权威医疗数据源
通用领域 Deep Research Agent 的 " 软肋 " 之一,是只能依赖公开网页搜索。
在医疗场景里,未经筛选的网络公开检索信息不仅可能过时,还可能混杂非临床级数据。
MedResearcher-R1 直接配备了私有化部署的医疗专用工具集:通过直接访问国际医疗指南、核心医学期刊等一手权威信源,尽可能从根源上避免 " 信息噪音 "。
比如在回答 " 某药物成分 " 时,它会直接调取官方药品注册数据,而非依赖可能出错的公开科普;验证 " 药物副作用 " 时,会对接临床验证结果,确保每一步推理都有权威依据。
3. 不教 " 背诵 " 教 " 思考 ":「蒙版轨迹引导(Masked Trajectory Guidance)」技术 " 逼 " 出 AI 的自主能力
怕 AI" 死记硬背 "?MedResearcher-R1 的训练方法直接改道而行。
研究团队用了一种 " 蒙版轨迹引导(Masked Trajectory Guidance)" 技术:训练时只给 AI 一个 " 推理框架 "(比如 " 疾病→药物→副作用 " 的逻辑链),但隐藏关键实体信息(比如具体疾病名称、药物成分)。
这就逼着 AI 必须主动调用工具:查疾病指南确认病症、搜药品数据库匹配成分、验临床数据验证副作用,最终自己 " 拼出 " 完整推理链。
这种训练不是 " 喂答案 ",而是 " 教方法 " ——最终提升了小模型的泛化能力,在面对没见过的新医疗问题,也能像人类研究员一样自主拆解、验证。
举个具体例子:当被问及 " 某药物的活性成分(需满足质数剂量、受体拮抗机制等多条件)" 时,通用 AI 通常会根据各种公开信息进行全面整理给出不同答案;
而 MedResearcher-R1 会先查企业史锁定药企,再调取药物信息,接着验证成分的化学结构与受体机制,最后确认副作用 ——整套流程复刻人类医学研究员的工作逻辑,最终给出具体药物名称。
既要追求专业,还要 " 不偏科 "
更值得注意的是,蚂蚁还在攻克其专业模型的 " 通用研究能力 " 提升,试图打破 " 专业模型只能干一行 " 的刻板印象。
从 GAIA、xBench 等通用 AI 助手基准测试结果来看,MedResearcher-R1 的表现也保持业界前列,初步验证小规模模型可以同时兼具 " 领域深度 " 和 " 通用广度 ",避免因为 " 专精医疗 " 而变成 " 偏科生 "。
MedResearcher-R1 等专业模型发展的意义,不在于一次次测试结果,而是验证另一种可能性:在医疗、法律、工业等专业领域," 参数规模 " 不是唯一解药,"Agentic Data" 才是破局关键——通过精准的数据源搭建、专用工具开发、创新训练方法,小规模模型有机会能啃下硬骨头。
在容错率极低的医疗领域,专业模型仍然需要不断提升可解释性、合规性等,这也是行业未来面临的共同挑战。
目前,研究团队已宣布将 MedResearcher-R1 的代码和数据集开源,希望在推动全球研究者在该领域的协同创新,加速开发能够辅助人类专家、提升医疗研究效率与质量的下一代 AI 工具。
感兴趣的朋友可通过官网链接直接体验。
官网链接:https://chat.antaq.com/
报告地址:https://arxiv.org/abs/2508.14880
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦