12小时登顶OpenAI MLE-bench！上海AI Lab开源算法进化框架MLEvolve

让 AI 像 Kaggle 顶尖选手一样设计算法，需要几步？

上海 AI 实验室「书生」科学发现平台最新开源的MLEvolve给出了答案：12 小时登顶 MLE-bench 榜单第一。

MLEvolve 的核心是一套自进化机器学习系统。它用渐进式蒙特卡洛图搜索替代传统树搜索，让不同尝试路径之间实现经验互通；用全局记忆层记录每一次成败，让智能体越探索越聪明；还用多模式代码生成和多智能体协作，覆盖从方案设计到代码审查的全流程。

最终成绩单：在 75 道 Kaggle 竞赛题上，MLEvolve 以61.33% 的奖牌率超越所有 24 小时基线方法，高难度任务中更是领先——且只用了12 小时。

算法发现：科学创新的重要驱动力

科学研究的诸多重大进展，都离不开算法与方法论层面的突破。快速傅里叶变换（FFT）革新了信号处理与科学计算的效率，反向传播算法推动深度学习从理论走向实践，密度泛函理论（DFT）则为计算化学与材料科学提供了高效的电子结构计算方法并获得诺贝尔奖——新算法的发现与设计，本质上是在为科学研究创造新的工具，其价值往往远超单一问题的解决本身。

算法发现也是创新能力的一种重要体现。能够自主设计和优化算法，意味着不仅掌握了现有工具的使用，更具备了创造新工具的能力。在 AI 时代，让智能系统具备算法层面的创新能力，是迈向自主科学发现的关键一步。

『书生』科学发现平台（Intern Discovery）是上海人工智能实验室面向 AI 驱动科学发现构建的综合性平台。作为支撑平台的核心技术之一，InternAgent 1.5 构建了生成、验证、进化三大协同子系统，将科研抽象为可不断迭代的智能推理过程。

MLEvolve作为其中验证子系统的方案优化引擎，聚焦于算法设计与优化任务——在 MLE-bench 基准上以 12 小时登顶榜首的成绩，正是 AI 自主算法设计能力的一次有力验证。

从 " 写代码 " 到 " 自主设计算法 "：AI 还差什么？

大语言模型已经能写出质量不错的代码，但面对 Kaggle 这样的真实 ML 竞赛——它们本质上是算法设计与工程优化的综合试炼场——仅凭一次性生成远远不够。数据处理、特征工程、模型选型、训练调优，每个环节都需要反复迭代与试错。真正的挑战在于：如何让 AI 像顶尖选手一样，在有限时间内持续探索、总结经验、不断进化算法方案？

现有的机器学习智能体距离这个目标仍有差距：搜索策略不够高效，难以在庞大的方案空间中快速定位最优方向；不同尝试之间彼此孤立，成功的经验无法积累复用，失败的教训也无法反哺后续迭代。

在此背景下，上海人工智能实验室Intern Discovery团队联合华东师范大学推出了MLEvolve——一个基于蒙特卡洛图搜索（MCGS）与多智能体协作的自进化 ML 工程框架。MLEvolve 从架构设计、搜索策略、代码生成到经验管理，构建了一套完整的自主算法优化体系。

核心成果：MLEvolve 在 MLE-bench 基准上以61.33% ± 1.33%的奖牌率登顶榜单第一，尤其在高难度竞赛中以42.22%的表现领跑所有方法——且仅使用12 小时运算预算，低于其他顶尖系统的 24 小时标准。

解密 MLEvolve：四大模块打造 " 自进化 " 闭环

MLEvolve 的核心理念是：在长周期自动化任务中，系统不应止步于生成一个方案，而应持续搜索、验证与精进。MLEvolve 将 " 规划→构建→评估→进化 " 编织为一个可重复的优化闭环，让智能体在有限预算内不断逼近更优解。

框架由四大核心模块协同驱动：

渐进式蒙特卡洛图搜索（MCGS）——搜索引擎，负责多分支并行探索与智能调度

经验驱动的全局记忆层——知识中枢，记录并检索所有历史尝试的成败经验

多模式自适应代码生成——执行引擎，根据任务状态选择最优编码策略

多智能体专业化分工——协作体系，八大专业 Agent 各司其职、协同进化

四者协同构建出从经验积累→智能搜索→方案精修→闭环验证的完整自进化链路。

核心技术创新一、渐进式 MCGS：从 " 线性树 " 到 " 图式网络 " 的搜索革命

传统的蒙特卡洛树搜索（MCTS）虽能在单一路径中平衡探索与利用，但由于分支独立、信息孤立，在复杂 ML 任务中效率受限。MLEvolve 创新性地提出了渐进式蒙特卡洛图搜索（Progressive MCGS），通过三大机制实现搜索能力的质变：

1. 时间感知的探索 - 利用切换

MLEvolve 引入了时间感知的软切换策略，根据剩余时间预算动态调整搜索模式。搜索前期，系统以探索为主，广泛尝试不同方向以覆盖方案空间；随着时间推移，系统平滑地从探索转向利用，逐步聚焦于已证明有效的方案区域进行深度优化。这种自适应的调度策略确保了 " 前期广撒网、后期精雕琢 " 的高效搜索节奏。

2. 跨分支融合与轨迹进化

当某条搜索分支陷入停滞（连续多次尝试无提升），MLEvolve 不是简单放弃，而是启动两种进化策略：

分支内演化（Evolution）：回顾当前分支的完整改进轨迹，总结得失规律，利用历史经验提出新的优化方向

跨分支融合（Fusion）：从其他成功分支的最优节点中提取关键策略，将不同分支的优势融合为全新方案

这种从 " 树 " 到 " 图 " 的结构升级，让不同搜索路径之间实现了真正的经验互通与优势聚合。

3. 多层级停滞检测

MLEvolve 实现了多层级停滞检测机制，在分支级和全局级同时监控搜索进展。一旦检测到某条分支或整体搜索陷入瓶颈，系统自动切换策略——从常规改进升级到演化模式，进而触发跨分支融合，确保搜索始终保持前进动力。

二、经验驱动的全局记忆：让智能体越探索越聪明

优秀的 Kaggle 选手总能从过往比赛中汲取经验，MLEvolve 通过全局记忆层赋予智能体同样的能力。每一次搜索尝试——无论成功或失败——都会被记录为一个结构化的四元组：规划方案、完整代码、性能指标、成败标签。

记忆检索采用BM25 文本匹配 +FAISS 向量语义搜索的混合策略，兼顾关键词精确匹配和语义相似度。当智能体规划下一步方案时，会自动检索历史中的相关经验：强化被验证有效的策略路径，同时规避已知的失败陷阱。

更巧妙的是，不同类型的 Agent 以不同方式查询记忆：改进 Agent 侧重学习成功经验以精进方案，草稿 Agent 则更关注失败案例以避免重蹈覆辙，融合 Agent 则广泛检索多分支信息以激发新的组合灵感。这种差异化的记忆调用机制，既保证了经验复用的效率，又维持了探索的多样性。

三、多模式自适应代码生成与多 Agent 协作

MLEvolve 采用" 规划 - 编码 " 解耦的工作流，先由 Planner 生成结构化的优化方案，再由 Coder 将方案转化为可执行代码。在代码生成环节，系统支持三种模式，根据搜索状态灵活切换不同场景：

全量生成模式（Base）：一次性生成完整可执行方案，快速建立高质量的初始解空间，为后续优化奠定基础

分步合成模式（Stepwise）：基于机器学习流程分步骤生成与整合，在细粒度层面持续优化长链路逻辑，确保复杂任务的每个环节都达到最优

增量修补模式（Diff）：针对局部代码进行精准替换与迭代，在保留有效结构的同时快速验证新策略，大幅提升迭代效率并维持稳定性

在协作层面，MLEvolve 构建了一支覆盖 ML 工程完整生命周期的多智能体团队，涵盖方案设计、迭代优化、错误修复、代码审查、数据泄露检测等关键环节。系统根据当前搜索状态自动调度最合适的 Agent ——探索阶段由草稿 Agent 开拓新方向，瓶颈时由进化与融合 Agent 突破局限，全程由审查 Agent 保障代码质量。这种专业化分工与动态调度机制，使得整个系统如同一支高效运转的 AI 工程团队。

实验结果：12 小时登顶，全面领先

MLE-bench 榜单第一

MLEvolve 在 MLE-bench 基准（75 道 Kaggle 竞赛题）上取得了全面领先的成绩：

几个关键亮点值得注意：

效率惊人：仅用 12 小时就达到了其他方法 24 小时才能达到的水平，时间效率提升一倍

高难度领跑：在最具挑战性的 High 难度竞赛中取得 42.22% 的最佳成绩，体现了系统在复杂场景下的深度优化能力

全面均衡：从低难度到高难度任务均表现出色，展示了框架的强泛化能力

驱动 InternAgent 1.5：从算法设计到跨学科科学发现

MLEvolve 不仅是一个独立的 ML 竞赛解决方案，更是Intern Discovery的核心技术之一—— InternAgent 1.5 中的方案优化引擎。

InternAgent 1.5 构建了生成、验证、进化三大协同子系统，将科研抽象为可不断迭代的智能推理过程。MLEvolve 所提出的图增强蒙特卡洛搜索机制与经验驱动记忆，正是验证子系统中方案优化能力的核心支撑——将搜索空间构建为动态图结构，支持历史轨迹回溯与跨分支知识融合，实现从 " 单点试错 " 到 " 全局协同 " 的探索范式升级。

在此基础上，InternAgent 1.5 已从算法设计任务进一步拓展至跨学科科学发现场景，其通用性已在生物科学、地球科学、物质科学等领域得到验证。MLEvolve 的全面开源，也为社区构建和优化自己的算法设计与方案优化系统提供了坚实的技术基础。

前景与展望

MLEvolve 的开源标志着 AI 智能体从 " 代码生成 " 到 " 自主算法设计 " 的关键一步。它证明了通过图结构搜索、经验驱动记忆与多智能体协作的深度融合，AI 可以在复杂的算法设计任务中实现自主探索、持续学习与高效进化——算法发现能力正是创新能力的重要体现，也是为科学研究创造新工具的有效路径。

MLEvolve 所展现的搜索 - 记忆 - 协作范式具有广泛的可迁移性——从算法设计到数据科学，从工程优化到科研自动化，基于图结构的探索逻辑与知识复用机制为方案优化类任务提供了通用的进化框架。

随着 MLEvolve 的全面开源，研究团队期待社区的力量能够推动这一框架走向更多应用场景，让自进化的 AI 工程伙伴惠及更广泛的研究与工程实践。

项目资源

『书生』· 科学发现平台：

https://discovery.intern-ai.org.cn/home

项目主页：

https://internscience.github.io/MLEvolve/

开源仓库：

https://github.com/InternScience/MLEvolve

InternAgent 系统：

https://github.com/InternScience/InternAgent

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签