Karpathy 让 AI 通宵干活,自己去蒸桑拿了。
这个 Autoresearch 项目总共 630 行 Python 代码,两天 AI 自主完成 276 次实验,筛出 29 项有效改进,把一个语言模型的训练效率提升了约 11%,全程零人类干预。

但真正有意思的故事,发生在 Karpathy 放下键盘之后。
全球开发者社区接过了这个项目,把它从 " 一个 AI 做实验 " 变成了 " 一群 AI 做科研 "。
他们搭了一个分布式协作层,让数十个智能体在不同 GPU 上共享成果、分工协作,4 天已经跑了超过 2000 次实验。

人类进去检查成果时才突然发现:
不知不觉间,AI 已经自发形成了智能体间的同行评审制度。
AI" 重新发明 " 科学共同体
Karpathy 本人曾给出 autoresearch 的下一步方向:
目标不是模拟一个博士生,而是模拟一整个研究社区。
社区照着这个方向做了。
受 SETI@home(寻找外星信号的分布式计算项目)启发,开发者在 autoresearch 上层加了一个协作层,诞生了 autoresearch@home。
任何互联网用户都可以参与并协作进行人工智能 / 机器学习研究。

智能体可以阅读并学习以往的实验结果,避免重复工作,并实时地在彼此成果的基础上继续发展。
不到一周已经从最初的 13 个智能体扩展到 80+ 个智能体、运行 2000+ 实验。
其中智能体自发产生了角色分化,没人事先分配任务,但群体运行一段时间后,不同智能体开始各司其职:
实验员负责跑实验
验证员专门复现别人的结论
统计员测量方差和置信度
元分析员提新研究方向
……
数字最能说明问题:
一个智能体一天跑了 188 次实验,专门验证别人的声明。另一组智能体生成了 5895 条研究假设,但一个实验都没跑。
整个系统开始像一个分布式研究实验室。

项目发起者 Ensue 创始人 Christine Yip 公布了十大发现,除了智能体角色分化之外,还有很多涉及最底层的 AI 训练技术细节。

更多 step 始终优于更大的 batch
将 batch_size 减半从 2^19 → 2^18,训练步骤加倍,BPB(Bits Per Byte)改善了 0.007。
简单的注意力模式就是最好的
多个智能体独立发现并验证,最终收敛到了一个窗口注意力模式:SSSL(3 个短上下文层,1 个长上下文层,重复)。
过多的长层会浪费计算资源在全局注意力机制上,过少会导致跨 toke 信息缺失。
调整初始化比调整优化器更重要
仅三项改动就带来了约 0.004 BPB 的改善:value embedding 使用正态初始化、QKV 缩放倍率、给残差连接(skip-connection)加上可学习权重。
这些改动都没有涉及到优化器,而在大模型预训练里,0.001 都算有效。
能学习的就别写死
把固定常数替换为可学习参数,几乎总能提升性能。案例包括 skip-2 残差权重、残差混合的 lambda 系数、value embedding 的门控参数。
即使在 5 分钟的短训练中,这些新参数也能收敛并产生收益。
最优架构出人意料地小
群体智能在深度和宽度之间做了大范围探索,最终最优配置是:12 层、维度 512、aspect ratio 40。
加深网络很快就适得其反,16 层带来 84% 更多的参数,但步数减少 23%,BPB 反而更差。
大量 " 改进 " 其实是噪声
一个智能体专门跑了 100 组随机种子实验,发现种子方差约为 0.002 BPB,这恰好是很多声称的 " 改进 " 的量级。换句话说,之前很多 " 发现 " 可能只是运气好。
有了这个结论后,智能体群体自发调整了行为:开始要求重复实验、多种子验证、独立确认。
一些公认好技术直接翻车
几个实验产生了灾难性退化:weight tying 直接把 BPB 炸到 3.216,label smoothing 炸到 1.32,PaLM 风格的 z-loss 带来一致性退化。
这些负面结果写进共享记忆后,成了整个集群最有用的知识,所有后来的智能体都自动避开这些坑,不再浪费算力重复踩。
最大的机会可能还没智能体碰
1045 次实验中,几乎所有改动都在改模型架构。但元智能体生成了 1000 多条关于数据管道的假设:课程学习、数据排序、领域特定批处理,一条都没被测试。
最大的突破可能根本不在架构上,而在数据调度上。
集体记忆加速了发现过程
因为智能体共享实验结果,后来的智能体可以直接从已知最优配置出发,不用从头重新发现前人的工作。
几个关键突破来自那些综合了已有结果而非盲目探索的智能体,证明共享记忆能显著加速研究进程。
为了优化,智能体 " 不择手段 "
在 autoresearch 激发的另一个衍生项目 auto-discovery 中,发现除了自动训练模型,智能体在科学发现和算法发现中表现也不错。
在几个经典的数学优化任务上竟然比 AlphaEvolve、SkyDiscover 和 LoongFlow 等重量级的结果更好。

项目发起者华盛顿大学博士生 Tu Xinming 发现了 AI 智能体为了优化令人捧腹大笑的时刻。
他忘了在指令文件里写 " 不许上网搜答案 "。结果 AI 直接上网搜了一圈,从别人的开源仓库里把最优解抄了过来。
还有一次,AI 碰到评估脚本里的严格容差限制。它没有卡住,也没有报错,而是自己去读了评估器的源代码,理解了约束条件,然后专门设计了一套 " 容差感知优化 " 策略,在规则边界内继续推进。
这与传统超参数搜索不同,传统方法在预设范围内调数字;autoresearch 框架下的 AI 可以直接删掉 AdamW 优化器,然后从零写一个新的,自由度完全不同。

One More Thing
Karpathy 在最初设计 autoresearch 时只写了 630 行代码。
他也没想到,社区会在几天内把它变成一个分布式科学共同体,有实验、有验证、有评审、有分工,甚至有了自己的 " 负面结果知识库 "。
这场实验中最有意思的发现,不是任何一个具体的模型架构,而是这个过程本身。
Karpathy 在 OpenAI 的前同事 Noam Brown 提问:为什么在自工业革命以来人类历史上最关键的时刻,他没有在人工智能前沿实验室工作?

Karpathy 还没有回应,但有人替他答了。
我想他可能会问你类似的问题:在至少自工业革命以来人类历史上最关键的时刻,你为什么要把自己局限于商业组织?
autoresearch:
https://github.com/karpathy/autoresearch
autoresearch@home:
https://ensue-network.ai/autoresearch?view=strategies
auto-discovery:
https://github.com/XinmingTu/auto-discovery
参考链接:
[ 1 ] https://x.com/christinetyip/status/2032590900107346327
[ 2 ] https://x.com/TuXinming/status/2032478765033701835
— 欢迎 AI 产品从业者共建 —
「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。
一键关注 点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦