AI大神卡帕西“克隆”了一个ChatGPT

智东西

编译 | 王涵

编辑 | 漠影

智东西 10 月 14 日消息，昨夜，前特斯拉人工智能与自动驾驶视觉总监、OpenAI 研究员安德烈 · 卡帕西（Andrej Karpathy）开源 nanochat，号称可以只用不到 100 美元（约合人民币 711.5 元）训练出 " 简易版 ChatGPT"，一经发布在 GitHub 上就获得了 5.6k 星。

nanochat Github 主页（来源：Github）

开源地址：

Github：https://github.com/karpathy/nanochat

与其早期只涵盖预训练的 nanoGPT 不同，nanochat 是一个极简的、从零构建的全栈训练 / 推理流程，用最精简的依赖代码库实现了 " 简易版 ChatGPT"。

安德烈 · 卡帕西（Andrej Karpathy）推文截图（来源：X）

卡帕西在评论区中回复称，nanochat 的基本架构类似 Meta 的 Llama，但有所简化，并吸收了 modded-nanoGPT 的一些改进。

他还透露，截至指令微调（SFT）阶段，整个训练耗时 3 小时 51 分钟，总成本为 92.4 美元（约合人民币 657.4 元），" 这样我们甚至还能剩下 8 美元买个冰淇淋犒劳自己。" 他开玩笑道。

值得注意的是，由于目前对强化学习（RL）的支持尚不完善，卡帕西称他并未将其计入总运行时间。

也就是说，开发者只需启动云 GPU 实例，运行单个脚本，只需不到 100 美元（约合人民币 711.5 元），最快 4 小时，就能训练出可进行简单对话、创作故事诗歌、回答基础问题的 " 简易版 ChatGPT"。

训练约 12 小时，模型即可在评估模型推理能力、知识基础等基础能力的 CORE 指标上超越 GPT-2。卡帕西还透露，当投入提升至约 1000 美元（约合人民币 7114.7 元），训练 41.6 小时后，模型表现还将显著提升，能够解决基础数学 / 编程问题并通过选择题测试。

例如，深度为 30 的模型训练 24 小时（相当于 GPT-3 Small 125M 的计算量，约为 GPT-3 的千分之一）后，在多任务的语言理解基准 MMLU 得分超 40 分，在简单常识推理任务 ARC-Easy 超 70 分，在数学推理能力基准测试 GSM8K 中获得超 20 分的成绩。

nanochat 性能表格（来源：Github）

这个有着 8304 行代码的项目实现了以下功能：

1、使用新的 Rust 实现训练分词器；

2、在 FineWeb 数据集上预训练 Transformer LLM，并通过 CORE 指标多维度评估；

3、使用 SmolTalk 的用户 - 助手对话数据、选择题数据和工具使用数据进行中期训练；

4、进行指令微调，在常识选择题（ARC-E/C、MMLU）、数学（GSM8K）、代码（HumanEval）等基准上评估聊天模型；

5、可选使用 "GRPO" 算法在 GSM8K 数据集上进行强化学习；

6、通过带 KV 缓存的引擎实现高效推理，支持简单预填充 / 解码和工具调用（轻量级沙箱中的 Python 解释器），可通过 CLI 或类 ChatGPT 网页界面交互；

7、生成单页 Markdown 评估报告，以游戏化方式总结全流程。

在原推文的评论区中，卡帕西还给出了一个 nanochat 与用户对话的案例。在这个对话中，基础版 nanochat 已经实现 AI 聊天机器人的对话功能，并且可以根据要求撰写诗歌。

nanochat 功能演示（来源：X）

在卡帕西的推文下，网友们发出一致好评，有人称 " 非常受到启发 "，甚至说 " 这个人（指卡帕西）简直是个传奇。"

网友评论节选（来源：X）

还有网友已经做出了 nanochat 的可交互实时代码图谱，能够更加直观地探索这个代码库：

nanochat 实时代码图谱（来源：X）

结语：nanochat 为 AI 开发成本控制路径提供参考

nanochat 项目的推出，为 AI 模型开发的成本控制提供了新的参考。该项目证明了，在适当的架构设计和流程优化下，以 100 美元级别的成本实现基础对话 AI 功能具备技术可行性。

虽然当前版本在性能上仍与商用大模型存在差距，但其展现的性价比优势，为 AI 技术在更广泛场景中的应用拓展了可能性。随着开源社区对该项目的持续优化，这种高效开发模式或将为 AI 技术普及带来新的推动力。

宙世代

一起剪

相关标签