智东西
编译 | 王涵
编辑 | 漠影
智东西 10 月 14 日消息,昨夜,前特斯拉人工智能与自动驾驶视觉总监、OpenAI 研究员安德烈 · 卡帕西(Andrej Karpathy)开源 nanochat,号称可以只用不到 100 美元(约合人民币 711.5 元)训练出 " 简易版 ChatGPT",一经发布在 GitHub 上就获得了 5.6k 星。
nanochat Github 主页(来源:Github)
开源地址:
Github:https://github.com/karpathy/nanochat
与其早期只涵盖预训练的 nanoGPT 不同,nanochat 是一个极简的、从零构建的全栈训练 / 推理流程,用最精简的依赖代码库实现了 " 简易版 ChatGPT"。
安德烈 · 卡帕西(Andrej Karpathy)推文截图(来源:X)
卡帕西在评论区中回复称,nanochat 的基本架构类似 Meta 的 Llama,但有所简化,并吸收了 modded-nanoGPT 的一些改进。
他还透露,截至指令微调(SFT)阶段,整个训练耗时 3 小时 51 分钟,总成本为 92.4 美元(约合人民币 657.4 元)," 这样我们甚至还能剩下 8 美元买个冰淇淋犒劳自己。" 他开玩笑道。
值得注意的是,由于目前对强化学习(RL)的支持尚不完善,卡帕西称他并未将其计入总运行时间。
也就是说,开发者只需启动云 GPU 实例,运行单个脚本,只需不到 100 美元(约合人民币 711.5 元),最快 4 小时,就能训练出可进行简单对话、创作故事诗歌、回答基础问题的 " 简易版 ChatGPT"。
训练约 12 小时,模型即可在评估模型推理能力、知识基础等基础能力的 CORE 指标上超越 GPT-2。卡帕西还透露,当投入提升至约 1000 美元(约合人民币 7114.7 元),训练 41.6 小时后,模型表现还将显著提升,能够解决基础数学 / 编程问题并通过选择题测试。
例如,深度为 30 的模型训练 24 小时(相当于 GPT-3 Small 125M 的计算量,约为 GPT-3 的千分之一)后,在多任务的语言理解基准 MMLU 得分超 40 分,在简单常识推理任务 ARC-Easy 超 70 分,在数学推理能力基准测试 GSM8K 中获得超 20 分的成绩。
nanochat 性能表格(来源:Github)
这个有着 8304 行代码的项目实现了以下功能:
1、使用新的 Rust 实现训练分词器;
2、在 FineWeb 数据集上预训练 Transformer LLM,并通过 CORE 指标多维度评估;
3、使用 SmolTalk 的用户 - 助手对话数据、选择题数据和工具使用数据进行中期训练;
4、进行指令微调,在常识选择题(ARC-E/C、MMLU)、数学(GSM8K)、代码(HumanEval)等基准上评估聊天模型;
5、可选使用 "GRPO" 算法在 GSM8K 数据集上进行强化学习;
6、通过带 KV 缓存的引擎实现高效推理,支持简单预填充 / 解码和工具调用(轻量级沙箱中的 Python 解释器),可通过 CLI 或类 ChatGPT 网页界面交互;
7、生成单页 Markdown 评估报告,以游戏化方式总结全流程。
在原推文的评论区中,卡帕西还给出了一个 nanochat 与用户对话的案例。在这个对话中,基础版 nanochat 已经实现 AI 聊天机器人的对话功能,并且可以根据要求撰写诗歌。
nanochat 功能演示(来源:X)
在卡帕西的推文下,网友们发出一致好评,有人称 " 非常受到启发 ",甚至说 " 这个人(指卡帕西)简直是个传奇。"
网友评论节选(来源:X)
还有网友已经做出了 nanochat 的可交互实时代码图谱,能够更加直观地探索这个代码库:
nanochat 实时代码图谱(来源:X)
结语:nanochat 为 AI 开发成本控制路径提供参考
nanochat 项目的推出,为 AI 模型开发的成本控制提供了新的参考。该项目证明了,在适当的架构设计和流程优化下,以 100 美元级别的成本实现基础对话 AI 功能具备技术可行性。
虽然当前版本在性能上仍与商用大模型存在差距,但其展现的性价比优势,为 AI 技术在更广泛场景中的应用拓展了可能性。随着开源社区对该项目的持续优化,这种高效开发模式或将为 AI 技术普及带来新的推动力。
登录后才可以发布评论哦
打开小程序可以发布评论哦