量子位 昨天
关注o1必备GitHub仓库,上线3天狂揽1.5k星!英伟达工程师出品,承诺持续更新
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

关注 o1 必备的 GitHub 库,它来了!

上线3 天狂揽1.5k 星,一跃登上 GitHub 趋势榜!

这个库专注于收集与 o1 相关的推理技术论文、博客和项目等资源,供大家研究讨论,并在持续更新中。

网友们对它给予高度评价:

科技大 V 说它是" 拆解草莓的逆向工程 "

也有网友直接提出表扬:" 研究 o1,看它就够了!"

真有这么牛?咱们一起来看看到底怎么个事儿!

干货满满

在这个名为Awesome-LLM-Strawberry的 GitHub 库中,涵盖了大量关于 o1 的信息。

量子位为大家整理了一下迄今为止发布的相关硬核内容:

关于 o1 的博客

博客:Learning to Reason with LLMs

作者:OpenAI

链接:https://openai.com/index/learning-to-reason-with-llms/

概述:这篇博客介绍了 OpenAI o1 的训练方法,其中包括链式推理、自我批评、验证、多步骤推理、任务分解和蒙特卡洛树搜索等技术。

博客:OpenAI o1-mini

作者:OpenAI

链接:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

概述:介绍了o1 mini模型在推理成本和效率方面的改进,在保持高推理性能的同时,显著降低了计算和运行成本。

博客:Finding GPT-4 ’ s mistakes with GPT-4

作者:OpenAI

链接:https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

概述:讨论了如何利用 GPT-4 模型自身来发现和修正生成的错误。文章中提到的 " 自我审查方法 " 通过双重评估提高了错误检测的准确性,从而让模型输出的内容变得更加可靠。(文章发表时,已有 OpenAI 超级对齐团队成员离职,因此也被称为团队的 " 遗作 ")

博客:Summary of what we have learned during AMA hour with the OpenAI o1 team

作者:Tibor Blaho

链接:https://twitter-thread.com/t/1834686946846597281

:https://x.com/btibor91/status/1834686946846597281

概述:这篇博客总结了 OpenAI 团队在 AMA(问答环节)中分享的关于 o1 模型的主要内容和特性。

其中包括:模型的推理范式以及规模和性能、输入 token 上下文和模型能力、CoT(思维链)推理、API 和使用限制、定价、微调和扩展等内容。

博客:OpenAI ’ s Strawberry, LM self-talk, inference scaling laws, and spending more on inference

作者:Nathan Lambert

链接:https://www.interconnects.ai/p/openai-strawberry-and-inference-scaling-laws

概述:文章探讨了 OpenAI 的新活 "Strawberry" 以及推理扩展定律,强调了推理计算在提升 AI 能力方面的重要性。而相较于单纯扩大模型规模,作者认为增加推理计算的投入能更有效地提高模型性能。(具有前瞻性的一篇博客,文章发布的时候 o1 还没发布)

博客:Reverse engineering OpenAI ’ s o1

作者:Nathan Lambert

链接:https://www.interconnects.ai/p/reverse-engineering-openai-o1

概述:文章详细讲了 OpenAI 的 o1 模型,重点在于它的推理能力。o1 通过生成复杂的思维链来处理复杂任务,比以前的模型表现更出色。

还讨论了 o1 的设计和训练细节,特别是它如何通过优化数据处理和算法来提高推理效率。同时指出,相比单纯增加模型规模,提升推理计算投入对提升模型性能更有效。

OpenAI o1 贡献者参与撰写的论文

论文:Training Verifiers to Solve Math Word Problems

作者:Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman

团队:OpenAI

链接:https://arxiv.org/abs/2110.14168

概述:发布于 2021 年 10 月,文中指出虽然当前的先进语言模型在很多任务上表现很强,但它们在解决复杂的数学题时仍然遇到困难。为了解决这个问题,作者创建了一个叫 GSM8K 的数据集,其中包含 8500 个不同的小学数学题。

研究发现,即使是大规模的 Transformer 模型在这些题目上也表现不佳。为了提升表现,作者建议使用一个验证器来检查模型答案的准确性。

具体做法是让模型生成多个答案,然后选择验证器评分最高的答案。而这种方法显著提高了模型在 GSM8K 数据集上的表现,比传统的调整方法效果更好。

论文:Generative Language Modeling for Automated Theorem Proving

作者:Stanislas Polu, Ilya Sutskever

团队:OpenAI

链接:https://arxiv.org/abs/2009.03393

概述:发布于 2020 年 9 月,探讨了基于 Transformer 的语言模型如何在自动定理证明中发挥作用。

研究的核心问题是,自动定理证明器在生成原创数学术语方面比不上人类,而这可能通过语言模型的生成能力得到解决。

作者介绍了一种叫做 GPT-f 的自动证明工具,用于 Metamath 形式化语言,并分析了它的效果。GPT-f 成功发现了一些新短证明,这些证明被 Metamath 主要库接受,这是深度学习系统首次为形式数学社区提供并被采纳的证明。

论文:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

作者:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

团队:Google Research, Brain Team(谷歌大脑 )

链接:https://arxiv.org/pdf/2201.11903

概述:发布于 2022 年 1 月,文章讨论了如何通过生成一系列中间推理步骤(思维链)来大幅提升大型语言模型的复杂推理能力。

作者提出了一种叫做 " 思维链提示 " 的方法,具体做法是在提示中给出一些思维链的示例,帮助模型进行更深入的推理。最终实验结果显示,它在三个大型语言模型上都显著提高了它们在算术、常识和符号推理任务中的表现。

论文:Let ’ s Verify Step by Step

作者:Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe

团队:OpenAI

链接:https://arxiv.org/abs/2305.20050

概述:发布于 2023 年 5 月,文章讨论了大型语言模型在复杂多步推理任务中的表现。

作者比较了两种训练方法:一种只关注最终结果,另一种关注每一步推理。结果显示,关注每一步推理的方法更有效,能在 MATH 数据集上提高到 78% 的成功率。

文中还强调了主动学习在提升训练效果中的重要性,并发布了一个包含 80 万个步骤级反馈的 PRM800K 数据集,用于训练最佳模型。

论文:LLM Critics Help Catch LLM Bugs

作者:Nat McAleese, Rai Michael Pokorny, Juan Felipe Ceron Uribe, Evgenia Nitishinskaya, Maja Trebacz, Jan Leike

团队:OpenAI

链接:https://arxiv.org/abs/2407.00215

概述:发布于 2024 年 6 月,文中介绍了用 " 批评者 "(CriticGPT)模型来提升机器学习模型输出的评估。

这些批评者模型能更有效地发现代码中的错误,甚至能找到人类可能忽略的问题。尽管这些模型有时会出错,但与人类结合使用可以减少误导,同时提高错误检测的效率。

论文:Self-critiquing models for assisting human evaluators

作者:William Saunders, Catherine Yeh, Jeff Wu, Steven Bills, Long Ouyang, Jonathan Ward, Jan Leike

团队:OpenAI

链接:https://arxiv.org/pdf/2206.05802

概述:发布于 2022 年 6 月,文中介绍了一种方法,通过微调大型语言模型,让它们生成批评性评论,从而帮助找出摘要中的问题。

研究发现,这些评论可以有效识别摘要中的错误,包括有意误导的信息。大模型在生成有用评论和自我改进方面表现更好。

同时论文还提出了一个框架来评估模型的批评、生成和辨别能力,并指出即使是大型模型也可能有遗漏的知识。研究展示了如何用 AI 辅助人类改进机器学习系统,并公开了相关数据和样本。

论文:Scalable Online Planning via Reinforcement Learning Fine-Tuning

作者:Arnaud Fickinger, Hengyuan Hu, Brandon Amos, Stuart Russell, Noam Brown

团队:Facebook AI

链接:https://arxiv.org/pdf/2109.15316

概述:文章介绍了一种新方法来改进图神经网络(GNN)的训练,特别是针对 " 图卷积 " 操作中的效率问题。

作者提出了一种名为 "FastGCN" 的算法,旨在提高图神经网络的计算速度和缩放能力。通过在训练过程中进行近似和优化,这种方法能够处理更大规模的图数据,从而在图数据分析任务中取得更好的性能。

除此之外,作者还按照时间顺序梳理了一些可能与 o1 相关的其他相关论文

2024 年发布:

2023 年发布:

2022 年发布:

2021 年发布:

2017 年发布:

关于作者

Awesome-LLM-Strawberry的作者是 ID 叫做hijkzzz的中国小哥。

目前在英伟达任深度学习工程师。

他是OpenRLHF 的第一作者,在英伟达期间开发 TensorRT-LLM 的新模型和算法,还参与了 NeMo 的模型训练。

参考链接:

[ 1 ] https://github.com/hijkzzz/Awesome-LLM-Strawberry

[ 2 ] https://github.com/hijkzzz?tab=overview&from=2024-09-01&to=2024-09-18

[ 3 ] https://x.com/IntuitMachine/status/1835476301291139395

[ 4 ] https://x.com/burny_tech/status/1836112182804910224

—    —

量子位年度 AI 主题策划正在征集中!

欢迎投稿专题  一千零一个 AI 应365 行 AI 落地方案

或与我们分享你在寻找的 AI 产品,或发现的AI 新动向

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

the 量子位 mini 草莓 离职
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论