雷锋网 10-23
Transformer能否推理引争议,DeepMind连夜更新论文开源数据集:Transformer真的很强
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

DeepMind 闷声干大事,悄悄训练了一个大小只有 270M 的 Transformer 模型,居然不需要搜索,就能实现大师级的下棋水平。

这几天的推特因为这篇 2 月份发布的论文吵得不可开交,DeepMind 团队也赶紧放出了更新后的论文版本,开源了有关数据集和代码,对网上的争议做了回应。

最开始,有位网友分享了 DeepMind 的这项研究,并提出 "Transformer 也能用于逻辑任务 " 的观点,没想到却激起了一场关于 Transformer 能不能推理的争论。

先是顾全全果断转发表示赞同," 这表明 Transformer 具有推理和规划的能力。"

然而,这一观点很快遭到了激烈反驳,争论的火药味十足。

田渊栋直言,短时策略并不等于推理能力。他认为,"Transformer 模型的评估基于闪电战模式(每局限时 5-10 分钟),这更依赖直觉和战术反应,而非传统的深度搜索和规划。"

田渊栋还指出,闪电战下机器人虽然 Elo 达 2713,但未能展示出超越训练数据的能力。" 此外,机器人在短时间内的闪电战 Elo 分数比人类选手要低,这可能说明它的表现更多依赖于模式匹配,而非真正的推理。"

很多反对者也指出,论文中明确提到,这种模型的表现仍然高度依赖于训练数据和架构规模。归根结底,它只是在进行统计匹配,而非真正的逻辑推理。

也有很多人认为,这实际上只是一种预测。虽然 Transformer 能够精准地计算和预测下一步行动,这看着像是在推理,但与人类推理并非一回事。

顾全全解释道," 推理的核心在于蕴涵(entailment)。" 要进行推理,首先需要识别一组基本的命题或原子公式,然后再通过一系列推理规则来推导出结论。

Transformer 实现推理的关键在于它是否能够学习推理规则,这些规则是推理的组成部分,但并不能构成完整的 " 推理 "。

以往的研究表明,Transformer 能够学习各种 " 算法 " 或规则,例如线性回归(Linear Regression)、k 最近邻(k-Nearest Neighbors)和贝叶斯网络推理中的 Chow-Liu 算法。

这些算法虽然不是严格意义上的逻辑推理规则,但仍然是一种有逻辑的算法规则。顾全全认为,DeepMind 这次的研究恰恰展示了 Transformer 学习推理规则上的潜力。

不过,他也坦言:" 尽管大量实证研究表明 Transformer 可以有效地学习推理规则,但仍然需要在理论上得到严格证明。"

换句话说,目前我们只能从实验数据上看到模型的表现,而要真正确认 Transformer 能不能像人类一样推理,还需要更多理论研究。

算法到模型的通用方法

DeepMind 这篇论文在推特引发的激烈讨论,不仅限于技术本身。

有位网友在深入研究论文细节后认为,这项研究展示了一个重要突破,即将任意概率算法提炼成神经模型的通用方法。

他还乐观地表示 " 我们正处于整个计算机科学从图灵机的起源开始重写的边缘。"

Gary Macus 对此持怀疑态度,他在与论文作者交流后指出,论文中的 Transformer 模型虽然在标准国际象棋上取得了成功,但在更复杂的棋盘变体(如 Fischer 随机象棋)上表现不佳,也无法推广到更大的棋盘(如 8x12)。这说明了模型在泛化能力上的局限性。

他还指出,这类模型的优秀表现往往局限于国际象棋这类封闭的环境,在更开放、更复杂的环境中会面临严峻挑战。

也有人不赞同这种说法,认为 Gary Macus 低估了神经网络的繁华能力。虽然模型的适用性不够广,但这种方法却是可以推广的。像 MCTS(蒙特卡洛树搜索)这样的算法也可以被蒸馏成模型,这可能也适用于语言处理。

推特上关于这篇论文的争论愈演愈烈。DeepMind 也于 10 月 21 日在 arxiv 上更新了论文,并推出了名为 ChessBench 的大规模数据集。

ChessBench 数据集包含了 1000 万个国际象棋局面及其走法与价值注释,共计超过 150 亿个数据点,这些数据全部由最先进的国际象棋引擎 Stockfish 16 提供。

研究团队还开源了 ChessBench 数据集、模型权重以及所有训练和评估代码,方便学术界进行下一步研究。

更新的第二版论文里,也提到了 " 蒸馏 " 这件事。

研究人员表示,尽管可以通过监督学习将 Stockfish 的搜索算法的近似版本蒸馏到 Transformer 中,但完美的蒸馏仍然遥不可及。

这也反映了深度学习领域的一个核心问题:即使模型在某些特定领域(如象棋、围棋)表现出了卓越的性能,但它们仍然依赖于大量计算资源和规则化的训练环境。

像 AlphaZero 就是依靠强化学习,通过与自己反复对弈,最终超越了传统棋类引擎,一旦应用到更复杂、更少规则约束的环境,也难免暴露出缺乏泛化能力的问题。

DeepMind 的这篇论文就提供了一条可行的路。

论文在结尾强调 Transformer 不应该只是单纯的统计模式识别器,而应该被当作是一种近似通用算法的强大技术。再结合 Transformer 模型在实验中展示的强泛化能力,也许可以被视作 AI 模型泛化问题的一种解法。

为什么 DeepMind 重回棋局研究?

也有网友发问,之前不是已经有模型实现过了大师级的下棋水平吗,为什么 DeepMind 还要再做一次?

其实在 AI 行业里早就有了一个共识:所有的应用都应该用 AI 大模型重做一遍。

因为 AI 技术的商业化落地始终是个难题,要对准具体的业务肯定是找现成的应用来得快。另外,用大模型重做已有的应用能够进一步挖掘其商业价值,个性化的用户体验能够增加用户粘性抢占更多的市场份额。

在市场的驱动下,微软和谷歌这样的大企业早就付诸行动并且颇有成效了。

微软往 Office 办公三件套引入了 Copilot,实现了从文本生成到流程自动化的全面升级。像普通用户就可以通过提供文字提示或是 Word 文档让 Copilot 生成幻灯片,企业用户还可以直接生成一些简单的代码应用。

Google Workspace 套件里集成的生成式 AI 也很实用,用户可以利用智能助手在 Google Docs 和 Gmail 中生成邮件、摘要等内容,减少重复劳动大大提高了工作效率。

而且这次研究的重要性不仅仅在于棋类 AI 的迭代,更在于它为 AI 推理和学习的未来提供了新方向。

回顾以往的棋类 AI 研究,博弈树一直是核心工具。

博弈树将每一个棋局状态表示为节点,每下一步棋则从一个节点移动到对应的子节点,通过穷举所有可能的步骤,构建出一个庞大的树状结构。

然而,棋类游戏的复杂性让这种全量搜索变得几乎不可行。

为了解决这个问题,约翰 · 麦卡锡(John McCarthy)提出了著名的 α - β 剪枝算法。

这种算法的核心在于,在绘制博弈树的同时进行计算评估,一旦某一分支的结果无法优于已有的最佳结果,就会立即 " 剪枝 ",跳过这个分支的计算。这种方式有效减少了无效计算,大大提升了搜索效率。

1997 年,IBM 的 Deep Blue 利用 α - β 剪枝算法,并结合数百万场棋局的数据支持,成功实现了深度计算。最终,Deep Blue 击败了国际象棋世界冠军加里 · 卡斯帕罗夫。

这是 AI 第一次在公开比赛中战胜顶级人类棋手,也是博弈树算法与启发式规则结合的巅峰。

2017 年,DeepMind 发布了 AlphaZero,进一步突破了传统的博弈树模型。

与以往 AI 依赖人类知识库和启发式规则不同,AlphaZero 完全抛弃了这些外部支持,仅通过自我对弈和通用强化学习算法,就在短时间内掌握了国际象棋、将棋和围棋的玩法。

这项突破性研究展示了 AI 自我优化的潜力:无需借助外部知识库,AI 也能达到卓越水平。

这一次,DeepMind 在棋类 AI 的探索上更进一步。与 AlphaZero 相比,Transformer 模型不仅抛弃了人类知识库和启发式规则,甚至不再使用任何搜索算法,而是通过监督学习直接从包含 1000 万场国际象棋比赛的数据集中学习策略。

DeepMind 训练了三种规模的 Transformer 模型,分别为 9M、136M 和 270M 参数,并根据预测目标(动作值、状态值或行为克隆)构建了一个预测器。动作值预测器用于生成策略,评估所有合法动作的预测值并选择期望动作值最大的动作。

实验结果显示,最大的 270M 参数模型在 Lichess 闪电战中达到了 2895 Elo 的分数,表明它已经具备了大师级的国际象棋策略。

(动作价值模型与 Stockfish 16、Leela Chess Zero 的变体、AlphaZero(有无蒙特卡洛树搜索)以及 GPT-3.5-turbo-instruct 的比较)

相比 AlphaZero 依赖深度搜索和自我对弈,这个模型的成功之处在于无需借助任何搜索算法,仅仅基于棋盘状态的学习也能达到大师级别的棋艺。并且该模型大幅降低了计算需求——甚至在部分任务中以八倍更少的浮点计算量取得与 AlphaZero 相当的成绩。

这不仅是技术上的突破,更暗示了 Transformer 模型在泛化和学习推理规则方面的巨大潜力。

小模型的里程碑

DeepMind 这次的研究对 LLM 尤其是小参数模型来说,同样具有里程碑式的意义。

相信很多人都发现了,现在 LLM 的研究已经到了一个交叉点。

一部分研究者坚信 " 大即是好 ",致力于开发性能强大的巨型模型;另一部分则选择 " 小而美 " 的方向,专注于小参数模型的优化和应用。

像 Meta 和苹果就是小模型赛道的坚定拥护者。

Meta 推出的 MobileLLM 系列,将模型规模缩小至 1B 以下,并推出了 125M 和 350M 两个版本。

而一直专注于闭源开发的苹果,也在开源领域有所突破,发布了一系列开源模型 OpenELM,参数规模集中在 270M 到 3B 之间。

270M 这个数字是不是很熟悉?正是 DeepMind 这次使用的 Transformer 模型参数量。这两家公司都不约而同选择 270M,绝非偶然。

与动辄数百亿参数的巨型模型相比,苹果的 3B 模型在 LLM 领域已算是 " 小型 "。

然而,对于手机等移动设备而言,3B 的模型依然太大。因此,270M 成为绝佳选择——既能在移动设备上顺畅运行,又兼顾了模型性能。

类似的趋势也出现在大型模型领域。

很多主流大模型的参数设定为 7B、13B 或 65B,其中 7B 尤其常见。原因在于 7B 的模型可以在单卡上部署,大大降低了应用的成本和门槛。

这也表明,无论是大模型还是小模型,研究的核心都在于如何实现商业落地。

行业趋势表明,轻量化正逐渐成为市场主流。相比巨型模型,小模型的优势十分明显:

参数少、计算量小,推理速度更快;

成本更低,适合更广泛的部署场景;

对大部分企业而言,小模型的能力已经足以满足业务需求。

截至 2021 年,全球移动设备用户数量已达 86 亿,超过了地球总人口。如何满足如此庞大的移动用户需求,已经成为各大企业竞争的焦点。

比如,苹果的最新语音助手就内置了 270M 模型,支持离线语音识别和本地响应。谷歌的 TinySpeech 也为了能在移动设备上实现更加快速准确的语音识别功能,缩小了参数规模。

OpenAI 也推出了 ChatGPT Lite 版本,在保证准确率的同时,通过减少参数量来降低计算资源的消耗,这使得用户能够在资源有限的设备上,享受到流畅的实时聊天和问答系统交互体验。

在与 LLM 有关的其他领域,也在积极推动轻量化战略,包括专注于高性能硬件的英伟达。

英伟达新推出的 Jetson 系列(如 Jetson Nano 和 Jetson Orin Nano)就是专为嵌入式 AI 系统设计,将强大的算力嵌入体积小、能耗低的设备中,意在推动物联网和边缘设备的发展。

这也说明,小模型并非技术上的妥协,而是商业化的最优选择。未来更多的 AI 应用将逐步摆脱云端依赖,通过小模型在本地运行,推动 " 轻量级 AI" 进入日常生活。

Transformer" 拟直觉 ":AI 是否能模仿人类思维?

这项研究还引发了一个有趣的哲学问题:AI 是否正在向 " 直觉型思维 " 迈进?

传统的 AI 系统依赖于穷举式搜索和策略规划,但人类大师的棋艺往往依赖直觉与经验,而非纯粹的计算。

在闪电战模式中,DeepMind 的模型能够在 5-10 分钟内完成棋局,依靠的是快速判断而非传统的穷举式搜索,这种决策模式看起来和人类的直觉非常相似。

但 AI 的策略始终还是来自对大量数据的学习,这和人类的 " 下意识反应 " 存在本质区别。AI 的所谓直觉,更像是通过模式识别模拟人类的行为,不能真正等同于 " 理解 "。

这种对人类思维的模拟行为也常见于其他 AI 领域。

拿下诺贝尔奖的 AlphaFold 就利用了生物序列与结构之间的复杂关系,模拟生物学家的推理过程,从而快速、准确地预测蛋白质结构。

英伟达用于训练和模拟机器人行为的 Isaac Sim 仿真平台,也是通过模拟真实世界中的物理环境,允许 AI 学习如何在动态环境中做出决策,类似于人类在复杂环境中的反应方式。

遗憾的是这些表现依然是基于训练数据,而非真正的认知理解。

DeepMind 的 Transformer 模型展示了 AI 领域的一个重要趋势:从大模型走向轻量化、从搜索算法转向直接推理。在未来的 AI 应用中,效率与规模的平衡将是关键。Transformer 的成功不仅改变了我们对 AI 的认知,也为 AI 如何在复杂环境中进行推理提供了新的思路。

雷峰网雷峰网

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

deepmind 开源 机器人 公式 火药
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论