日前,诺奖得主、Google DeepMind 首席执行官 Demis Hassabis 在一档访谈节目中,围绕人工智能(AI)技术的演进与未来发展趋势进行了分享。
在访谈中,Demis 分享了从游戏 AI 到当今推理模型的演变历程,探讨了 Genie 3 等世界模型如何帮助 AI 理解现实,以及为何需要像 Kaggle Game Arena 这样的测试平台来评估通用人工智能(AGI)的新进展。
整个访谈呈现了 AI 从专项智能向全能模型迈进的路径,为理解 AGI 的未来发展方向提供了独特视角。
学术头条在不改变原文大意的情况下,对节选内容做了精编。如下:
Genie 3:让 AI 理解物理世界
Demis 表示,Genie 3 是 DeepMind 多个研究分支融合的成果,是多种想法的结合。其核心目标是构建 " 世界模型 " —— 即让 AI 理解物理世界的规律,包括物理结构、材料特性、液体流动、生物行为等。
他们一直把棋盘游戏作为一个具有挑战性的领域,来改进 AI 算法思想。在过去,人们经常把电脑游戏当作挑战,也用来创建合成数据。无论是过去和现在,研究人员都在使用大量的模拟环境,非常逼真的环境,如 3D 游戏引擎,来为系统创建更多训练数据,以帮助它们理解物理世界。
Demis 指出," 人类不仅生活在语言和数学世界中,更身处物理世界中 ",AGI 若想要真正发挥作用,显然需要理解物理世界这一现实基础。无论是依赖对物理世界预判的机器人技术的突破,还是 AI 日常助手,对时空背景的把握,都离不开世界模型的支撑。
此外,它还需要理解使用者所处的时空背景,所以需要一个世界模型来真正理解这个世界及其运作方式。而证明拥有一个好的世界模型的方法之一,就是能够生成这个世界。
" 有很多方法可以测试你的世界模型的有效性和深度,但一个很好的方法是让它进行逆向操作,生成关于这个世界的一些东西。"
为训练这一能力,他们利用 3D 游戏引擎等模拟环境生成大量数据,让 AI 在虚拟场景中学习现实规律。Genie 3 最显著的特点是能生成具有一致性的世界:
当用户暂时离开其创建的虚拟场景,再次返回时,场景状态与离开时保持一致。这种特性证明它并非随机生成内容,而是对世界运作建立了稳定的底层模型,例如," 打开水龙头会有液体流出 "" 镜子能反射出影像 " 等逻辑都能在生成过程中得到体现。
在应用层面,Genie 3 已用于内部训练。DeepMind 的游戏 agent SIMA,可以直接操控并玩现有的电脑游戏。如果将其放入 Genie 3 中,那么就能得到一个 AI 在另一个 AI 的头脑中进行游戏这种结果。SIMA 会决定采取什么行动,并发出行动指令,Genie 3 则实时生成对应的环境变化,形成 " 一个 AI 生成世界、另一个 AI 在其中探索 " 的闭环。这一模式能为机器人技术、AGI 系统训练创建无限的训练数据。
Demis 提到,Genie 3 在互动娱乐领域有潜在价值,可能催生介于电影与游戏之间的新型娱乐形式。从科学视角看,它与视频模型共同为探索现实本质提供了新维度 —— 通过 AI 对世界的模拟与生成,人类得以从不同角度思考 " 现实的本质 "。
Game Arena:面向 AGI 的动态评估基准
为应对 AI 系统 " 锯齿智能 " 等问题,Google DeepMind 与 Kaggle 合作推出了 Game Arena,作为评估 AGI 进展的新测试平台。让模型去玩各种不同的游戏,并测试它们的能力。
在 " 首届 " 大模型对抗赛决赛中,OpenAI 的 o3 击败了马斯克的 Grok 4,成功夺冠。谷歌的 Gemini 2.5 Pro 则在半决赛中输给了 Grok 4。
在 Demis 看来,这些系统要成为真正的 AGI,所缺少的东西之一就是一致性。Demis 指出,当前 AI 系统存在能力不均衡的现象:它们能在 IMO 中获得金牌,却可能在高中数学、简单逻辑问题或特定游戏中犯低级错误;能根据文本提示生成模拟世界、理解视频,但仍有一些相当简单的事情,小学生都能轻松做到,而这些系统却做不到。这种不一致性是 AGI 发展需突破的关键障碍。
他认为,现有评估基准存在局限性。" 可能在推理、规划、记忆方面还缺少一些能力,除了扩展之外,这些领域可能还需要一两项新的创新。"
这些系统,包括 Gemini,都是非常通用的。但目前的研究团队所使用的很多 benchmark 已经开始变得饱和。
以数学领域的 AIME 为例,DeepMind 的模型的最新结果已达到 99.2% 的正确率,意味着已经进入了一个回报非常有限的阶段,这些 benchmark 正迅速达到饱和,甚至可能因测试本身的误差影响评估效果。
因此,需要更难、更广泛的 benchmark,涵盖物理世界理解、直觉物理、物理智能及安全特性等维度。
Game Arena 的设计基于游戏场景,使它具备多方面的优势:
首先,游戏是非常纯粹的测试场所。你可以通过游戏得到 Elos 等级分,它们是非常客观的性能衡量标准。没有主观性,不需要让人类来进行 A/B 测试、决定评级等等,从这个意义上来说它是非常科学的。
其次,随着 AI 系统能力提升,游戏难度可自动调整。系统在比赛中相互较量,能力增强则测试自动升级,Game Arena 的全部意义就在于让最优秀的模型相互竞争。
另外,随着系统越来越完善,他们还可以逐步在 Game Arena 中引入更复杂的游戏,从象棋扩展至数千种,最终形成综合评分,评估 AI 在多领域的通用能力。它们应该能在所有游戏中都表现出色,既可以是电脑游戏,也可以是棋盘游戏。
在他看来,或许最终 AI 系统应该能发明自己的游戏,然后教给其他 AI 系统,让它们去学习,就像是学习一个从未存在过的新游戏,这样就不可能出现过度拟合训练数据之类的情况了。Demis 有很多关于这种多 agent 环境的想法,他同时也认为 Game Arena 最终应该能够支持这种环境,成为一个非常重要且影响深远的 benchmark。
在更混乱或更贴近现实世界的领域,如何确定有待优化的奖励函数或目标函数,这一直是强化学习面临的难题。在人类世界里,没有单一的目标函数,情况非常复杂。人是多目标的,会根据其他状态,比如情绪状态、物理环境以及在职业生涯中的位置等所有这些因素,不断地调整不同目标的权重。但不管怎样,Demis 认为,我们总能凭借自己的智慧度过难关,大致能弄清楚正确的 " 北极星 " 是什么。
同时,Demis 指出,通用系统也必须做到这一点,它们要学会理解人类用户想要实现的目标,然后弄清楚如何将其转化为一组有用的奖励函数来进行优化。
Demis 强调,Game Arena 的意义在于回归 DeepMind 研究本质:早期以游戏为挑战改进 AI 算法,如今游戏仍是理想测试场。未来,还需要支持 AI 自创游戏并相互教学,避免训练数据过度拟合,更真实地检验通用学习能力。
作为 AGI 发展的重要基准之一,Game Arena 将与其他新型评估工具共同作用,确保 AI 系统在认知能力的各个维度得到全面检验。
One more thing
除 Genie 3 和 Game Arena 外,Demis 还谈到了其他大模型相关热门话题。
Thinking 模型的演进是重要方向。以 Deep Think 为代表的系统,延续了 AlphaGo 等早期游戏 AI 中基于 agent 的系统思路,强调 AI 的思考、规划与推理能力。这类系统可进行深度思考和并行规划,在数学、编程、科学问题等领域通过反复推演优化结果,而非直接输出初始结论。Demis 认为,这是实现 AGI 的必要路径。
工具使用成为 AI 能力扩展的新维度。Thinking 模型在推理过程中可调用搜索功能、数学程序、编码工具等,更新规划方案。对于数字系统而言," 工具 " 与 " 主模型能力 " 的边界存在模糊性,比如象棋能力是整合并入主模型,还是作为工具调用,需要通过实证判断。若某种能力有助于提升其他能力,则整合入主模型,反之则考虑作为工具。
AI 正从权重模型向完整系统转变。早期模型的输入输出模式较为简单,而如今的系统能结合工具使用、规划与思考能力,实现更复杂的功能。这种转变要求产品设计具备前瞻性,需要预判一年后的技术水平,允许底层引擎定期更新(周期可能短至三到六个月),以适应技术的快速迭代。
作者:小瑜
如需转载或投稿,请直接在公众号内留言
登录后才可以发布评论哦
打开小程序可以发布评论哦