虎嗅APP 02-14
姚顺宇率领谷歌复仇Anthropic,“没有你才更好”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

本文来自微信公众号:字母 AI,作者:苗正,编辑:王靖,题图来自:视觉中国

谷歌 CEO 皮查伊在 X 上高调宣布,Gemini 3 Deep Think 在最难的挑战上,取得了前所未有的成绩。

这个项目,正是姚顺宇加入谷歌后参与的第一个重量级项目。

作为谷歌的对手之一,xAI 的创始人马斯克都不由得在这条贴文里留下了一句 " 令人印象深刻 ",皮查伊则回复给他一个 " 大拇指 " 表情。

然而,当人们翻看姚顺宇的履历时,通常都会以为自己搜错名字了。

但你没有看错,姚顺宇的确没有任何计算机背景,他本身是一位理论物理学家,他的博士研究方向是量子引力和量子信息扰乱。

正所谓遇事不决量子力学。

当 Scaling Law 逐渐失效,AI 产业正在经历的一场变革。

真正能给 AI 带来突破,带着人们走向 AGI 的,或许反而是那群懂得用物理,来理解 " 智能 " 这个词本质的人。

一、这孩子打小就喜欢物理

姚顺宇小时候随父母从宁夏来到上海,就读于浦东新区的上南中学东校。初三时,他在浦东新区物理竞赛中拿了个三等奖。

有一说一,这成绩不算特别亮眼,我小时候拿过物理竞赛的一等奖。

2012 年,姚顺宇以推荐生身份被上海市格致中学提前录取,随后便开始了他开挂般的人生。

2015 年,他考入清华大学物理系。

只不过当时没人能想到,这个物理系新生,会在 10 年后给整个 AI 界带来不小的震撼。

进入清华后,姚顺宇的表现开始不一样了。

大二下学期,当大多数同学还在为基础课程焦头烂额时,他已经开始上博士生的凝聚态物理课程。

那一年,姚顺宇被周期驱动系统(Floquet systems)吸引了。

这是个极其前沿的研究领域,涉及复杂的数学和物理概念。他和导师汪忠教授一起,写了篇 50 多页的长文章,完成了对高维、一般对称性下 Floquet 周期驱动系统的拓扑分类。

这项工作为这一研究方向建立了完整的理论框架,是一项非常系统的里程碑式拓扑分类工作。

并且,姚顺宇以第一作者身份,将这篇论文发表在了物理学顶级期刊 Physical Review B 上。

对一个本科生来说,这几乎是不可能完成的成就。

物理系主任王亚愚教授后来回忆说,在这门主要面向博士生的课程中,姚顺宇是十年来给自己印象最深的两名学生之一。

但真正让姚顺宇在物理学界出名的,是他在非厄米系统方面的发现。

在清华期间,他首次在国际上给出了关于非厄米系统的拓扑能带理论,并准确预测了相关现象。

简单说,他发现在开放量子系统中,电子态会神奇地 " 挤 " 到材料边界,这种现象被称为 " 非厄米趋肤效应 " ( Non-Hermitian Skin Effect ) 。这个发现颠覆了传统拓扑物理的理论框架。

这项工作发表在 Physical Review Letters 上,并获得了编辑推荐。

这篇题为《Non-Hermitian Skin Effect and Chiral Damping in Open Quantum Systems》的论文,后来被引用近千次,成为姚顺宇学术影响力最高的作品。

2018 年 11 月 8 日,清华大学本科生特等奖学金答辩会举行。

这是清华授予本科生的最高荣誉,每年全校不足十人,在这之中便有姚顺宇。

他也成为了物理系当年唯一获此殊荣的学生。

2019 年,姚顺宇去斯坦福大学读理论与数学物理博士。

他的导师是 Douglas Stanford 和 Stephen H. Shenker。

前者被同行认为是最有潜力改变物理发展方向的顶尖青年科学家,后者则是弦理论领域的传奇人物。

在斯坦福期间,姚顺宇研究量子引力和量子信息扰乱(quantum scrambling),这是理论物理中最前沿、也最抽象的领域之一。

博士毕业后,他在加州大学伯克利分校做博士后研究。截至目前,他的总引用次数超过 5000 次,h 指数 14。

二、一个学物理的凭什么能研究 AI?

虽然很多人大学选的专业,和他们毕业出来后找的工作都没有直接关联,但是像姚顺宇这样一直在钻研物理学的人,理论上应该找个物理相关的工作。

但是姚顺宇偏偏选择了 AI。

2024 年 10 月,姚顺宇加入 Anthropic,参与大模型 Claude Sonnet 框架的研发。

一个研究量子引力的物理学者,凭什么能负责起世界顶尖 AI 公司的研发工作?

答案其实不复杂。

大模型的核心技术本质上是数学密集型的工作。训练大模型需要解决高维空间中的优化问题,这跟物理学中的变分法、统计力学有很深的联系。

姚顺宇研究的拓扑物理、非厄米系统,用的数学工具,比如概率论、线性代数、张量计算、动力系统理论,它们跟深度学习高度重合。

更关键的是,理论物理和机器学习处理的是同一类问题:高维、非线性、涌现性强的复杂系统。

统计物理学中的吉布斯分布,就是机器学习中概率推断的理论基础。深度神经网络的训练过程,可以看作是在高维参数空间中找能量最小值,这跟统计物理中的自由能最小化原理一个道理。

近年来越来越多研究表明,统计物理的工具可以用来理解深度学习中的很多现象。

量子多体系统和大模型在数学结构上很相似。

在量子物理中,大量粒子相互作用时,会涌现出单个粒子层面无法预测的集体行为。

在大模型中,数十亿个神经元参数相互作用时,同样会涌现出超出预期的效果。

事实上现在咱们常说的思维链推理、上下文学习、指令遵循,也都是依靠这种涌现的方式才诞生的。

这种从微观到宏观的涌现现象,也正是物理学家最擅长研究的。

因此,基于物理训练出来的 " 物理直觉 ",恰恰是 AI 研究最需要的。

从复杂现象中抽象出数学模型,这是物理学家的基本功。

在 AI 领域,这意味着能理解神经网络的本质,而不是停留在调参层面。

物理学家习惯在不同尺度上思考问题,从微观粒子到宏观宇宙。这种跨尺度建模的能力对应到 AI 中,就是理解从单个神经元到整体的全景图。

姚顺宇在斯坦福研究的量子信息扰乱(quantum scrambling),关注的是量子信息如何在复杂系统中扩散和混乱化,这套数学框架跟神经网络中信息的传播和处理有相似的结构。

那么当他转去做 AI 相关的研究时,这些看似抽象的物理理论,就顺理成章地变成了理解大模型行为的工具。

更直接的联系来自强化学习这个概念本身。

姚顺宇在 Anthropic 主要做强化学习研究,而强化学习的理论基础本身就源于物理学。

最优控制理论恰好是来自经典力学的变分原理,路径积分方法直接借鉴量子力学的费曼路径积分,熵正则化来自统计物理的自由能概念。

对一个理论物理学家来说,这些不是需要学习的新知识,而是已经内化在思维方式里的工具。

这种从物理到 AI 的转变,不是姚顺宇一个人的个案。

卷积神经网络的发明者杨立昆(Yann LeCun),在进入 AI 领域之前,学的就是工程物理教育。

深度学习的奠基人杰弗里 · 辛顿(Geoffrey Hinton),他提出的玻尔兹曼机(Boltzmann Machine),名字就来自统计物理学家路德维希 · 玻尔兹曼。

而这套系统的核心逻辑,便是用统计物理中的能量函数来描述神经网络的状态分布。

事实上,姚顺宇在加入 Anthropic 后,深度参与了 Claude 3.7 Sonnet 与 Claude 4 系列的强化学习模块研发,是这两代模型能力跃升的关键贡献者。

这不是 " 跨界 ",而是把物理工具应用到新领域。

当 AI 产业逐渐从 " 暴力堆算力 " 的 Scaling Law 时代,转向新阶段时,反而需要这样的物理学者。

三、新征程

2025 年 9 月 19 日,姚顺宇在个人博客上发了篇文章,宣布离开 Anthropic。

在这篇文章里,他很坦诚地说明了离职原因,并给出了一个精确的比例:40% 和 60%。

40% 指的是可以公开的原因,来自于姚顺宇和 Anthropic 之间价值观上的冲突。

2025 年 9 月 5 日,Anthropic 在内部文件中把中国列为 "adversarial nations"(敌对国家),并宣布停止向 " 中国实体控股的公司 " 提供 AI 服务。

姚顺宇在博客中写道:" 我强烈反对 Anthropic 发表的反华言论。尽管我相信 Anthropic 的大多数人都会反对这样的言论,但我认为我没有办法继续留在公司。"

这段话写得很克制,但能看出他的失望和无奈。

他特别强调 " 大多数人都会反对 ",说明他理解这个政策不是来自公司内部的普遍共识,更多是外部压力和公司高层决策的结果。

60% 指的是那些涉及 " 内部的机密信息 ",不可公开的信息。姚顺宇因保密协议无法详细透露。

但他强调,自己 " 不希望经验与知识受到特定实验室偏见的限制,尤其是在核心研究已无需依赖论文发表的当下,更需要开放、平等的科研环境 "。

说起来像是个笑话,但实际情况就是,在 AI 研究日益商业化、封闭化的今天,学术自由和开放合作正在受到越来越多限制。

在博客结尾,他用了句意味深长的话:"It was good with you, but it is better without you."(和你在一起很好,但没有你更好)这句话既是对过去一年工作的肯定,也是对未来道路的期待。

这件事反映了在全球 AI 竞争的大背景下,华裔科学家面临的复杂处境。

一方面,美国有世界上最先进的 AI 研究资源和最优秀的科研团队。

可另一方面,受地缘影响,很多华裔科学家的身份成了职业发展的障碍。

但故事没有在离职中结束。离开 Anthropic 仅 10 天后,姚顺宇就加入了 Google DeepMind,担任高级研究科学家(Senior Staff Research Scientist),且直接进入核心 Gemini 团队。

这速度之快,说明 DeepMind 早就看中了他的能力。

无论是谷歌 CEO 皮查伊,还是 DeepMind CEO 哈萨比斯,他俩在国际合作方面采取了更开放的立场。

尤其是后者,他一直在倡导国际合作,认为 AI 安全问题需要全球科学家共同努力。

因此,即便同样受到美国出口管制约束,谷歌依然没有完全切断与中国研究机构的联系。

加入 DeepMind 后,姚顺宇立即投入 Gemini 团队的工作。

仅仅 5 个多月后,谷歌就推出了 Gemini 3 Deep Think 的重大升级。

这是姚顺宇加入谷歌后参与的首个项目,成绩足以让整个 AI 圈震惊。文章开头处就提到,这次更新甚至让马斯克也对其称赞。

Gemini 3 Deep Think 在多项基准测试中刷新了纪录。

比如在 ARC-AGI-2 测试中,它达到了 84.6% 的成绩。ARC-AGI 是专门测试 AI 的抽象推理能力,测试的目标是检测 AI 在面对从未见过的新问题时,能否识别模式并找到解决方案。

这种能力被认为是真正智能的标志,而不是简单的模式记忆。

Gemini 3 Deep Think 的成绩,比第二名 Claude Opus 4.6 的 68.8% 高出 15%,比 GPT-5.2 的 52.9% 更是高出 30%。

在 Codeforces 编程平台上,Gemini 3 Deep Think 获得了 3455 分的 Elo 评分,达到 " 传奇大师 " ( Legendary Grandmaster)级别,世界排名第 8。

这意味着在算法竞赛和系统架构方面,全世界只有 7 个人类程序员能超越它。

在奥林匹克竞赛水平测试中,Gemini 3 Deep Think 在数学、物理、化学三个学科都达到了金牌水平。

更重要的是,Gemini 3 Deep Think 还处理那些缺乏明确指导原则、答案不唯一、数据杂乱或不完整的现实挑战。

这其实是当前所有 AI 都面临的短板。这些大模型虽然在标准化测试中表现出色,但面对真实世界的复杂问题时,往往表现糟糕。

虽然我们无法确切知道姚顺宇在 Gemini 3 Deep Think 项目中具体负责了哪些工作,但从时间线上看,他在自己的 X 上,第一时间宣布了 Gemini 3 Deep Think 的发布。

我个人认为,姚顺宇在 Anthropic 积累的强化学习经验,以及他作为物理学家对复杂系统的理解,为 Gemini 团队带来了新的视角和方法。

四、两个 "Shunyu Yao" 的平行宇宙

说到 Shunyu Yao,其实在 AI 研究圈里,有两位知名研究者都叫 Shunyu Yao,发音完全一样,都跟在顶尖的 AI 公司做研究工作,也都毕业于清华大学。

每次有关于 " 姚顺宇 " 的新闻,总有人问:" 是哪个姚顺 Yu?"

跟本文的主角不同,另一位姚顺宇是正儿八经的计算机背景。

他是清华姚班毕业,普林斯顿大学计算机科学博士,曾在 OpenAI 工作,目前已加入腾讯。

姚顺宇在 AI 圈的名气,要比物理学家姚顺宇更大。

他提出的 ReAct 框架(Reasoning and Acting),是近年来最有影响力的提示工程方法之一。

这个框架的核心思想是让 AI" 边思考边行动 ",不是先完成所有推理再执行,而是在推理和行动之间交替进行,就像人类解决问题时的思维过程。

ReAct 论文发表于 2022 年 10 月,到 2025 年已经被引用超过 4000 次,成了提示工程领域的经典工作。

姚顺宇的另一项重要贡献是思维树(Tree of Thoughts)。

如果说思维链是让 AI 学会了 " 一步步思考 ",那思维树就让 AI 学会了 " 探索多条思路 "。

在面对复杂问题时,AI 不再只沿着一条路径推理,而是可以同时探索多个可能的解决方案,评估每条路径的前景,然后选择最有希望的方向深入。

姚顺宇在谷歌 Scholar 上的引用数超过 15000 次,远高于物理学家姚顺宇的 5000 次。

但我认为这不奇怪,计算机科学领域的论文引用速度,本来也要比物理学快得多,而且姚顺宇的工作更接近应用层面,影响范围更广。

但引用数不能完全衡量一个科学家的价值,两个 Shunyu Yao 都在各自领域做出了重要贡献。

如果说姚顺宇是从 " 量子力学 " 出发来研究 AI,那姚顺宇就是从 " 让 AI 像人类一样思考和行动 " 的角度切入。

两个人的研究方法、思维方式、甚至用的数学工具都不一样,但他们都在用自己的方式,去实现 AGI。

姚顺宇在腾讯的工作,目前来看,是主要集中在 agent 上的。他发布的论文《CL-bench》,就是一个用于评估 AI agent 能力的基准测试。

它相当于一个给 AGI 研究者们明确一个方向,只要你的研究成果能在 CL-bench 上拿高分,那就说明你接近 AGI。

姚顺宇则是更为直接,因为他认为真正的智能需要理解世界的底层规律。

物理学提供了描述宇宙运行的数学语言,从量子力学到统计物理,从信息论到复杂系统,这些都是构建真正智能系统的理论基石。

那么通过物理学,便可以让 AI 的智能水平更上一层楼,靠近 AGI。

但无论如何,没有哪一种方法是唯一正确的,没有哪一个学科能独自解决所有问题。

物理学家的理论洞察和计算机科学家的工程创新,都是推动 AI 发展不可或缺的力量。

两个 Shunyu Yao,两条道路,同一个目标。

就像集齐龙珠可以召唤神龙一样,或许有这么一家公司,集齐了所有的 Shunyu Yao,那么它也就实现了 AGI。

本文来自微信公众号:字母 AI,作者:苗正,编辑:王靖

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

物理 谷歌 ai 清华 竞赛
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论