全天候科技 7小时前
Semianalysis:智能体火爆,CPU成为新的“AI瓶颈”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

随着 AI 智能体和强化学习(RL)的爆发式增长,原本在 AI 浪潮初期被边缘化的通用处理器(CPU),正遭遇前所未有的算力挤兑,成为继 GPU 之后新的基础设施瓶颈。

近期,随着各大科技巨头财报陆续落地,市场对 AI 基础设施的关注点正在发生微妙转移。投资者不仅紧盯 GPU 的订单与交付,更开始寻找 AI 应用落地带来的新增长极。

4 月 8 日,知名半导体分析机构 SemiAnalysis 首席分析师 Dylan Patel 在一次深度访谈中指出,由于 AI 工作负载的范式正在从简单的文本生成向复杂的 " 智能体(Agents)" 和 " 强化学习(RL)" 演进,CPU 正面临极其严重的产能短缺。

在 AI 发展的头几年,核心算力需求几乎全被 GPU 占据。正如 Dylan Patel 所言:" 在 AI 的头几年,CPU 确实严重滞后……负载很轻。你发一个字符串,它回一个字符串,简单的推理,对 CPU 需求不大。"

然而,这一局面在过去几个月里发生了颠覆性的变化,核心驱动力正是以 OpenAI o1 为代表的具备逻辑推理和智能体属性的新一代模型。

智能体与强化学习推升 CPU 需求

模型不再仅仅是 " 生成文本 ",而是开始自主执行任务、调用数据库并自我验证,这让 CPU 的工作量呈指数级上升。

Dylan Patel 给出了一个极具冲击力的数据:

" 就在最近六个月吧,代码智能体的收入在很短的时间内从几十亿美金涨到了超过 100 亿美金。这些智能体的任务时长也大幅增加:比如 Claude Code 可以连续工作六七个甚至七八个小时……它可以自己去 ping、去抓取、以智能体方式自主工作。这也需要大量的 CPU。"

与此同时,强化学习的训练循环变得越来越紧密。未来的 AI 不仅要做数学题,还要在物理模拟器中导航,这要求生成器(模型)生成的每一步都需要在 CPU 集群上进行高频验证。

" 这个循环在过去几年变得越来越紧……在过去六个月里,我们看到整个云市场的 CPU 都跑光了。"

云厂商疯狂扩容,微软 " 卖空 "CPU 已致 GitHub 不稳

市场需求的骤增直接导致了云端算力的枯竭。为了满足头部 AI 实验室的需求,大型云厂商甚至牺牲了其他业务的稳定性。Dylan Patel 直言:

" 我不知道你们最近有没有经常和 GitHub 打交道,它真的很不稳定……那是因为微软把他们所有闲置的 CPU 都卖给了别人。"

这种短缺正在逼迫企业进行极端的工程迁移。据透露,OpenAI 此前几乎只在 x86 CPU 上运行,但为了获得算力,他们直接向亚马逊要存量处理器。

" 亚马逊有大量的 ARM CPU,于是他们把整个栈都移植了过去——只要能拿到 CPU,到哪里我都愿意移植我的代码库。"

关于 CPU 的市场价格,Dylan Patel 说道:

"CPU 的利润率没那么高,但正在攀升,因为 Intel 和 AMD 在涨价而且供应紧张。"

从数据来看,扩容正在全行业上演。" 亚马逊安装的 CPU 服务器数量,今年比去年同比增长了 3 倍。到处都没有容量了。"

此外,为了不让昂贵的 GPU 闲置等待,客户必须保持 CPU" 热池 " 持续运行,这种商业逻辑进一步放大了对 CPU 的需求。

硬件淘金热蔓延:存储暴涨,3nm 产能全线告急

算力的短缺已经沿着产业链迅速向上传导,不仅英特尔和 AMD 发出了涨价通知,甚至连面向 C 端的 PC 市场也受到波及(如苹果 Mac mini 脱销)。

Dylan Patel 用一句极其生动的话形容当下的硬件市场:

" 通常,出现淘金热的时候,连拿着坏镐头的人也能卖掉他的镐头。"

他补充了市场高度关注的存储和芯片制造环节的涨价数据:

" 内存价格在过去一年涨了 4 倍,而且还会继续涨。现在 SSD 价格也涨了 3-4 倍,而且至少还会再涨 60%。"

更令市场担忧的是晶圆代工产能的挤压。AI 芯片正在吸干台积电的最先进制程产能:

"AI 正在买走所有 3 纳米和 2 纳米的产能……现在所有 AI 芯片都在往 3 纳米迁移:AMD 的 MI350 系列、亚马逊和谷歌的 Trainium 3 和 TPU v7、英伟达的 Rubin ——所有这些都在 3 纳米上。"

这甚至迫使苹果、高通等移动端巨头向下迁移,或者让英伟达将部分订单转移至三星。

以下是访谈的文字记录:

主持人:

大家好。很高兴请到 Dylan。我第一次看他视频是一次采访,他谈到:虽然我们有 CPU,但我们要讨论 Neo clouds 以及它们为什么有存在的权利。那对我来说非常有意思,因为今天的主题正是:当智能体(agents)已经到来时,新的基础设施基元是什么?你当时把 Neo clouds 与超大规模云服务商的不同之处,以及它们为什么应该存在,阐述得非常清楚。能跟我们分享一下吗?

Dylan Patel:

当然。在 AI 时代,超大规模云服务商的动作有点慢,对吧?谷歌、亚马逊、微软,进入 AI 领域都有点慢。于是一批全新的公司冒了出来,而且出现了一个新的低门槛——亚马逊、微软、谷歌构建的那些复杂软件,很多其实并不需要。事实上,那些复杂软件反而拖慢了 AI 的发展:它们有自定义网络,但那些网络对 AI 并不太友好,更关注可靠性和存储流量,而不是像在网络上做 all-reduce 之类的事情。

所以这些大型云厂商、超大规模云服务商有很多东西,Neo clouds 可以直接跳过,然后构建专注、优化的解决方案,并提供更低的成本,因为它们的开销要低得多——这些 Neo clouds 里没有两万个谷歌的项目经理坐在会议室里(尽管有些 Neo clouds 已经开始招聘谷歌的项目经理,从而放慢了速度)。它们在能源上行动迅速,在搭建 GPU 集群上行动迅速,所以它们能够开辟出一块市场。那是早期的那些。自那以后,出现了很多模仿者或追随者——很多没有成功,很多正在成功。这实际上就是一场比谁最有能力的战斗。

那么,是不是所有——我想大概有 200 家左右这样的 Neo clouds,对吗?——你看到它们之间有差异化吗?是不是有些只是在复制最早那批的软件栈?有些在做别的事情?你有没有看到这些 Neo clouds 中哪些做法成功、哪些不太成功?

是的,有很多因素能区分它们。我们有一个叫 "Cluster Max" 的东西,给所有 Neo clouds 排名。我们会测试各种东西:可观测性、可靠性、网络、安全、管理、编排等等,这些都不一样。比如,有人会测试他们的 GPU 在用户空闲时是否工作正常——那是主动健康检查还是被动健康检查?风扇转速是否合适?功耗是否正确?节点是否有问题?网络是否有问题?性能是否达标?有各种各样的检查和测试,因为 GPU 是不可靠的。还有 GPU 之上的软件类型:很多人一开始只做裸金属,比如微软与 CoreWeave 的最初合同全是裸金属——你只需 SSH 进去,微软自己搭建环境。

但随着发展,人们想要更多:有人想要安装 Slurm,那很简单;有人想要安装 Kubernetes,稍微难一点,但仍然很简单;有人想要在 Kubernetes 上安装 Slurm,因为这样更容易推送作业等等。现在开始有人做托管 Ray 服务之类的东西,用于强化学习(RL)。所以有一类 Neo clouds 在构建这些东西,而另一类 Neo clouds 则说 " 我不在乎,我只建 GPU,然后以裸金属方式出租 "。成本上也有差异:拥有好软件的 Neo clouds 往往收费更高,某种程度上又回到了传统模式——谷歌、微软、亚马逊有好软件,收费也高得多。而且你会看到很多这类云公司开始尝试推出推理服务和其他东西。

类似地,顺着这个思路,我就想说到 CPU 了。历史上,我们有客户要求像 OpenClaw 那样的东西——有些人说 " 我需要我的沙箱或 CPU 盒子长时间运行,你能给我一个 5 美元像 Hetzner 那样的产品吗?" 我说不行,因为那是裸金属机器,成本很低。但当你提供更大的软件产品时,成本就会更高,所以很难与之竞争。所以我猜在 Neo clouds 里也一样,正如你提到的,裸金属的销售成本比那些往软件方向走的要低。

我只是好奇它们为什么有存在的权利——这有点像我们做的事情的类比。但真正的问题是,你提到了这一点,我们正在思考的方向是:CPU 成了新的瓶颈。以前每个投资人、每个我聊过的人都只谈 GPU。现在你出了一份大报告讲 CPU,我心里想 " 好的,没错,谢谢你 "。所以你报告里说今年会是瓶颈。那么请从 TDR 层面高屋建瓴地告诉我们:为什么 CPU 现在是瓶颈?你看到了什么?

是的,在 AI 的头几年,CPU 确实严重滞后。它被用于一些存储、一些检查点、一些数据预处理和预训练,但负载很轻。推理方面,模型还不够好,无法成为智能体——你不能让它一步步地行动。所以当时没有能力让模型去执行动作并把它们串起来,基本上是你发一个字符串,它回一个字符串,简单的推理,对 CPU 需求不大。

但过去几年——其实不光是过去几年,比如 Q* 开始,OpenAI 有那些风波,然后最终 o1 预览版发布——说实话那是 15、16 个月前的事了(感觉上久远得多)。o1 是第一个这类模型。然后涌现了一大批模型。以前人们会做简单的事,比如用正则表达式检查模型输出,看看是否正确,或者做结构化输出用于函数调用等等。但随着时间的推移,对模型的检查变得规模大得多,并且已经完全集成到训练中——通过强化学习。

不再只是用正则表达式,而是用各种分类器;不再只是分类器,而是做代码单元测试和编译;再进一步,你运行智能体流程,它实际上去调用数据库之类的,或者与一个对 CPU 负载很重的环境(如物理模拟或生物模拟)交互。模型输出内容,然后检查它——这个环境(强化学习环境)——然后再回去基于它进行训练。这个循环在过去几年变得越来越紧。

而最近——就说最近六个月吧——代码智能体的收入在很短的时间内从几十亿美金涨到了超过 100 亿美金。这些智能体的任务时长也大幅增加:比如 Claude Code(或类似模型)可以连续工作六七个甚至七八个小时。在这个过程中,它会调用数据库,调用各种东西(至少我们用了很多 Cron 服务器),反正什么都做——它可以自己去 ping、去抓取、以智能体方式自主工作。这也需要大量的 CPU。所以过去六个月这方面也急剧膨胀。再加上强化学习训练循环变得越来越紧。因此在过去六个月里,我们看到整个云市场的 CPU 都跑光了——我不知道你们最近有没有经常和 GitHub 打交道,它真的很不稳定。

我想你是今天第三个提到这事的人了。

好的。我们一直在检查 GitHub 的统计数据:宕机多频繁?提交失败多频繁?情况很糟。那是因为微软把他们所有闲置的 CPU 都卖给了别人——要么是内部实验室自己用,但更多的是外部实验室。他们和 Anthropic、OpenAI 签了合同,所以自己几乎没有 CPU 剩下了。

我们在很多其他公司也看到了同样的情况。以前,每个 CPU 服务器对应很多 GPU 服务器,比如 100 兆瓦的 GPU 可能只由 1 兆瓦甚至更少的 CPU 来服务。但现在这个比例正在变得非常接近,无论是对于 RL 训练还是推理(智能体推理)。然后你就看到所有地方的 CPU 都跑光了。亚马逊安装的 CPU 服务器数量,今年比去年同比增长了 3 倍。到处都没有容量了。这不仅导致 GitHub 很不稳定,可能其他地方也是。

我的意思是,今天我们谈论了很多基础设施相关的事情。每天都能看到某个基础设施提供商——不管是 GitHub 还是别的什么(不点名了)——出现宕机,这已经变得很常见了。这可能是 CPU 短缺的原因,也可能是工作负载规模等原因。

也可能是所有人的基础设施代码都是 "vibe coded"(凭感觉乱写)的。

对,也可能是所有人的基础设施代码都是 vibe coded。我不认为全是,但可能有一部分是。我看到很有意思的是,运行在我们这里的 CPU 工作负载数量—— Daytona 基本上有三个用例:代码和命令执行(比如类似 cloud code 的东西需要跑在 CPU 上);还有计算机使用用例,这个我们实际上看到增长非常快。我们今天刚宣布了 Windows 沙箱,它也跑在 CPU 上。

如果你需要一个智能体去处理遗留软件(比如金融、客服等领域,全都在那里)。另外正如你所说,强化学习方面,我们有很多通常用 Kubernetes 的人,现在开始用我们。但有趣的是,这些负载的规模和体量极其巨大,而且还在极其快速地增长。而我们是世界上最小的云。所以我好奇的是:如果我们这么小的公司都有这么大的量,那么在大规模下会是什么样子?

而且我们遇到过——我想知道你有没有这方面的洞察——光是 RL,更不用说长时间运行的智能体了(仅就后者而言,我们看到客户进来,其中一个客户在昨天 6 小时内跑了 100 万个 BCP 工作负载。就一个客户)。那么有多少客户在做 RL?他们都会需要这个。我不知道你有没有什么见解,但我很好奇。

我的意思是,有些指标相当惊人—— 100 万 vCPU 听起来很疯狂。但有些人签的合同和工作负载的规模甚至比这还要离谱。

我相信那是因为我们确实很小。

对,是这原因。所以我想,当你再看像 Anthropic、OpenAI 这样的公司时,他们已经完全吃掉了多个云的全部容量。最近亚马逊和 OpenAI 交易的一大推动力——是的,OpenAI 想要钱,他们需要算力,但他们也直接去找亚马逊说 " 把你的 CPU 给我们 "。

之前 OpenAI 的栈几乎只在 x86 CPU 上运行,但亚马逊有大量的 ARM CPU,于是他们把整个栈都移植了过去——只要能拿到 CPU,到哪里我都愿意移植我的代码库。这就能看出人们愿意投入的工程水平了,因为通常开发者都懒得动,直接去别的地方找容量,但现在别的地方也没有容量了。

是的,有意思。我们全是 x86,只有这些。我们目前还没有 ARM。但除了这两家,还有 Nvidia 有自己的 CPU,还有其他人也在造自己的 CPU。这些 CPU 之间也有差异。它们都只是通用 CPU 吗?你可能比我懂得多,我超级好奇。

关于 CPU 的类型。

现在种类太多了。以前基本上只有 x86 和 ARM。现在有了不同类型的 CPU。是因为大家都跑光了,还是它们在某些方面确实更好?有什么特别的吗?

通常,出现淘金热的时候,连拿着坏镐头的人也能卖掉他的镐头。CPU 市场现在非常动态。目前主要是 Intel 和 AMD ——我猜你们主要用 Intel 和 AMD 的 CPU。这两家都说自己完全卖光了,已经向客户发了涨价通知。它们甚至不再互相竞争了,只是想着 " 我能造多少卖多少 "。同样,亚马逊有 Graviton CPU,已经发展到第五、第六代了。Nvidia 有 Grace 和 Vera CPU。

但之前没人真正部署过 Grace 独立 CPU 机箱—— Nvidia 为了 PR 做了一些小规模部署,但实际上独立 CPU 部署非常少。为什么呢?只是因为它们不够好。但现在向前看,也许它们的 CPU 变好了,也许捆绑销售得更好,但更重要的是因为它们有容量(因为其他人都没容量了),所以它们能在自己的各种 CPU 上拿到更多合同,大概今年晚些时候或明年初开始部署。

所以这是一个非常动态的市场。然后微软和谷歌也开始部署自己的 CPU,而且开始上量。Arm 几周后要发布一款 CPU,Meta 会采用,Cloudflare 等几家公司也会采用。所以会有更多的 ARM 独立方案,而不只是 Arm 授权 IP 给别家。市场上会出现更多的多样化——这正是在淘金热时会发生的。然后我们会看到,当供需缺口逐渐弥合时,到底谁的品质最好、谁能留下来。

但看起来需求的规模还是会增长。至少我看到的:第一,RL ——似乎 RL 大部分是在做后训练,但现在已经有供应商和公司在推销并创建实时 RL 的服务。因为你有了一些智能体,你有了一些在后台是智能体的 SaaS,然后它会在一天结束时做 RL,基本上是为了从自己的行为中学习。

所以那在增长。另外,这些长时间运行的智能体——如果它们能工作更长时间、解决更多问题,你基本上可以让它们做更多事情,它们会启动越来越多的这类智能体,这意味着越来越多的 CPU 盒子。那么从你的视角看,你理解市场动态,最终可能会收敛,但我感觉在需求缩小之前,它还会变得更宽。

是的,完全是这样。因为最初所有的 RL 都是 " 来做数学证明 ",数学证明对资源需求很低。而且模型(生成器)会生成大量输出,然后把正确答案(或它认为的答案)发给服务器,服务器去验证。但随着时间的推移,不再是那样了:模型会多次提交,或者在它的智能体过程中多次尝试编译,或者多次尝试做单元测试。这增加了生成器(也就是模型)发送给验证器的频率,这个循环越来越紧。随着我们进入更复杂的 RL,模型实际上会不断地验证自己的输出。

比如说,想象一下未来一两年训练的模型——比如一个机器人模型,在一个世界模型中验证:视觉语言模型(VLM)在世界上导航,试图拿起东西、放下东西。每一步都需要被验证,而物理模型跑在某个 CPU 集群上。那需要的 CPU 量会多得疯狂,远比你做单元测试或跑数学证明要多。看 o1,它基本只能做数学。再看像 GPT-5.4 或 Opus 4.6 这样的模型,它们能做智能体软件。但当我们进入下一阶段——不管是什么——会有能够理解 " 我需要系鞋带,系的时候鞋带强度是多少?抗拉强度是多少?" 的模型。所有这些都需要计算,因为验证器只是在生成下一步,但每一步都需要更频繁地被检查,而且检查这一步的计算强度也会随时间增加。

但还有另一件事,你可能比我知道得更清楚:GPU 的强度决定了它们能并行处理一定数量的 CPU 盒子。随着下一代 GPU 的出现,我觉得它们会比现在能够启动、管理或处理更多的 CPU,这会给 CPU 带来另一个压力。

是的,肯定是这样。GPU 的功耗也在变得更高,所以一个 GPU 随时间推移会对应越来越多的 CPU 用量。而且 GPU 每一代都变得更贵,而 vCPU 价格持平或略有下降。所以规模确实不同了:一个 Blackwell 对比一个 Rubin,性能提升了 X 倍,价格也提升了 X 倍。

而 CPU 呢,你买上一代还是新一代——这一代有 192 个 vCPU,上一代大概是 96 个,所以你有更多的 CPU,但价格上涨的幅度和你获得的额外 vCPU 数量是成比例的。所以 vCPU 的比例会增长,但成本方向可能也是有利于 CPU 的,但不确定幅度多大。

是的,另一个压力——我们在较大客户身上看到过:他们 GPU 有时间配额,他们不希望 GPU 闲置。所以他们宁愿付钱给一个热池来运行 CPU,这样当 GPU 有任务来时,CPU 是热的(实际上在工作)。所以他们会——因为我们做的——大多数 CPU 某种程度上是便宜的资源(虽然我们不觉得自己便宜),但对于这个场景来说是便宜的资源。这实际上会消耗更多的 GPU,因为闲置 GPU 的成本太高了。

对,这真是一个很有意思的点。商业模式上,没人——当然有按需 GPU,但比如 Lambda 有 5 万多块 GPU,其中只有 4000 块是按需的,而且总是卖光。所以实际上没有人真正有按需 GPU。每个人都至少签长期合同(多月的),大多数情况下是多年的。而 CPU 的使用方式是可以随时启停——这就是为什么大家当初都上云。但在这些工作负载下,GPU 生成器(跑在 GPU 上的模型)生成一堆东西,发给验证器。如果验证器没有准备好等着,GPU 就在空转。你已经为 GPU 付了钱,如果你不能在 CPU 那边瞬时拿到资源,实际上你应该预启动。你不是在加载模拟器或环境,你是在浪费钱。所以确实如此。

不仅如此,一旦这些跑起来,你又会启动另一个热池,这样每一次新的迭代都在持续增长。那么总体来说这意味着什么?我们跳过了 RAM,没谈内存。以前 GPU 是瓶颈,我们测量过,现在是 CPU。那么对大多数人来说更切身的是:现在 PC 很难买,因为超级贵。CPU 也会这样吗?你刚才提到它们相对便宜且价格持平。市场压力会推动它们涨价吗?

是的,PC、笔记本电脑、组装 PC 都很难买到。比如 Apple 的 Mac mini 基本卖光了。我们买了一大批 Mac mini,因为以前用 Excel 和 Windows 的人现在想用 Claude Code,而 OSX 显然开发环境更好。所以人们买了很多 Mac mini 在部署使用。我觉得整个领域都类似,而数据中心对资源的购买更加缺乏弹性,这也导致价格上涨。GPU 一直很贵,英伟达的利润率一直在 70% 以上。

CPU 的利润率没那么高,但正在攀升,因为 Intel 和 AMD 在涨价而且供应紧张。内存价格在过去一年涨了 4 倍,而且还会继续涨。现在 SSD 也涨了,所有资源都在涨:SSD 价格也涨了 3-4 倍,而且至少还会再涨 60% ——没有 DRAM 那么多,但也很多。所以综合来看,Intel 和 AMD 的 CPU 产能某种程度上可以在 PC 和数据中心之间转换,内存和存储则非常可互换。结果就变成了:去他的普通用户——你得现在买 Mac mini,否则你就永远脱离不了永久底层阶级了,差不多是这种思路。

最后一个问题,我们时间快到了。不是财务建议,Intel 之前处境非常糟糕,最近开始有起色。但 CPU 需求会把他们拉出困境吗?

他们会好一些,但这并不是说公司得救了——公司估值基于未来现金流。而且有一种可能性是他们会得到 Apple 或其他客户。更有意思的是,不是因为 CPU 需求高到 Intel 能从中获得一些短期利润——其他人(AMD、亚马逊等)会赶上来的,他们会补上自己的产能。更重要的是,AI 正在买走所有 3 纳米和 2 纳米的产能,几年内人们将不得不转向其他方向。比如英伟达收购 Grok,人们编了各种无厘头理由,一部分是因为他们想要极快的推理,但另一部分是因为 Grok 是用三星制造的——因为台积电那边没有 3 纳米产能给他们了,他们需要别处流片。

如果 AI 真的像我们相信的那样疯狂,需求像我们相信的那样疯狂,明年会更疯狂。那么只要造出任何像样的芯片就能卖掉——差不多是这种哲学。显然他们在架构等方面做了更多事情,但同样的情况也适用于 Apple:台积电告诉 Apple," 嘿,从 3 纳米下来吧,快点迁移到 2 纳米,我能做。" 因为所有 AI 芯片都在 3 纳米上,这需要时间。小型移动芯片比大 AI 芯片容易制造。现在所有 AI 芯片都在往 3 纳米迁移:AMD 的 MI350 系列、亚马逊和谷歌的 Trainium 3 和 TPU v7、英伟达下周要发 Rubin ——所有这些都在 3 纳米上。台积电让 Apple 下来,让高通和联发科下来。这三家公司可能会想 " 也许我们该用 Intel,因为 Intel 没有让我们下来 " ——但 Intel 做不了啊。所以大家都很难。

我还有很多问题想问,但我们只剩下 20 秒了。我下一个问题肯定会超时。那就先到这里,非常感谢你来和我们交流。谢谢!

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 微软 gpu 基础设施 物理
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论