在算力需求暴增的今天,CPU 是否会重演 PC 时代崛起神话?这是一个值得思考的问题。如今,大模型推理、端侧 AI、智能物联网正将计算压力推向新的临界点。英特尔、AMD 股价悄然攀升,Arm 架构异军突起,甚至连苹果、小米都在自研芯片中加大 CPU 投入。
这究竟是短暂的风口,还是结构性机遇的开始?当云端集群的 CPU 利用率逼近红线,当每台终端设备都需要独立的 AI 推理能力,传统处理器是否已经站在爆发的边缘?
推理有望成为重要方向
随着 AI 应用从实验室走向千行百业,推理计算正取代训练成为 AI 算力的主战场。据 IDC 与浪潮信息联合预测,2023 年中国 AI 服务器工作负载中训练端占比 58.7%,而到 2027 年推理端算力需求将飙升至 72.6%。当大模型逐渐成熟,企业对算力的需求不再是砸钱堆叠训练集群,而是如何将模型高效、经济地部署到真实业务场景中。这种转变,让 CPU 这一传统通用处理器重新站在了舞台中央。

在推理场景中,CPU 的性价比优势正被重新发现。与动辄数十万、功耗惊人的 GPU 相比,CPU 在成本、可用性和总拥有成本 ( TCO ) 上展现出无可比拟的竞争力。英特尔数据显示,使用 CPU 进行 AI 推理无需构建新的 IT 基础设施,可复用既有平台空闲算力,避免异构硬件带来的管理复杂度。更重要的是,通过 AMX 加速、INT8 量化优化等技术,现代 CPU 的推理性能已实现质的飞跃。实测表明,经过优化的至强处理器在 ResNet-50 等模型上推理速度提升可达 8.24 倍,精度损失不足 0.17%。这种模式,正中中小企业下怀——它们不需要 GPT-4 级别的算力,但需要能跑通 32B 参数模型的经济型方案。
CPU 的用武之地,恰恰集中在 AI 推理的 " 长尾市场 "。第一类是小语言模型 ( SLM ) 部署,如 DeepSeek-R1 32B、Qwen-32B 等模型,它们在企业级场景中文能力突出,参数规模适中,CPU 完全能够胜任。第二类是数据预处理与向量化环节,这类任务涉及文本清洗、特征提取、嵌入生成等,天然适合 CPU 的串行处理能力。第三类是并发量高但单次计算简单的 " 长尾 " 推理任务,如客服问答、内容审核等,CPU 可通过多核心并行处理数百个轻量级请求,实现更高的吞吐率。这些场景的共同点是:对延迟要求相对宽松,但对成本极度敏感,正是 CPU 大显身手的舞台。
2025 年以来的许多上市公司已经将相关产品推向市场。浪潮信息 ( 000977 ) 在 3 月率先推出元脑 CPU 推理服务器 NF8260G7,搭载 4 颗英特尔至强处理器,通过张量并行和 AMX 加速技术,单机可高效运行 DeepSeek-R1 32B 模型,单用户性能超 20 tokens/s,同时处理 20 个并发请求。神州数码 ( 000034 ) 则在 7 月的 WAIC 大会上发布 KunTai R622 K2 推理服务器,基于鲲鹏 CPU 架构,在 2U 空间内支持 4 张加速卡,主打 " 高性能、低成本 " 路线,瞄准金融、运营商等预算敏感型行业。这些厂商的布局揭示了一个明确信号:CPU 推理不是退而求其次,而是主动战略选择。
更深层的逻辑在于,AI 算力正在走向 " 去中心化 " 和 " 场景化 "。当每个工厂、每家医院甚至每个手机都需要嵌入式推理能力时,不可能也不必要全部依赖 GPU 集群。CPU 作为通用算力底座,能够将 AI 能力无缝融入现有 IT 架构,实现 " 计算即服务 " 的平滑过渡。在这个意义上,CPU 的确正在成为 AI 时代的 " 新存储 ":它不是最闪耀的,但却是不可或缺的算力基础设施。
CPU 可能比 GPU 更早成为瓶颈
在 Agent 驱动的强化学习 ( RL ) 时代,CPU 的瓶颈效应正以比 GPU 短缺更隐蔽却更致命的方式浮现。与传统单任务 RL 不同,现代 Agent 系统需要同时运行成百上千个独立环境实例来生成训练数据,这种 " 环境并行化 " 需求让 CPU 成为事实上的第一块短板。
2025 年 9 月,蚂蚁集团开源的 AWORLD 框架将 Agent 训练解耦为推理 / 执行端与训练端后,被迫采用 CPU 集群承载海量环境实例,而 GPU 仅负责模型更新。这种架构选择并非设计偏好,而是环境计算密集型的必然结果——每个 Agent 在与操作系统、代码解释器或 GUI 界面交互时,都需要独立的 CPU 进程进行状态管理、动作解析和奖励计算,导致核心数直接决定了可同时探索的轨迹数量。
更深层的矛盾在于 CPU-GPU pipeline 的异步失衡。当 CPU 侧的环境模拟速度无法匹配 GPU 的推理吞吐量时,policy lag ( 策略滞后 ) 急剧恶化—— GPU 被迫空转等待经验数据,而 Agent 正在学习的策略与采集数据时的旧策略之间产生致命时差。这种滞后不仅降低样本效率,更在 PPO 等 on-policy 算法中引发训练震荡,甚至导致策略发散。智元机器人 2025 年 3 月开源的 VideoDataset 项目印证了这一点:其 CPU 软件解码方案成为训练瓶颈,切换到 GPU 硬件解码后吞吐量提升 3-4 倍,CPU 利用率才从饱和状态回落。
2025 年的工业级实践进一步暴露了 CPU 瓶颈对收敛稳定性的系统性破坏。腾讯的 AtlasTraining RL 框架在万亿参数模型训练中,不得不专门设计异构计算架构来协调 CPU 与 GPU 的协作,因其发现环境交互的随机种子、CPU 核心调度策略的微小差异,会通过早期学习轨迹的蝴蝶效应影响最终策略性能。更严峻的是,多智能体强化学习 ( MARL ) 的非平稳性加剧了这一问题——当数百个 Agent 策略同步更新时,CPU 不仅要模拟环境,还需实时计算联合奖励、协调通信,这直接导致状态空间复杂度呈指数级增长。
本质上,Agent RL 将计算范式从 " 模型密集 " 转向 " 环境密集 ",而 CPU 正是环境模拟的物理载体。当 Agent 需要探索工具使用、长链推理等复杂行为时,每个环境实例都是一个小型操作系统,消耗 1-2 个 CPU 核心。此时,投入再多的 A100 或 H200,若 CPU 核心数不足,GPU 利用率仍会在 30% 以下徘徊,收敛时间从数周延长至数月。
2025 年,这种瓶颈已从学术研究蔓延至产业实践,解决 CPU 瓶颈已成为 RL infra 的核心战场。Agent 时代的算力竞赛,胜负手或许不在 GPU 的峰值算力,而在于能否用足够的 CPU 核心喂饱那些饥饿的智能体。


登录后才可以发布评论哦
打开小程序可以发布评论哦