进入AI应用时代，CPU有望成为下一个“存储”机遇吗？

在算力需求暴增的今天，CPU 是否会重演 PC 时代崛起神话？这是一个值得思考的问题。如今，大模型推理、端侧 AI、智能物联网正将计算压力推向新的临界点。英特尔、AMD 股价悄然攀升，Arm 架构异军突起，甚至连苹果、小米都在自研芯片中加大 CPU 投入。

这究竟是短暂的风口，还是结构性机遇的开始？当云端集群的 CPU 利用率逼近红线，当每台终端设备都需要独立的 AI 推理能力，传统处理器是否已经站在爆发的边缘？

推理有望成为重要方向

随着 AI 应用从实验室走向千行百业，推理计算正取代训练成为 AI 算力的主战场。据 IDC 与浪潮信息联合预测，2023 年中国 AI 服务器工作负载中训练端占比 58.7%，而到 2027 年推理端算力需求将飙升至 72.6%。当大模型逐渐成熟，企业对算力的需求不再是砸钱堆叠训练集群，而是如何将模型高效、经济地部署到真实业务场景中。这种转变，让 CPU 这一传统通用处理器重新站在了舞台中央。

在推理场景中，CPU 的性价比优势正被重新发现。与动辄数十万、功耗惊人的 GPU 相比，CPU 在成本、可用性和总拥有成本 ( TCO ) 上展现出无可比拟的竞争力。英特尔数据显示，使用 CPU 进行 AI 推理无需构建新的 IT 基础设施，可复用既有平台空闲算力，避免异构硬件带来的管理复杂度。更重要的是，通过 AMX 加速、INT8 量化优化等技术，现代 CPU 的推理性能已实现质的飞跃。实测表明，经过优化的至强处理器在 ResNet-50 等模型上推理速度提升可达 8.24 倍，精度损失不足 0.17%。这种模式，正中中小企业下怀——它们不需要 GPT-4 级别的算力，但需要能跑通 32B 参数模型的经济型方案。

CPU 的用武之地，恰恰集中在 AI 推理的 " 长尾市场 "。第一类是小语言模型 ( SLM ) 部署，如 DeepSeek-R1 32B、Qwen-32B 等模型，它们在企业级场景中文能力突出，参数规模适中，CPU 完全能够胜任。第二类是数据预处理与向量化环节，这类任务涉及文本清洗、特征提取、嵌入生成等，天然适合 CPU 的串行处理能力。第三类是并发量高但单次计算简单的 " 长尾 " 推理任务，如客服问答、内容审核等，CPU 可通过多核心并行处理数百个轻量级请求，实现更高的吞吐率。这些场景的共同点是：对延迟要求相对宽松，但对成本极度敏感，正是 CPU 大显身手的舞台。

2025 年以来的许多上市公司已经将相关产品推向市场。浪潮信息 ( 000977 ) 在 3 月率先推出元脑 CPU 推理服务器 NF8260G7，搭载 4 颗英特尔至强处理器，通过张量并行和 AMX 加速技术，单机可高效运行 DeepSeek-R1 32B 模型，单用户性能超 20 tokens/s，同时处理 20 个并发请求。神州数码 ( 000034 ) 则在 7 月的 WAIC 大会上发布 KunTai R622 K2 推理服务器，基于鲲鹏 CPU 架构，在 2U 空间内支持 4 张加速卡，主打 " 高性能、低成本 " 路线，瞄准金融、运营商等预算敏感型行业。这些厂商的布局揭示了一个明确信号：CPU 推理不是退而求其次，而是主动战略选择。

更深层的逻辑在于，AI 算力正在走向 " 去中心化 " 和 " 场景化 "。当每个工厂、每家医院甚至每个手机都需要嵌入式推理能力时，不可能也不必要全部依赖 GPU 集群。CPU 作为通用算力底座，能够将 AI 能力无缝融入现有 IT 架构，实现 " 计算即服务 " 的平滑过渡。在这个意义上，CPU 的确正在成为 AI 时代的 " 新存储 "：它不是最闪耀的，但却是不可或缺的算力基础设施。

CPU 可能比 GPU 更早成为瓶颈

在 Agent 驱动的强化学习 ( RL ) 时代，CPU 的瓶颈效应正以比 GPU 短缺更隐蔽却更致命的方式浮现。与传统单任务 RL 不同，现代 Agent 系统需要同时运行成百上千个独立环境实例来生成训练数据，这种 " 环境并行化 " 需求让 CPU 成为事实上的第一块短板。

2025 年 9 月，蚂蚁集团开源的 AWORLD 框架将 Agent 训练解耦为推理 / 执行端与训练端后，被迫采用 CPU 集群承载海量环境实例，而 GPU 仅负责模型更新。这种架构选择并非设计偏好，而是环境计算密集型的必然结果——每个 Agent 在与操作系统、代码解释器或 GUI 界面交互时，都需要独立的 CPU 进程进行状态管理、动作解析和奖励计算，导致核心数直接决定了可同时探索的轨迹数量。

更深层的矛盾在于 CPU-GPU pipeline 的异步失衡。当 CPU 侧的环境模拟速度无法匹配 GPU 的推理吞吐量时，policy lag ( 策略滞后 ) 急剧恶化—— GPU 被迫空转等待经验数据，而 Agent 正在学习的策略与采集数据时的旧策略之间产生致命时差。这种滞后不仅降低样本效率，更在 PPO 等 on-policy 算法中引发训练震荡，甚至导致策略发散。智元机器人 2025 年 3 月开源的 VideoDataset 项目印证了这一点：其 CPU 软件解码方案成为训练瓶颈，切换到 GPU 硬件解码后吞吐量提升 3-4 倍，CPU 利用率才从饱和状态回落。

2025 年的工业级实践进一步暴露了 CPU 瓶颈对收敛稳定性的系统性破坏。腾讯的 AtlasTraining RL 框架在万亿参数模型训练中，不得不专门设计异构计算架构来协调 CPU 与 GPU 的协作，因其发现环境交互的随机种子、CPU 核心调度策略的微小差异，会通过早期学习轨迹的蝴蝶效应影响最终策略性能。更严峻的是，多智能体强化学习 ( MARL ) 的非平稳性加剧了这一问题——当数百个 Agent 策略同步更新时，CPU 不仅要模拟环境，还需实时计算联合奖励、协调通信，这直接导致状态空间复杂度呈指数级增长。

本质上，Agent RL 将计算范式从 " 模型密集 " 转向 " 环境密集 "，而 CPU 正是环境模拟的物理载体。当 Agent 需要探索工具使用、长链推理等复杂行为时，每个环境实例都是一个小型操作系统，消耗 1-2 个 CPU 核心。此时，投入再多的 A100 或 H200，若 CPU 核心数不足，GPU 利用率仍会在 30% 以下徘徊，收敛时间从数周延长至数月。

2025 年，这种瓶颈已从学术研究蔓延至产业实践，解决 CPU 瓶颈已成为 RL infra 的核心战场。Agent 时代的算力竞赛，胜负手或许不在 GPU 的峰值算力，而在于能否用足够的 CPU 核心喂饱那些饥饿的智能体。

宙世代

一起剪

相关标签