证券之星 2小时前
进入AI应用时代,CPU有望成为下一个“存储”机遇吗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在算力需求暴增的今天,CPU 是否会重演 PC 时代崛起神话?这是一个值得思考的问题。如今,大模型推理、端侧 AI、智能物联网正将计算压力推向新的临界点。英特尔、AMD 股价悄然攀升,Arm 架构异军突起,甚至连苹果、小米都在自研芯片中加大 CPU 投入。

这究竟是短暂的风口,还是结构性机遇的开始?当云端集群的 CPU 利用率逼近红线,当每台终端设备都需要独立的 AI 推理能力,传统处理器是否已经站在爆发的边缘?

推理有望成为重要方向

随着 AI 应用从实验室走向千行百业,推理计算正取代训练成为 AI 算力的主战场。据 IDC 与浪潮信息联合预测,2023 年中国 AI 服务器工作负载中训练端占比 58.7%,而到 2027 年推理端算力需求将飙升至 72.6%。当大模型逐渐成熟,企业对算力的需求不再是砸钱堆叠训练集群,而是如何将模型高效、经济地部署到真实业务场景中。这种转变,让 CPU 这一传统通用处理器重新站在了舞台中央。

在推理场景中,CPU 的性价比优势正被重新发现。与动辄数十万、功耗惊人的 GPU 相比,CPU 在成本、可用性和总拥有成本 ( TCO ) 上展现出无可比拟的竞争力。英特尔数据显示,使用 CPU 进行 AI 推理无需构建新的 IT 基础设施,可复用既有平台空闲算力,避免异构硬件带来的管理复杂度。更重要的是,通过 AMX 加速、INT8 量化优化等技术,现代 CPU 的推理性能已实现质的飞跃。实测表明,经过优化的至强处理器在 ResNet-50 等模型上推理速度提升可达 8.24 倍,精度损失不足 0.17%。这种模式,正中中小企业下怀——它们不需要 GPT-4 级别的算力,但需要能跑通 32B 参数模型的经济型方案。

CPU 的用武之地,恰恰集中在 AI 推理的 " 长尾市场 "。第一类是小语言模型 ( SLM ) 部署,如 DeepSeek-R1 32B、Qwen-32B 等模型,它们在企业级场景中文能力突出,参数规模适中,CPU 完全能够胜任。第二类是数据预处理与向量化环节,这类任务涉及文本清洗、特征提取、嵌入生成等,天然适合 CPU 的串行处理能力。第三类是并发量高但单次计算简单的 " 长尾 " 推理任务,如客服问答、内容审核等,CPU 可通过多核心并行处理数百个轻量级请求,实现更高的吞吐率。这些场景的共同点是:对延迟要求相对宽松,但对成本极度敏感,正是 CPU 大显身手的舞台。

2025 年以来的许多上市公司已经将相关产品推向市场。浪潮信息 ( 000977 ) 在 3 月率先推出元脑 CPU 推理服务器 NF8260G7,搭载 4 颗英特尔至强处理器,通过张量并行和 AMX 加速技术,单机可高效运行 DeepSeek-R1 32B 模型,单用户性能超 20 tokens/s,同时处理 20 个并发请求。神州数码 ( 000034 ) 则在 7 月的 WAIC 大会上发布 KunTai R622 K2 推理服务器,基于鲲鹏 CPU 架构,在 2U 空间内支持 4 张加速卡,主打 " 高性能、低成本 " 路线,瞄准金融、运营商等预算敏感型行业。这些厂商的布局揭示了一个明确信号:CPU 推理不是退而求其次,而是主动战略选择。

更深层的逻辑在于,AI 算力正在走向 " 去中心化 " 和 " 场景化 "。当每个工厂、每家医院甚至每个手机都需要嵌入式推理能力时,不可能也不必要全部依赖 GPU 集群。CPU 作为通用算力底座,能够将 AI 能力无缝融入现有 IT 架构,实现 " 计算即服务 " 的平滑过渡。在这个意义上,CPU 的确正在成为 AI 时代的 " 新存储 ":它不是最闪耀的,但却是不可或缺的算力基础设施。

CPU 可能比 GPU 更早成为瓶颈

在 Agent 驱动的强化学习 ( RL ) 时代,CPU 的瓶颈效应正以比 GPU 短缺更隐蔽却更致命的方式浮现。与传统单任务 RL 不同,现代 Agent 系统需要同时运行成百上千个独立环境实例来生成训练数据,这种 " 环境并行化 " 需求让 CPU 成为事实上的第一块短板。

2025 年 9 月,蚂蚁集团开源的 AWORLD 框架将 Agent 训练解耦为推理 / 执行端与训练端后,被迫采用 CPU 集群承载海量环境实例,而 GPU 仅负责模型更新。这种架构选择并非设计偏好,而是环境计算密集型的必然结果——每个 Agent 在与操作系统、代码解释器或 GUI 界面交互时,都需要独立的 CPU 进程进行状态管理、动作解析和奖励计算,导致核心数直接决定了可同时探索的轨迹数量。

更深层的矛盾在于 CPU-GPU pipeline 的异步失衡。当 CPU 侧的环境模拟速度无法匹配 GPU 的推理吞吐量时,policy lag ( 策略滞后 ) 急剧恶化—— GPU 被迫空转等待经验数据,而 Agent 正在学习的策略与采集数据时的旧策略之间产生致命时差。这种滞后不仅降低样本效率,更在 PPO 等 on-policy 算法中引发训练震荡,甚至导致策略发散。智元机器人 2025 年 3 月开源的 VideoDataset 项目印证了这一点:其 CPU 软件解码方案成为训练瓶颈,切换到 GPU 硬件解码后吞吐量提升 3-4 倍,CPU 利用率才从饱和状态回落。

2025 年的工业级实践进一步暴露了 CPU 瓶颈对收敛稳定性的系统性破坏。腾讯的 AtlasTraining RL 框架在万亿参数模型训练中,不得不专门设计异构计算架构来协调 CPU 与 GPU 的协作,因其发现环境交互的随机种子、CPU 核心调度策略的微小差异,会通过早期学习轨迹的蝴蝶效应影响最终策略性能。更严峻的是,多智能体强化学习 ( MARL ) 的非平稳性加剧了这一问题——当数百个 Agent 策略同步更新时,CPU 不仅要模拟环境,还需实时计算联合奖励、协调通信,这直接导致状态空间复杂度呈指数级增长。

本质上,Agent RL 将计算范式从 " 模型密集 " 转向 " 环境密集 ",而 CPU 正是环境模拟的物理载体。当 Agent 需要探索工具使用、长链推理等复杂行为时,每个环境实例都是一个小型操作系统,消耗 1-2 个 CPU 核心。此时,投入再多的 A100 或 H200,若 CPU 核心数不足,GPU 利用率仍会在 30% 以下徘徊,收敛时间从数周延长至数月。

2025 年,这种瓶颈已从学术研究蔓延至产业实践,解决 CPU 瓶颈已成为 RL infra 的核心战场。Agent 时代的算力竞赛,胜负手或许不在 GPU 的峰值算力,而在于能否用足够的 CPU 核心喂饱那些饥饿的智能体。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 浪潮 英特尔 上市公司 芯片
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论