钛媒体 5小时前
速度与成本的双重考验,AI算力“大考”已至
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

当生成式 AI 从实验室走向产业一线,企业级 AI 落地已从 " 可选创新 " 变为 " 生存必需 "。但是当前企业级在部署 AI 应用的过程中,仍面临了很多挑战。IDC 发布的《边缘进化:从核心到边缘驱动成功》报告揭示,37% 已部署生成式 AI 的企业中,超 60% 反馈 " 实时交互类应用响应延迟超预期 ",而高昂的算力成本则让更多企业陷入 " 部署即亏损 " 的困境。

在智能体产业化加速到来的今天,算力需求的指数级激增与成本控制的刚性约束形成尖锐博弈,成为横亘在企业级 AI 规模化落地面前的核心壁垒。浪潮信息首席 AI 战略官刘军的判断直指行业本质:" 智能体产业化的核心三要素是能力、速度和成本,其中 token 交互速度决定商业价值,token 成本决定盈利能力,而这两者的根基都在于算力基础设施的革新。"

企业级 AI 落地陷入 " 规模悖论 "

进入智能体时代,企业级 AI 的应用场景已从早期的简短问答升级为超长上下文交互、多任务协同规划等复杂形态,随之而来的是算力需求的爆炸式增长与成本的失控式攀升,形成了 " 不规模化则无价值,一规模化则亏成本 " 的行业悖论。这种双重挤压不仅体现在硬件采购的直接投入上,更渗透在推理运行、运维管理等全生命周期的成本支出中,成为制约企业级 AI 商业化的核心瓶颈。

中国报告大厅的数据显示,企业级 AI 系统对算力的需求年均增长达 200%,远超硬件技术迭代速度。这一增长并非简单的数量叠加,而是源于应用场景的深度与广度双重拓展。

而这些需求落在硬件层面是对算力服务器的诉求,IDC 与浪潮信息联合发布的《2025 年中国人工智能计算力发展评估报告》中指出,2024 年全球人工智能服务器市场规模已达 1251 亿美元,2025 年将增至 1587 亿美元,2028 年有望突破 2227 亿美元,其中生成式 AI 服务器占比将从 2025 年的 29.6% 提升至 2028 年的 37.7%。这一数据背后,是全球范围内 AI 算力需求的爆发式增长,以及算力产业在技术架构、市场结构、发展模式上的全方位重构。

从场景深度来看,智能体的复杂任务处理对算力提出了前所未有的要求:金融领域的量化交易智能体需要在毫秒级完成海量市场数据的分析与决策,制造业的质检智能体需实时处理高清图像流并精准识别微小缺陷,零售行业的智能导购则要同步响应多用户的个性化需求并联动库存、物流系统。

IDC 发布的《边缘进化:从核心到边缘驱动成功》中显示,37% 已部署 GenAI 的企业中,超 60% 反馈 " 实时交互类应用响应延迟超预期 "。以电商虚拟试衣间为例,用户上传图像后需等待核心云完成 AI 推理,单次交互延迟常达 2-3 秒,转化率较预期下降 40%。

而刘军也在此前与笔者的对话中多次强调类似的观点,他曾指出," 速度,是智能体商业化应用落地的第一要义。" 在智能体商业化应用落地过程中,交互速度是决定其能否在真实场景中发挥价值的首要因素。与传统的 " 人机交互 " 不同,智能体时代的交互本质是智能体之间的高频博弈与协作,任何延迟都可能导致决策失效或机会错失,token 吞吐速度已成为 AI 应用构建的 " 隐形计时器 "。智能体的响应速度不仅影响用户体验,更直接关联商业产出的质量与稳定性。

此外,以典型 API 服务商为例,全球典型的大模型 API 服务商的 DeepSeek 每 token 生成速度,基本维持在 10 至 20 毫秒左右,而国内的生成速度普遍高于 30 毫秒。要在这一基础上进一步实现更低延迟的 token 生成能力,就必然要求底层算力系统架构、互联协议等关键点上进行创新。对此,刘军表示,速度是实现智能体应用效果的基础保障," 在很多产业实践中,浪潮信息看到有很多场景都有高时效性需求,智能体必须要在极短的时间内完成原本由人执行的任务。"

比如,股票交易、银行转账风险监测等金融场景下,对于延时的要求往往需要小于 10ms,而目前市面上绝大多数 AI Agent 服务的延时都在 15ms 以上,如果响应过长,可能造成金融机构或者其用户的资产损失。

与算力需求同步激增的,是 token 消耗量的指数级增长,进一步放大了应用成本压力。火山引擎披露的数据显示,截至 2025 年 12 月,字节跳动旗下豆包大模型日均 token 使用量突破 50 万亿,较 2024 年同期增长超过 10 倍,相比 2024 年 5 月刚推出时的日均调用量增长达 417 倍;谷歌在 2025 年 10 月披露,其各平台每月处理的 token 用量已达 1300 万亿,相当于日均 43.3 万亿,而一年前月均仅为 9.7 万亿。

这种增长趋势在企业级应用中更为显著,麦肯锡调研显示,全球 88% 的企业已布局 AI 应用,但仅有 39% 实现实质性财务回报,成本高昂是导致这一差距的核心原因。以 AI 编程为例,当前企业使用 AI 辅助编程的每月 token 消耗量相比 1 年前平均增长了约 50 倍,达到 1000 万到 5 亿 token 的量级。

而另一方面,占 token 成本 80% 的算力成本一直在以每年 10 倍的速度下降。黄仁勋在 Vera Rubin 发布会上说,摩尔定律的增长曲线已大幅放缓,无法跟上每年 5 倍的 token 生成量增长,更无法跟上 token 成本每年高达 10 倍的激进下降趋势。

token 的成本不仅体现在硬件设备支出上,还体现在算力底层的电力成本支出上。施耐德电气预测,2026 年 AI 数据中心单机柜功率密度将升至 240kW,2028 年将达到 1MW,这意味着能源消耗将随算力密度同步攀升。对于中小企业而言,这种成本压力更为显著,某制造企业的 AI 质检项目,初始硬件投入达 800 万元,加上每年 200 万元的运维与能源成本,投资回报周期长达 5 年,远超企业预期。

高昂的综合成本让企业级 AI 落地陷入 " 投入产出失衡 " 的困境。从直接的 token 成本来看,当前主流大模型的商业化成本依然居高不下:以输出百万 token 为例,Claude、Grok 等海外模型的价格普遍在 10-15 美元,国内大模型虽然相对便宜,也多在 10 元以上。OpenAI 的 GPT-5 在处理复杂任务时,输入 token 成本为每百万 1.25 美元,输出 token 为每百万 10.00 美元,这种成本结构在需要高强度交互的企业级场景中,几乎无法实现规模化盈利。IDC 的调研数据显示,AI 推理产生的海量数据回传至核心云,导致企业带宽成本激增 3-5 倍,部分制造企业的 AI 算力集群年能耗成本已占其 IT 总支出的 25% 以上。

架构失衡与资源错配是 " 根因 "

企业级 AI 算力成本高企的背后,并非单纯的 " 算力不足 ",还存在底层算力架构与智能体时代的推理需求严重错配,导致 " 高配低效 "" 资源闲置 " 等结构性问题。

当前全球大模型竞赛已从 " 盲目堆算力 " 转向 " 追求单位算力产出价值 " 的新阶段,但 80% 以上的 token 成本依然来自算力支出,而阻碍成本下降的核心矛盾,在于推理负载与训练负载的本质差异被忽视,沿用传统训练架构承载推理任务,导致算力、显存与网络资源难以同时最优配置,形成了多重效率瓶颈。

算力利用率(MFU)的严重倒挂,是成本高企的结构性根源。在 AI 模型的全生命周期中,训练与推理的算力需求特征存在本质差异:训练阶段属于 " 计算密集型 " 任务,通过批量数据处理可实现较高的算力利用率,MFU(模型算力利用率)可达 50% 以上;而在推理阶段,特别是对于追求低延迟的实时交互任务,由于 token 的自回归解码特性,每一轮计算中,硬件必须加载全部的模型参数,却只为了计算一个 token 的输出,导致昂贵的 GPU 大部分时间在等待数据搬运,实际 MFU 往往仅为 5%-10%。

这种巨大的算力闲置现象在企业级场景中尤为突出,比如,某头部制造企业的 AI 质检系统采用传统算力架构,其 GPU 集群的平均 MFU 仅为 7%,大量算力资源在等待数据传输的过程中被浪费,直接导致单位检测成本居高不下。

究其原因,传统算力架构的设计核心是满足训练阶段的批量计算需求,而智能体时代的核心需求是推理阶段的实时交互,用训练架构做推理,好比 " 杀鸡用牛刀 ",资源浪费不可避免。

与此同时," 存储墙 " 瓶颈在推理场景下被持续放大,进一步推高成本与延迟。在大模型推理过程中,随着上下文长度的增加,用于存储中间结果的 KV Cache 会呈指数级增长,这不仅占用了大量昂贵的显存空间,还导致了严重的访存密集问题。传统架构采用 " 存算分离 " 模式,数据需要在内存与显存之间频繁迁移,不仅带来了高额的数据迁移功耗,还显著增加了延迟。为了缓解这一问题,企业不得不采用价格高昂的 HBM(高带宽内存),进一步提升了硬件采购成本。数据显示,配备 HBM 的 GPU 单价较普通 GPU 高出 2-3 倍,而 KV Cache 占用的显存空间可达模型本身的 30%-50%,在超长上下文推理场景中,这一比例甚至超过 70%。

另一方面,网络通信与横向扩展代价高昂,形成了算力规模化的 " 天花板 "。当企业级 AI 模型规模突破单机承载能力时,跨节点通信成为新的性能瓶颈。传统的 RoCE 或 InfiniBand 网络的延迟远高于芯片内部的总线延迟,通信开销可能占据总推理时间的 30% 以上,导致企业被迫通过堆砌更多资源来维持响应速度,进一步推高了总拥有成本(TCO)。在千卡级以上的大规模算力集群中,网络设备的采购成本已占整体硬件支出的 20%-30%,而通信过程中的能耗成本也不容忽视。

更严重的是,传统网络架构的 " 拥塞与丢包 " 问题会导致算力资源的进一步浪费:当多个节点同时进行数据传输时,网络拥堵会导致部分数据重传,不仅增加了延迟,还占用了额外的算力与带宽资源。中国软件评测中心(CSTC)对 20 余家主流大模型服务提供商的综合评估显示,网络通信延迟是导致国内大模型 token 生成速度普遍高于 30 毫秒的核心原因之一,而全球主要大模型 API 服务商的 token 生成速度基本维持在 10-20 毫秒左右,网络架构的差距直接体现为商业竞争力的差异。

另一方面,软硬协同也是决定算力效率高低与否的关键因素。当前,多数企业的 AI 部署采用 " 通用硬件 + 通用软件 " 的组合模式,未针对特定模型的计算特征与行业场景的需求进行深度优化,导致算力资源无法充分释放。例如,不同行业的 AI 模型具有显著的计算特征差异:金融领域的风控模型以逻辑推理为主,对 CPU 算力需求较高;制造业的质检模型以图像处理为主,对 GPU 的并行计算能力要求较高;而零售领域的推荐模型则需要兼顾数据处理与逻辑推理,对异构算力的协同调度要求较高。

传统的通用算力架构无法精准匹配这些差异化需求,导致部分资源过载、部分资源闲置。同时,软件框架与硬件架构的适配不足也会影响算力效率,例如,部分开源框架未针对本土 AI 芯片进行优化,导致芯片的核心性能无法充分发挥,进一步降低了单位算力的产出价值。

AI 算力破局之路在何方?

面对算力需求激增与成本高企的双重挑战,企业级 AI 落地的破局关键不在于 " 盲目增加算力投入 ",而在于通过算力架构的根本性革新,实现 " 算力效率的数量级提升 " 与 " 成本的规模化降低 "。

在 " 算效 " 方面,要实现更低延迟的 token 生成能力,必然要求底层算力基础设施在系统架构、互联协议、软件框架等关键点上进行协同创新。Gartner 预测,到 2028 年,超过 40% 的领先企业将采用融合 CPU、GPU、AI ASIC、神经形态计算等多种范式的混合计算架构,以应对复杂的 AI 工作负载,这种架构将实现性能、效率与创新的多重突破。

在系统架构领域,需要推动算力架构从 " 集中式 " 向 " 分布式协同 " 转型,通过存算一体、算力网络、边缘计算等技术创新,破解 " 存储墙 "" 网络墙 " 等效率瓶颈。比如,针对此,天翼云就推出了 " 端网协同负载均衡方案 ",通过自研集合通信库 CTCCL 实现端侧精准控流,配合网侧优化,将 AllReduce 峰值带宽提升 40%,大模型训练效率提升 7%,为架构创新提供了实践范例。

在软件优化领域,需要加强芯片与软件的适配性优化,开发针对性的操作系统、数据库、AI 框架等基础软件,提升全栈算力效率。

在成本方面,目前国内一流水平已经能将每百万 token 的价钱降低到 1 元钱。但在刘军看来,这还远远不够," 未来,AI 要真正成为如同‘水电煤’般的基础资源,token 成本必须在现有基础上实现数量级跨越,成本能力将从‘核心竞争力’进一步升级为‘生存入场券’,直接决定 AI 企业在智能体时代的生死存亡。" 刘军指出。

而通过算力产业头部企业的实践表明,围绕推理场景的核心需求,重构系统架构、推动软硬协同优化、实现资源精准匹配,是破解算力与成本困境的有效路径。这种革新不仅能直接降低 token 成本与响应延迟,更能重塑企业级 AI 的商业价值逻辑,推动行业从 " 规模导向 " 转向 " 效率导向 "。

架构重构是现阶段突破算力效率瓶颈的核心抓手,其中心逻辑是 " 按需拆分、精准适配 ",让不同计算模块在不同硬件上高效协同。传统架构的设计思路是 " 大而全 ",试图用单一架构承载所有计算任务,而新的架构设计思路则是 " 极简与精准 ",围绕降低 token 成本和提升响应速度的核心目标,将推理流程拆解得更细,支持 PD 分离、AF 分离、KV 并行、细粒度专家拆分等计算策略,让不同计算模块在不同卡上按需配置并发,把每张卡的负载 " 打满 ",实现 " 卡时成本 " 最低、" 卡时产出 " 最高。进而,在架构重构的基础上,进行软硬协同优化。硬件层面的创新为效率提升提供了基础,而软件层面的精准适配则能充分释放硬件潜力。

算力与成本的博弈,本质上是技术创新与商业价值的平衡。在企业级 AI 规模化落地的关键阶段,算力架构的革新已成为突破成本瓶颈、提升商业价值的核心引擎。随着架构重构、软硬协同等技术的不断成熟,以及产业生态的持续完善,算力成本将实现持续下降,响应速度将不断提升,这不仅将推动 AI 真正成为如同 " 水电煤 " 般的基础资源,更将赋能千行百业的数字化转型,开启智能经济的全新篇章。

未来,企业级 AI 算力成本优化将朝着 " 专用化、极致化、协同化 " 的方向发展。专用化意味着针对不同行业、不同场景的需求,开发定制化的算力架构与软硬件解决方案,实现算力资源的精准匹配;极致化要求持续推动算力效率的提升,通过架构创新、工艺进步、算法优化等多重手段,实现 token 成本的持续下降与响应速度的不断提升;协同化则需要构建更加完善的产业生态,实现芯片、软件、模型、应用等环节的深度协同,形成 " 算力 - 应用 - 价值 " 的正向循环。(文|Leo 张 ToB 杂谈,作者|张申宇,编辑丨盖虹达)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 人工智能 浪潮 制造业 基础设施
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论