半导体产业纵横 6小时前
数据中心的下一个胜负手:跳出AI芯片
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

" 花几十亿元流片,最终或许只能兑现不到六成的理论价值。" 这并非危言耸听,而是当下 AI 芯片在真实数据中心场景中的普遍现实。

当生成式 AI 掀起全球算力竞赛,半导体行业的目光多聚焦于:AI 芯片公司又推出了性能多么强悍的新品?台积电的先进制程是否更进一步?然而一组数据,却进一步揭示了这场行业狂欢背后的隐形枷锁:

2024 年中国数据中心总耗电量达 1660 亿度,相当于 2 个三峡水电站的年发电量;约占全国总耗电量的 1.68%,预计 2030 年占比超过 5%,2035 年占比超过 13%。

算力扩张与电力约束的失衡,正在重塑数据中心产业的发展逻辑。

电力瓶颈,比芯片更紧迫

近期,半导体产业纵横深入 AI 芯片及数据中心产业一线走访调研,与多位行业资深从业者深度交流后发现,当前 AI 数据中心电力消耗居高不下的核心瓶颈,主要有三点。

第一点,正如文章开头所言,AI 芯片的技术发展和数据中心的实际使用场景脱节,是当前行业电力消耗居高不下的核心问题之一。当前诸多 AI 芯片研发走进 " 拼峰值算力 " 的误区,把算力多少当成核心竞争力,却忽略了数据中心里最关键的 " 算力够用且省电 " 的平衡需求。这种失衡主要体现在两方面:

其一,芯片设计和实际任务对不上。主流 AI 芯片的核心架构,更适合高密度的并行计算,但大模型训练时经常出现 " 稀疏计算 " 的情况,两者天然不匹配——很多芯片算力闲着不用,电却照耗不误,形成了 " 无效耗电 " 的死循环。其二,应对复杂任务的灵活性不足。随着多模态大模型(既能处理文字、又能处理图片视频)的普及,数据中心常要同时处理视频编辑、写文案、图像识别等多种任务,但现有芯片切换这些任务时效率很低,不仅慢,还会额外消耗更多电力。

第二点,如果说 " 芯片和场景对不上 " 是能耗高的 " 先天设计问题 ",那算力需求暴增带来的电力消耗叠加,就是把数据中心变成 " 电力黑洞 " 的主要推手。众所周知,摩尔定律揭示的是晶体管数量每 18-24 个月翻倍的技术迭代规律,而当前算力需求的增长周期已缩短至每 3-4 个月翻一倍。2024 年我国智能算力增速高达 74.1%,这一趋势在具体应用场景中更为直观:2025 年发布的 DeepSeek-R1 大模型日活跃用户超 2200 万,仅维持其正常运行就需要约 50 个大型数据中心提供支撑。

与算力需求同步飙升的,是数据中心对电力的极致依赖。如今," 万卡集群 " 已不再新鲜," 十万卡集群 " 成为科技巨头的竞争新标的 —— OpenAI/Microsoft、xAI、Meta 等企业均在竞相构建规模超 10 万张 GPU 的算力集群。仅以单颗芯片的能耗测算,英伟达 H100 GPU 峰值功耗达 700 瓦,按每小时耗电 0.7 度、全年 61% 的使用时长计算,单颗 H100 年耗电量就达 3740 度;若规模扩大至 10 万颗,仅 GPU 单元的年耗电量就将突破 3.74 亿度。

第三点,除了 GPU,数据中心中还有大量的设备,比如服务器(还包含 CPU 等部件)、网络设备、存储设备、冷却系统和照明等,这些设备无一不需要持续供电。其中数据中心的冷却系统是能耗的主要组成部分之一,总耗电量占到 38% 以上 ( 有的甚至高达 50% ) 。

数据中心的 " 电力黑洞 " 困境,并非单纯的电力供给不足。从能源利用效率来看,2025 年,我国数据中心平均电能利用效率(PUE)约为 1.45,与世界先进水平(约 1.1-1.2)仍有差距。其中,制冷系统能耗占 27%,正成为主要的节能突破口。

根据中华人民共和国国家发展和改革委员会发布的数据中心绿色低碳发展专项行动计划显示,到 2025 年底,算力电力双向协同机制初步形成,国家枢纽节点新建数据中心绿电占比>80%。在这一硬性要求下,以下四项技术成为发展重点:绿电直连技术、高效冷却技术、IT 负载动态调整技术、算 - 电 - 热协同技术。

其中在记者与业内人士的交流中," 液冷技术 " 也是被提及的重点。

液冷技术,关键解法

数据中心的冷却技术正在经历一场彻底的变革。尤其是在单机柜功率密度超过 25kW 的高密度场景下,传统的远端风冷已经难以为继,行业正在加速转向更高效的冷却方案——主要是近端风冷和液冷两大方向。其中,高效又节能的液冷技术,已经成为市场的主流选择。

液冷技术分化出三种主流方案:

第一种是冷板式液冷,能精准对准 CPU、GPU 这些发热核心散热,不仅能效高,改造成本也相对可控,是目前最普及的液冷方案。

第二种是浸没式液冷,直接把服务器完全泡在绝缘冷却液里,散热效率拉满,堪称超高热密度场景的 " 终极解决方案 "。

第三种是喷淋式液冷,通过直接向发热元件喷淋冷却液,用最短的路径实现高效散热,适配特定场景需求。

不过业内人士向半导体产业纵横表示液冷技术是目前的最优解法,但该技术在数据中心普及率并不算高,大约只有 10%,尽管行业内存在喷淋式液冷的方案,但是商用情况相对不明朗。

还有业内人士向半导体产业纵横提到,除单纯的液冷技术外,冷板 + 液冷循环的组合方案也是当前技术布局重点。比如英伟达和 AMD 在 CES 上最新发布的英伟达 Vera Rubin NVL72 与 AMD MI450 均采用 " 冷板贴合 + 封闭液冷循环 " 的技术架构。

具体而言,通过定制化冷板直接贴合 GPU 芯片及其他高发热组件(如供电模块、显存),冷板内部设计微通道结构,冷却液在微通道内高速流动,快速带走热量;吸收热量后的冷却液通过封闭管道进入换热模块,与外部冷却系统进行热交换后降温,再循环回流至冷板,形成完整的散热闭环。这种方案既避免了喷淋式液冷对电子元件的绝缘要求,又解决了风冷的散热效率不足问题,实现了散热效果与设备安全性的平衡。

不过无论是英伟达的 NVL72 还是 AMD 的 MI450 集群,其液冷方案均围绕自身核心算力芯片展开定制化开发。英伟达为 Ada Lovelace 架构 GPU 量身设计冷板贴合面,确保冷板与芯片核心发热区域的接触面积达 95% 以上,减少散热死角;AMD 则针对 MI450 芯片的封装结构,优化冷板的压力分布,避免因冷板压力不均导致芯片损坏,同时适配芯片的高功率密度特性,提升冷却液的流速与换热效率。这种 " 芯片 - 冷板 " 的深度适配,成为保障液冷效果的关键前提。

英特尔的液冷技术主要采用冷板式液冷方案,通过在 CPU、GPU 等高功耗芯片上安装金属冷板,内部布有微通道,让冷却液流经并吸收运行中产生的热量,实现高效导热。冷板与芯片紧密接触,利用导热界面材料提升热传导效率,无需浸没整个服务器,兼容现有数据中心架构。该技术可显著降低散热能耗,支持更高密度计算部署。

在国内市场,曙光数创在液冷基础设施市场的部署规模处于领先地位。2021 年至 2023 年上半年,曙光数创在中国液冷基础设施市场份额位居第一,占比达 56%。其冷板液冷方案和浸没相变液冷方案已广泛应用于字节跳动等头部互联网厂商。

英维克作为全链条液冷的开创者,提供从冷板、快接头到 CDU、机柜的全栈产品,截至 2025 年 3 月,其液冷链条累计交付已达 1.2GW。

具体细分赛道方面,飞荣达在散热产品领域布局广泛,其自主研发的 3DVC 散热器功耗可达 1400W,处于行业领先水平。飞荣达已成为英伟达、中兴、浪潮等企业的核心供应商,液冷模组等产品已实现批量交付。中石科技则在热模组核心零部件和 TIM 材料上实现了批量供应,VC 模组在高速光模块中的应用正加速落地,并积极推进液冷模组的客户导入。

思泉新材也已具备液冷散热模组的规模生产能力,东莞工厂和越南工厂均已做好量产准备。公司正开展 750W-3000W 液冷技术的研发,包括双相冷板、Manifold、CDU 等核心组件。川环科技则成功切入主流液冷供应商体系,其液冷服务器管路产品已通过美国 UL 认证,并进入奇鋐、英维克、飞荣达等厂商的供应名单。

中国制造业,优势显现

这场关于数据中心的讨论,早已超越传统 IDC 建设范畴,演变为一场涉及半导体、能源、通信、安全的系统性变革。而在这场变革中,中国的制造业底座优势正在显现:

世界银行数据显示,中国制造业增加值 2010 年首次超过美国,居世界首位,成为全球工业经济增长的重要驱动力。

截止 2024 年,中国制造业规模已经连续 15 年居世界首位。

2024 年数据显示,中国制造业规模大于美国、日本、德国和印度制造业规模总和,相当于两个美国;而美国大于日本、德国和印度之和。

未来的数据中心,从来不是越大越好,而是越 " 聪明 " 越好。

这份 " 聪明 ",始于硅片之上的精准创新——打破 " 唯峰值算力论 ",让芯片架构适配真实场景,让每一度电都转化为有效算力;落于冷却技术的高效突破,依托中国制造业全链条优势,推动液冷从细分赛道走向规模化普及,实现散热效率与成本的平衡。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

数据中心 ai芯片 芯片 半导体 三峡
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论