9 月 29 日,2024 中国算力大会落下帷幕,大会期间 8 个框架协议、9 个合作协议、5 个战略协议集中签约,总金额 231.2 亿元。根据大会发布的《中国综合算力指数(2024 年)》,截至 2024 年 6 月,我国在用算力中心超过 830 万标准机架,算力总规模 246EFLOPS(FP32),位居世界前列。不过,挑战依然存在,包括算力生态仍比较 " 碎片化 ",算力的需求与供给之间不能完全精准适配等。按工信部的计划,将从规划设计、创新驱动、应用培育、安全保障 4 个方面,稳步提升我国算力产业综合实力,持续提升算力的赋能成效。
据中国信息通信研究院测算,截至 2023 年底,全球算力基础设施总规模达到 910EFLOPS(FP32),同比增长 40%。美国、中国算力基础设施规模位列前两名,算力占比分别为 32%、26%。
我国算力结构不断调整,智算规模增长势头强劲;存力规模持续扩大,先进占比不断提升;运力质量显著提升,网络设施不断升级。以《中国综合算力指数(2024 年)》统计的截至 2024 年 6 月的数据为例,246EFLOPS(FP32)的总算力规模中,智能算力规模 76EFLOPS,智算同比增速超过 65%。
国家高性能计算机工程技术研究中心主任历军从产业链的角度介绍,到 2025 年底,国家超算互联网计划连接全国超过 50 家顶尖的超算中心和智算中心,提升我国算力应用水平。
站在大模型的视角,中国工程院院士刘韵洁表示,数据要素是人工智能和大模型发展的基础,而网络、算力、数据交换平台和安全构成了数据基础设施的四大支柱。面对 AI 未来的发展,他认为有三大挑战:大模型对网络的新需求、空间计算的推广和智能体(如人形机器人)的发展。他同时指出,当前网络带宽的增长速度远低于 GPU(图形处理器)的增长速度,带宽瓶颈逐渐显现,这对算力传输提出了更高的要求。
解读《中国综合算力指数报告(2024)年》报告时,中国信息通信研究院院长余晓晖也提到了挑战,他认为,我国算力芯片生态比较碎片化,有几十款算力芯片,不同的芯片对应不同的开发框架、软件栈以及算子库等。" 有了万卡、10 万卡,不一定就能把万卡、10 万卡的能力完全发挥出来,卡越多,故障的概率越高,怎么能够打造大的、稳定的算力集群,是一项全球面临的挑战,需要非常多的技术创新。"
10 万卡是什么概念?不久前,百度集团执行副总裁、百度智能云事业群总裁沈抖给出一组数据,要部署 10 万卡集群,在物理层面要占据约 10 万平方米的空间,相当于 14 个标准足球场的面积,这些服务器一天要消耗约 300 千瓦时的电力,相当于北京市东城区一天的居民用电量,他也提到过故障问题," 用 1.6 万卡训练 Llama3 时,每 3 小时就会出一次故障,推演到 10 万卡,意味着每 30 分钟就要中断一次 "。
针对算力产业发展,余晓晖建议,优化算力布局,加强技术构建算力互联成网,解决需求和供给错位问题,并围绕技术创新和产业生态协同发展。工信部总工程师赵志国表示,工信部将从规划设计、创新驱动、应用培育、安全保障 4 个方面,稳步提升我国算力产业综合实力,持续提升算力的赋能成效。具体来看,要完善互联互通机制,构建算力互联程序规则、市场规则、质量检测规则,推动形成以算力大市场体系服务统一大市场建设的发展格局。
北京商报记者 魏蔚
登录后才可以发布评论哦
打开小程序可以发布评论哦