华为云AI存储训练解决方案，以存强算，释放AI算力潜能

2025 年 6 月 21 日，在华为开发者大会（HDC 2025）期间，华为云存储服务产品部举办了以 " 华为云 AI 存储训练解决方案，以存强算，释放 AI 算力潜能 " 为主题的专题论坛，邀请领域内的资深专家、学者和行业客户，一同探讨云存储在 AI 训练场景的发展趋势、创新成果和实践经验。

AI 大模型时代存储系统挑战和技术发展

华中科技大学教授、中国计算机行业协会信息存储与安全专委会会长谢长生指出，AI 存储面临容量、性能、成本等诸多挑战；数据访问效率制约模型训练速度，存储性能面临三大挑战：

1 ) 海量小文件元数据瓶颈，需处理几亿到几十亿小文件，元数据处理能力不足

2 ) 数据加载速度慢，导致计算硬件空等待，阻塞训练过程

3 ) 频繁、缓慢的模型保存（Checkpoint）严重影响大模型训练效率

华中科技大学教授谢长生

突破大模型训练瓶颈：基于原生检查点系统的高效存储架构研究

上海交通大学副教授、博士生导师魏星达提出，AI 应用的大带宽需求给云存储带来了新的挑战，AI 负载感知的高性能原生云存储有两大核心技术点：

1 ) 利用算力节点间的网络资源，有效提升存储访问带宽；

2 ) 感知 AI 任务的冗余特征，透明写入去冗余优化，降低存储写入带宽。

上海交通大学副教授魏星达

华为云 AI 存储训练解决方案，以存强算，释放 AI 算力潜能

华为云块存储服务总监於来欣重磅发布 SFS Turbo 智算型，带来四大产品能力升级：

1 ) 容量：单文件系统容量从 1PB 升级至 30PB，容量规模提升 30 倍；

2 ) IOPS：单文件系统 IOPS 从 200 万提升至 3000 万，IOPS 规格提升 15 倍；

3 ) 带宽：单文件系统带宽从 200GB/s 提升至 2TB/s，带宽规格提升 10 倍；

4 ) 带宽扩容：容量与带宽解耦，扩带宽无需扩容量。

面向 L3 自动驾驶和万亿参数大模型训练场景，打造 AI 存储训练解决方案竞争力：

1 ) 数据预热：OBS+SFS Turbo 联动，结合新一代分布式元数据管理引擎，海量小文件快速预热，10 亿条小文件训练原始数据 0.5 小时加载完成。

2 ) 模型训练：SFS Turbo 三级缓存加速，检查点快照数据秒级快存快恢，减少 AI 算力等待时间，提升 AI 算力资源利用率。

3 ) 智能分级：OBS 智能分级助力热温冷存储成本降低 20%，Storage lens 存储指标分析平台使能数据管理效率提升 20%。

华为云块存储服务总监於来欣

从小时到秒级，AI 存储助力华为 IT 万卡集群突破 IO 带宽瓶颈

华为流程 IT 首席存储架构师叶飞指出：在统一企业 AI 数字化产线的建设实践中，我们发现 CKPT 恢复慢，万卡集群有效训练时长低，严重影响 NPU 有效卡时使用率。华为云 AI 存储训练解决方案提供的三级缓存架构，推进万卡万亿参数训练集群步入 CKPT 秒级快存快恢时代，华为 IT 试点业务的 NPU 使用率提升至 91%。

华为流程 IT 首席存储架构师叶飞

AI 云存储助力面壁智能构建超强「端侧大脑」

在模型的训练过程中，面临原始数据的加载速度慢，算力资源利用率难以提升的问题。面壁智能副总裁贾超分享了面壁智能的最新产品面壁小钢炮 MiniCPM4.0，它利用投机、稀疏、量化等创新架构，实现稳定 5 倍的推理速度提升。贾超指出：华为云 AI 存储训练解决方案为面壁智能构建了统一的数据湖底座，实现海量小文件快速预热，算力资源利用率得到有效提升。

面壁智能副总裁贾超

面向未来，华为云 AI-Native 智算存储将继续携手产业专家和行业客户，不断挖掘云存储技术潜力，加速 AI 进化步伐！

宙世代

一起剪

相关标签