2025 年 6 月 21 日,在华为开发者大会(HDC 2025)期间,华为云存储服务产品部举办了以 " 华为云 AI 存储训练解决方案,以存强算,释放 AI 算力潜能 " 为主题的专题论坛,邀请领域内的资深专家、学者和行业客户,一同探讨云存储在 AI 训练场景的发展趋势、创新成果和实践经验。
AI 大模型时代存储系统挑战和技术发展
华中科技大学教授、中国计算机行业协会信息存储与安全专委会会长谢长生指出,AI 存储面临容量、性能、成本等诸多挑战;数据访问效率制约模型训练速度,存储性能面临三大挑战:
1 ) 海量小文件元数据瓶颈,需处理几亿到几十亿小文件,元数据处理能力不足
2 ) 数据加载速度慢,导致计算硬件空等待,阻塞训练过程
3 ) 频繁、缓慢的模型保存(Checkpoint)严重影响大模型训练效率
华中科技大学教授 谢长生
突破大模型训练瓶颈:基于原生检查点系统的高效存储架构研究
上海交通大学副教授、博士生导师魏星达提出,AI 应用的大带宽需求给云存储带来了新的挑战,AI 负载感知的高性能原生云存储有两大核心技术点:
1 ) 利用算力节点间的网络资源,有效提升存储访问带宽;
2 ) 感知 AI 任务的冗余特征,透明写入去冗余优化,降低存储写入带宽。
上海交通大学副教授 魏星达
华为云 AI 存储训练解决方案,以存强算,释放 AI 算力潜能
华为云块存储服务总监於来欣重磅发布 SFS Turbo 智算型,带来四大产品能力升级:
1 ) 容量:单文件系统容量从 1PB 升级至 30PB,容量规模提升 30 倍;
2 ) IOPS:单文件系统 IOPS 从 200 万提升至 3000 万,IOPS 规格提升 15 倍;
3 ) 带宽:单文件系统带宽从 200GB/s 提升至 2TB/s,带宽规格提升 10 倍;
4 ) 带宽扩容:容量与带宽解耦,扩带宽无需扩容量。
面向 L3 自动驾驶和万亿参数大模型训练场景,打造 AI 存储训练解决方案竞争力:
1 ) 数据预热:OBS+SFS Turbo 联动,结合新一代分布式元数据管理引擎,海量小文件快速预热,10 亿条小文件训练原始数据 0.5 小时加载完成。
2 ) 模型训练:SFS Turbo 三级缓存加速,检查点快照数据秒级快存快恢,减少 AI 算力等待时间,提升 AI 算力资源利用率。
3 ) 智能分级:OBS 智能分级助力热温冷存储成本降低 20%,Storage lens 存储指标分析平台使能数据管理效率提升 20%。
华为云块存储服务总监 於来欣
从小时到秒级,AI 存储助力华为 IT 万卡集群突破 IO 带宽瓶颈
华为流程 IT 首席存储架构师叶飞指出:在统一企业 AI 数字化产线的建设实践中,我们发现 CKPT 恢复慢,万卡集群有效训练时长低,严重影响 NPU 有效卡时使用率。华为云 AI 存储训练解决方案提供的三级缓存架构,推进万卡万亿参数训练集群步入 CKPT 秒级快存快恢时代, 华为 IT 试点业务的 NPU 使用率提升至 91%。
华为流程 IT 首席存储架构师 叶飞
AI 云存储助力面壁智能构建超强「端侧大脑」
在模型的训练过程中,面临原始数据的加载速度慢,算力资源利用率难以提升的问题。面壁智能副总裁贾超分享了面壁智能的最新产品面壁小钢炮 MiniCPM4.0,它利用投机、稀疏、量化等创新架构,实现稳定 5 倍的推理速度提升。贾超指出:华为云 AI 存储训练解决方案为面壁智能构建了统一的数据湖底座,实现海量小文件快速预热,算力资源利用率得到有效提升。
面壁智能副总裁 贾超
面向未来,华为云 AI-Native 智算存储将继续携手产业专家和行业客户,不断挖掘云存储技术潜力,加速 AI 进化步伐!
登录后才可以发布评论哦
打开小程序可以发布评论哦