雷锋网 前天
存力竞争开启,平头哥镇岳510正在成为阿里AI Infra的新基石
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

" 存储是保证大模型正常运行的基础。"平头哥半导体产品总监周冠锋向雷峰网说到。

在大模型时代,全球正掀起大规模算力基建潮。" 算力、算力,还是算力 " 的口号成为行业对这一趋势的直白概括,不少人将算力视为最核心的竞争资源。

但鲜少有人意识到,大模型从千亿参数训练到实时场景推理,每一步都需要 EB 级海量数据的持续供给,而这些数据的安全留存、高效调取,全依赖存储系统的稳定运行,若缺乏高质量、高可靠的存储支撑,再强大的算力也会因 " 数据断供 " 陷入 " 无米之炊 " 的困境。

这也恰恰点破了大模型时代技术基建的核心逻辑:看似聚焦 " 算力突破 " 的技术革命,实则离不开 " 存储支撑 " 的底层托举。

中国信通院最新出具的《2025 先进存力研究报告》指出,我国数据生产量逐年增长,存力建设却略显滞后,数据 " 应存未存 " 现象凸显。

在数据产量与存储容量的规模方面,2023 至 2024 年数据年产量由 32.85ZB 增至 41.06ZB,增速达到 25%,而数据存储总量仅由 1.73ZB 提升至 2.09ZB,增速为 20.81%,数据存储增量明显落后于数据生产速度,存力缺口已然出现。

" 国内对智算算力的消纳主要是围绕大模型的训练、推理、微调及开发,所以这并不单纯是对于计算能力的价值体现,而是算力 + 存力 + 网络运力的综合能力体现。" 某智算云头部厂商负责人对雷峰网表示,也正因如此,在智算中心组网方案的合理性以及如何合理消纳算力等方面,一旦出现不合理之处,在运营过程中就会面临瓶颈和问题。

某算力集群就曾因设计的计算访存比过小,导致工作负载仅维持在 10%,通过优化存储的性能,该集群提高到了 20%-30% 的使用范围,改造设计后客户数量大幅上升。

当存力缺口成为制约算力效能释放的关键瓶颈,当存储优化对算力集群的价值已被实践验证,如何系统性弥补存力短板?如何优化存储技术以实现大规模算力集群高效运转?平头哥镇岳 510,正在为这些问题提供关键解决方案。

镇岳 510 补齐阿里 AI 基建,实现「算力 - 存力 - 运力」业务闭环

从政策加码到企业竞逐,AI 基建已成为各国科技竞争的核心筹码。

正如阿里巴巴集团 CEO 吴泳铭在 2025 云栖大会上所指,未来五年全球 AI 累计投入金额将超过 4 万亿美元,这是人类历史上最大规模的算力与研发投入。

2025 年 2 月,阿里率先宣布未来三年投入超 3800 亿元建设云计算和 AI 硬件基础设施,七个月后,吴泳铭在云栖大会上再次强调这一规划,并明确表示将追加更多投入。

真金白银的投入已落地为具体动作:仅过去四个季度,阿里在 AI 基础设施和产品研发上的累计投入已超 1000 亿元,2025 年资本支出预计达 1100-1200 亿元,其中 700-800 亿元直接用于服务器采购与数据中心建设。

从扩建墨西哥、日本等地的数据中心,到首次在巴西、法国、荷兰布局云计算地域节点,阿里的算力网络正加速织密全球版图,而这背后,亟需解决 " 算力 - 存力 - 运力 " 的协同瓶颈。

若仅仅关注算力芯片的性能,就很容易面临 " 内存墙 " 等存储领域的限制,无法充分发挥集群的性能。

这种瓶颈在大模型训练与推理场景中尤为突出:训练阶段需频繁读取 PB 级数据集、写入 TB 级 Checkpoint(检查点)文件,推理场景中长上下文对话导致的 KV 缓存爆炸,都可能让 GPU 陷入 " 空等数据 " 的闲置状态。

为此,国内各大厂商纷纷发力破局,镇岳 510 的存在,补全了阿里及合作厂商在对先进存力的需求,使数据从 " 产生 - 存储 - 调用 " 形成高效闭环。

作为平头哥推出的镇岳 510 高性能 SSD 主控,其 4 μ s 超低时延比业界主流水平低 30% 以上,搭配 340 万 IOPS 的超高随机读性能与 14GB/s 顺序读带宽,可直接为 GPU 提供 " 无间断数据供给 "。

更关键的是,它通过 " 双向适配 " 覆盖全场景需求:向上支持 pSLC 模式,降低随机读时延,适配数据准备阶段的高频随机读写;向下兼容 ZNS+QLC 方案,通过分区顺序写入消除垃圾回收开销,兼顾冷数据存储的大容量与低成本。

跻身存储主控芯片第一梯队,镇岳 510 如何打造「高性能、低成本」的 AI 存储方案?

在阿里云大规模算力基建的实践中,存储与计算的协同效率始终是决定集群效能的核心命题。

" 算力集群的计算过程是把数据从存储搬运到计算单元,计算完成后其中间结果以及存力结果会返存回存力集群,存力是不是能以更大的带宽、更低的时延将数据搬运到算力单元中进行计算,将影响算力的利用率。" 周冠锋表示。

由于计算集群会不定时发生故障,计算过程中需要定期进行 Checkpoint 保存,更是对存储性能的 " 压力测试 ",保存耗时越短、整个计算过程被中断的时间越少,因集群故障导致的训练中断风险就越低,业务连续性与可靠性也随之增强,从而进一步提升计算的效率。

这一逻辑在阿里云的实际运营中得到了深刻印证。

为平衡存储成本与容量需求,阿里云曾广泛采用 HDD(机械硬盘)作为底层存储介质,但 HDD 有限的带宽与 IOPS(每秒输入输出操作数),在大模型训练前的数据准备、高频次 Checkpoint 写入等场景中显得力不从心。

为突破瓶颈,需要在 HDD 上加一层缓存,以提升整个存储集群的带宽和 IOPS。阿里云此前选用傲腾(Optane)作为缓存层核心,但随着傲腾的逐步停产,急需替代品作为缓存进行持续供应。

平头哥镇岳 510 通过对 pSLC NAND(伪 SLC NAND)技术的深度适配,不仅解决了阿里云的存储性能瓶颈,还规避了傲腾停产造成的供应链风险。

在云栖大会的演讲中,平头哥披露,基于镇岳 510 的 pSLC 方案实现了对傲腾的性能超越,随机读带宽提升 17%,随机写 IOPS 提升 4%。

更关键的是,这一方案打破了 " 高性能必高成本 " 的行业困境:在性能升级的同时,SSD 整体成本大幅降低,完美适配了阿里云对 " 高效能 + 低成本 " 的核心诉求,高度适配大语言模型训练前的数据准备阶段。如今,这一方案已在阿里云 OSS(对象存储服务)等场景中开展灰度测试,意味着其技术成熟度与场景适配性已通过初步验证,即将进入规模化应用阶段。

为了进一步提供高性能、低成本的 AI 存储方案,平头哥与阿里云的深度合作,开展 ZNS+QLC 存储解决方案的探索。QLC NAND 作为高密度存储介质,虽凭借每 GB 更低的成本成为大规模存储场景的理想选择,但传统 SSD 主控对 QLC 的适配始终存在短板,随机写入时的写放大效应显著,不仅导致性能波动,更缩短了 SSD 的使用寿命,让 QLC 的成本优势难以充分释放。

而 ZNS(分区命名空间)技术的出现,为解决这一痛点提供了方向:它通过将闪存划分为独立分区,让数据按分区顺序写入,从根源上减少垃圾回收操作,但如何让 ZNS 与 QLC 深度协同成了又一命题。

镇岳 510 针对 ZNS+QLC 方案进行了底层架构优化:

一方面,通过定制化的分区管理算法,让数据写入严格匹配 ZNS 分区的顺序特性,改善了传统方案中的空间浪费问题;

另一方面,镇岳 510 内置的智能磨损均衡机制,能根据 QLC 的擦写寿命特性,动态调整各分区的数据分布,避免单一分区过度损耗,延长 QLC SSD 的使用寿命。

更关键的是,这些优化并未以性能妥协为代价,完全满足 AI 冷数据存储、训练数据集归档等场景的性能需求。

镇岳 510 的价值不止于 AI 场景,其对分布式存储的深度支持,在阿里云 EBS(弹性块存储)等核心产品中也展现出优势。

分布式存储作为云计算的底层基石,需要应对多租户、多场景的混合读写需求,对 QoS(服务质量,衡量存储系统性能稳定性与可靠性的关键指标)的稳定性要求极高。

镇岳 510 从硬件层面重构了 QoS 保障机制:通过独立的读写通道设计,将随机读、顺序写、混合读写等不同任务的资源需求进行隔离,避免任务间的相互干扰;同时,内置的智能优先级调度算法,能根据   EBS   的业务场景动态分配带宽与 IO 资源,确保核心业务的时延优先。

平头哥在云栖大会现场的对比数据显示,在混合读写场景下,镇岳 510 为阿里云 EBS 提供 99% 时延表现,意为在统计周期内,存储系统处理混合读写请求时,99% 的请求响应时间都能控制在某一特定时延值以内。基于镇岳 510 的 EBS 混合读写 QoS 99% 时延仅为两款国外主流竞品时延的 56% 和 84%,时延明显更短。

镇岳 510 规模化:深耕阿里云 EBS,驱动高性能 SSD 发展

在商业世界里,技术不是唯一,实现规模化落地才能真正释放产品的价值。

得益于背靠阿里云的天然优势,镇岳 510 以 " 内部深度应用 + 外部生态合作 " 的双轮驱动,从阿里云存储的 " 芯 "   底座走向全产业的存储解决方案

阿里云 EBS 作为支撑千万级云服务器的底层存储服务,是镇岳 510 规模化应用的关键场景之一。

镇岳 510 通过硬件架构优化与智能调度算法,为 EBS 带来了全方位的性能跃升:不仅大幅提升系统的 IOPS(每秒输入输出操作数)与吞吐带宽,更在读写混合场景下实现关键突破,时延较行业其他主控压缩 92%,同等资源条件下,有效提升承载用户的并发访问量。

在内部场景验证技术成熟度后,镇岳 510 以 " 核心主控芯片 " 的身份向外延伸,与忆恒创源、得瑞领新、佰维存储等头部存储厂商达成深度合作。

忆恒创源基于镇岳 510 打造的 PBlaze7 7A40 系列企业级 SSD,成为业内首款实现 4K 随机写入 100 万 IOPS 的企业级存储产品。该系列 SSD 推出后,迅速切入多个应用场景,支持大规模模型训练和推理任务,优化在线交易处理(OLTP)和数据分析性能,满足金融、电商等行业需求,并且助力云服务提供商提升存储效率,降低运营成本。

依托镇岳 510 芯片,得瑞领新推出了首款支持 PCIe5.0 接口的高性能 NVMe SSD,即 D8000   系列,能够稳定满足   AI   训练、实时数据分析等高性能计算场景的严苛需求。

行业内的技术探索从未停歇,平头哥作为专注该领域研发的重要力量,也有着清晰且长远的规划。

" 平头哥的存储产品线目前还是聚焦于 SSD 主控芯片的研发,因此平头哥存储产品线会持续开发下一代性能更强、容量更大、纠错性能更高、访问时延更低的 SSD 主控芯片,来解决未来 AI 算力增加、算力规模增大之后对存储带来的性能更高的要求。" 周冠锋说道。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 平头哥 阿里 基建 吴泳铭
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论