存力竞争开启，平头哥镇岳510正在成为阿里AI Infra的新基石

" 存储是保证大模型正常运行的基础。"平头哥半导体产品总监周冠锋向雷峰网说到。

在大模型时代，全球正掀起大规模算力基建潮。" 算力、算力，还是算力 " 的口号成为行业对这一趋势的直白概括，不少人将算力视为最核心的竞争资源。

但鲜少有人意识到，大模型从千亿参数训练到实时场景推理，每一步都需要 EB 级海量数据的持续供给，而这些数据的安全留存、高效调取，全依赖存储系统的稳定运行，若缺乏高质量、高可靠的存储支撑，再强大的算力也会因 " 数据断供 " 陷入 " 无米之炊 " 的困境。

这也恰恰点破了大模型时代技术基建的核心逻辑：看似聚焦 " 算力突破 " 的技术革命，实则离不开 " 存储支撑 " 的底层托举。

中国信通院最新出具的《2025 先进存力研究报告》指出，我国数据生产量逐年增长，存力建设却略显滞后，数据 " 应存未存 " 现象凸显。

在数据产量与存储容量的规模方面，2023 至 2024 年数据年产量由 32.85ZB 增至 41.06ZB，增速达到 25%，而数据存储总量仅由 1.73ZB 提升至 2.09ZB，增速为 20.81%，数据存储增量明显落后于数据生产速度，存力缺口已然出现。

" 国内对智算算力的消纳主要是围绕大模型的训练、推理、微调及开发，所以这并不单纯是对于计算能力的价值体现，而是算力 + 存力 + 网络运力的综合能力体现。" 某智算云头部厂商负责人对雷峰网表示，也正因如此，在智算中心组网方案的合理性以及如何合理消纳算力等方面，一旦出现不合理之处，在运营过程中就会面临瓶颈和问题。

某算力集群就曾因设计的计算访存比过小，导致工作负载仅维持在 10%，通过优化存储的性能，该集群提高到了 20%-30% 的使用范围，改造设计后客户数量大幅上升。

当存力缺口成为制约算力效能释放的关键瓶颈，当存储优化对算力集群的价值已被实践验证，如何系统性弥补存力短板？如何优化存储技术以实现大规模算力集群高效运转？平头哥镇岳 510，正在为这些问题提供关键解决方案。

镇岳 510 补齐阿里 AI 基建，实现「算力 - 存力 - 运力」业务闭环

从政策加码到企业竞逐，AI 基建已成为各国科技竞争的核心筹码。

正如阿里巴巴集团 CEO 吴泳铭在 2025 云栖大会上所指，未来五年全球 AI 累计投入金额将超过 4 万亿美元，这是人类历史上最大规模的算力与研发投入。

2025 年 2 月，阿里率先宣布未来三年投入超 3800 亿元建设云计算和 AI 硬件基础设施，七个月后，吴泳铭在云栖大会上再次强调这一规划，并明确表示将追加更多投入。

真金白银的投入已落地为具体动作：仅过去四个季度，阿里在 AI 基础设施和产品研发上的累计投入已超 1000 亿元，2025 年资本支出预计达 1100-1200 亿元，其中 700-800 亿元直接用于服务器采购与数据中心建设。

从扩建墨西哥、日本等地的数据中心，到首次在巴西、法国、荷兰布局云计算地域节点，阿里的算力网络正加速织密全球版图，而这背后，亟需解决 " 算力 - 存力 - 运力 " 的协同瓶颈。

若仅仅关注算力芯片的性能，就很容易面临 " 内存墙 " 等存储领域的限制，无法充分发挥集群的性能。

这种瓶颈在大模型训练与推理场景中尤为突出：训练阶段需频繁读取 PB 级数据集、写入 TB 级 Checkpoint（检查点）文件，推理场景中长上下文对话导致的 KV 缓存爆炸，都可能让 GPU 陷入 " 空等数据 " 的闲置状态。

为此，国内各大厂商纷纷发力破局，镇岳 510 的存在，补全了阿里及合作厂商在对先进存力的需求，使数据从 " 产生 - 存储 - 调用 " 形成高效闭环。

作为平头哥推出的镇岳 510 高性能 SSD 主控，其 4 μ s 超低时延比业界主流水平低 30% 以上，搭配 340 万 IOPS 的超高随机读性能与 14GB/s 顺序读带宽，可直接为 GPU 提供 " 无间断数据供给 "。

更关键的是，它通过 " 双向适配 " 覆盖全场景需求：向上支持 pSLC 模式，降低随机读时延，适配数据准备阶段的高频随机读写；向下兼容 ZNS+QLC 方案，通过分区顺序写入消除垃圾回收开销，兼顾冷数据存储的大容量与低成本。

跻身存储主控芯片第一梯队，镇岳 510 如何打造「高性能、低成本」的 AI 存储方案？

在阿里云大规模算力基建的实践中，存储与计算的协同效率始终是决定集群效能的核心命题。

" 算力集群的计算过程是把数据从存储搬运到计算单元，计算完成后其中间结果以及存力结果会返存回存力集群，存力是不是能以更大的带宽、更低的时延将数据搬运到算力单元中进行计算，将影响算力的利用率。" 周冠锋表示。

由于计算集群会不定时发生故障，计算过程中需要定期进行 Checkpoint 保存，更是对存储性能的 " 压力测试 "，保存耗时越短、整个计算过程被中断的时间越少，因集群故障导致的训练中断风险就越低，业务连续性与可靠性也随之增强，从而进一步提升计算的效率。

这一逻辑在阿里云的实际运营中得到了深刻印证。

为平衡存储成本与容量需求，阿里云曾广泛采用 HDD（机械硬盘）作为底层存储介质，但 HDD 有限的带宽与 IOPS（每秒输入输出操作数），在大模型训练前的数据准备、高频次 Checkpoint 写入等场景中显得力不从心。

为突破瓶颈，需要在 HDD 上加一层缓存，以提升整个存储集群的带宽和 IOPS。阿里云此前选用傲腾（Optane）作为缓存层核心，但随着傲腾的逐步停产，急需替代品作为缓存进行持续供应。

平头哥镇岳 510 通过对 pSLC NAND（伪 SLC NAND）技术的深度适配，不仅解决了阿里云的存储性能瓶颈，还规避了傲腾停产造成的供应链风险。

在云栖大会的演讲中，平头哥披露，基于镇岳 510 的 pSLC 方案实现了对傲腾的性能超越，随机读带宽提升 17%，随机写 IOPS 提升 4%。

更关键的是，这一方案打破了 " 高性能必高成本 " 的行业困境：在性能升级的同时，SSD 整体成本大幅降低，完美适配了阿里云对 " 高效能 + 低成本 " 的核心诉求，高度适配大语言模型训练前的数据准备阶段。如今，这一方案已在阿里云 OSS（对象存储服务）等场景中开展灰度测试，意味着其技术成熟度与场景适配性已通过初步验证，即将进入规模化应用阶段。

为了进一步提供高性能、低成本的 AI 存储方案，平头哥与阿里云的深度合作，开展 ZNS+QLC 存储解决方案的探索。QLC NAND 作为高密度存储介质，虽凭借每 GB 更低的成本成为大规模存储场景的理想选择，但传统 SSD 主控对 QLC 的适配始终存在短板，随机写入时的写放大效应显著，不仅导致性能波动，更缩短了 SSD 的使用寿命，让 QLC 的成本优势难以充分释放。

而 ZNS（分区命名空间）技术的出现，为解决这一痛点提供了方向：它通过将闪存划分为独立分区，让数据按分区顺序写入，从根源上减少垃圾回收操作，但如何让 ZNS 与 QLC 深度协同成了又一命题。

镇岳 510 针对 ZNS+QLC 方案进行了底层架构优化：

一方面，通过定制化的分区管理算法，让数据写入严格匹配 ZNS 分区的顺序特性，改善了传统方案中的空间浪费问题；

另一方面，镇岳 510 内置的智能磨损均衡机制，能根据 QLC 的擦写寿命特性，动态调整各分区的数据分布，避免单一分区过度损耗，延长 QLC SSD 的使用寿命。

更关键的是，这些优化并未以性能妥协为代价，完全满足 AI 冷数据存储、训练数据集归档等场景的性能需求。

镇岳 510 的价值不止于 AI 场景，其对分布式存储的深度支持，在阿里云 EBS（弹性块存储）等核心产品中也展现出优势。

分布式存储作为云计算的底层基石，需要应对多租户、多场景的混合读写需求，对 QoS（服务质量，衡量存储系统性能稳定性与可靠性的关键指标）的稳定性要求极高。

镇岳 510 从硬件层面重构了 QoS 保障机制：通过独立的读写通道设计，将随机读、顺序写、混合读写等不同任务的资源需求进行隔离，避免任务间的相互干扰；同时，内置的智能优先级调度算法，能根据 EBS 的业务场景动态分配带宽与 IO 资源，确保核心业务的时延优先。

平头哥在云栖大会现场的对比数据显示，在混合读写场景下，镇岳 510 为阿里云 EBS 提供 99% 时延表现，意为在统计周期内，存储系统处理混合读写请求时，99% 的请求响应时间都能控制在某一特定时延值以内。基于镇岳 510 的 EBS 混合读写 QoS 99% 时延仅为两款国外主流竞品时延的 56% 和 84%，时延明显更短。

镇岳 510 规模化：深耕阿里云 EBS，驱动高性能 SSD 发展

在商业世界里，技术不是唯一，实现规模化落地才能真正释放产品的价值。

得益于背靠阿里云的天然优势，镇岳 510 以 " 内部深度应用 + 外部生态合作 " 的双轮驱动，从阿里云存储的 " 芯 " 底座走向全产业的存储解决方案

阿里云 EBS 作为支撑千万级云服务器的底层存储服务，是镇岳 510 规模化应用的关键场景之一。

镇岳 510 通过硬件架构优化与智能调度算法，为 EBS 带来了全方位的性能跃升：不仅大幅提升系统的 IOPS（每秒输入输出操作数）与吞吐带宽，更在读写混合场景下实现关键突破，时延较行业其他主控压缩 92%，同等资源条件下，有效提升承载用户的并发访问量。

在内部场景验证技术成熟度后，镇岳 510 以 " 核心主控芯片 " 的身份向外延伸，与忆恒创源、得瑞领新、佰维存储等头部存储厂商达成深度合作。

忆恒创源基于镇岳 510 打造的 PBlaze7 7A40 系列企业级 SSD，成为业内首款实现 4K 随机写入 100 万 IOPS 的企业级存储产品。该系列 SSD 推出后，迅速切入多个应用场景，支持大规模模型训练和推理任务，优化在线交易处理（OLTP）和数据分析性能，满足金融、电商等行业需求，并且助力云服务提供商提升存储效率，降低运营成本。

依托镇岳 510 芯片，得瑞领新推出了首款支持 PCIe5.0 接口的高性能 NVMe SSD，即 D8000 系列，能够稳定满足 AI 训练、实时数据分析等高性能计算场景的严苛需求。

行业内的技术探索从未停歇，平头哥作为专注该领域研发的重要力量，也有着清晰且长远的规划。

" 平头哥的存储产品线目前还是聚焦于 SSD 主控芯片的研发，因此平头哥存储产品线会持续开发下一代性能更强、容量更大、纠错性能更高、访问时延更低的 SSD 主控芯片，来解决未来 AI 算力增加、算力规模增大之后对存储带来的性能更高的要求。" 周冠锋说道。

宙世代

一起剪

相关标签