Google Cloud推Lustre缓存方案：AI推理成本减半

Google Cloud 近日公布了一种在 Google Kubernetes Engine ( GKE ) 上运行多节点大语言模型推理的新方案。该方案利用托管式 Lustre 文件系统进行 KV 缓存卸载，旨在优化 AI 推理性能并降低基础设施成本。

随着 AI 工作负载转向分布式、多节点架构以支持长上下文窗口和基于代理的系统，KV 缓存往往超出本地 CPU 内存和主机 SSD 的容量限制，给集群设计和运营带来巨大压力。Google 的新架构采用托管式 Lustre 作为预填充注意力状态的共享外部文件系统，取代了传统的跨集群池化节点本地 SSD 做法，从而消除了管理本地存储层数据分布和跨节点复制的复杂性。

基准测试：TCO 节省超 50%

基准测试数据显示，在六节点 A3 Mega 集群上进行 Llama-3.3-70B 推理时，该方案使总拥有成本（TCO）降低了超过 50%，GPU 小时数需求减少近 60%。这一显著优化得益于将共享的预填充 KV 缓存卸载至 Lustre 后实现的 95% 缓存命中率。

测试场景设定提示词长度为 50,000 个令牌，输入问题长度 256 个令牌，输出长度 512 个令牌。尽管这是一个特定的测试案例，但长提示词正是企业部署中推理成本上升的主要驱动因素之一，因此该结果具有明确的商业参考价值。

混合架构进一步降低延迟

Google 还提出了一种扩展的混合层级架构，即在 Lustre 存储之外增加 CPU RAM 卸载功能。相比仅使用 CPU 卸载的方案，这种混合架构表现更优：在 Llama-3.3-70B 推理中，首字生成时间（Time to First Token）缩短约 40%，端到端延迟降低 30%。

该架构由三部分组成：用于模型执行的 GKE GPU 节点、作为共享存储层的托管式 Lustre，以及名为 PVC Evictor 的分布式垃圾回收服务。PVC Evictor 负责监控文件访问模式并移除最近最少使用的缓存块，以维持空闲存储空间。

目前，部署指南已为 Qwen/Qwen3.5-35B-A3B 和 google/gemma-4-31B-it 提供了经过验证的路径。需要注意的是，托管式 Lustre CSI 驱动程序要求 GKE 版本为 1.33 或更高。

运营挑战与资源需求

Google 明确指出，该架构并非轻量级方案，部署过程涉及创建 GKE 集群、添加 GPU 节点池、配置 Lustre 存储、部署 vLLM 推理引擎及安装 PVC Evictor 服务等多个步骤。

其中，Evictor 服务在大规模部署下对计算资源要求较高。Google 建议的经验法则是每 72 TB 的 Lustre 容量需配备一个 Evictor 副本。在高规模配置中，每个 Pod 可能需要请求 12 个 CPU 和 8Gi 内存，并部署在 c4-standard-16 等专用机器类型上。对于更大规模的部署，该服务支持分片，以便多个副本划分缓存命名空间，避免冗余扫描或竞态条件。

技术细节显示，不同模型对块大小有特定要求以避免碎片化，例如 Qwen-3.5 需要 528 的块大小，而 Gemma 4 可使用默认的 256。这一进展表明，随着推理系统从简单的单节点部署转向专为重负载构建的分布式服务，存储架构对推理经济性的影响正变得与 GPU 本身同等重要。

【星途科讯图文丨踢三脚首发于 ZAKER 科技，转载请注明出处】

宙世代

一起剪

相关标签