
智东西
作者 | 云鹏
编辑 | 心缘
智东西 11 月 21 日报道,刚刚,华为正式发布了 Flex:ai,一项能够将智算资源利用率提升 30% 的 AI 容器技术。值得一提的是,这项技术并无生态限制,英伟达的 GPU 和华为昇腾 NPU 等算力卡都可以用。

具体来看,Flex:ai 是基于 Kubernetes 容器编排平台构建的 XPU 池化与调度软件,通过对 GPU、NPU 等智能算力资源的精细化管理与智能调度,实现 AI 工作负载与算力资源的 " 精准匹配 ",进而提升算力资源利用率。
以软件补硬件提升 AI 训推效率、通过开放兼容降低软件开发难度,是其主要特点。
此前,英伟达于 2024 年 4 月以 7 亿美元(约合人民币 49.7 亿元)收购了以色列 AI 基础设施公司 Run:ai,这家公司核心技术和产品就是提升 GPU 利用率,能够补充英伟达在 AI 计算资源管理领域的软件能力。
华为的 Flex:ai 有其 " 对标 " 的意味在,填补国内这一领域的空白,但同时开源的更加全面,相比 Run:ai 的解决方案,在虚拟化、智能调度方面有其独特技术优势。
Flex:ai 将在发布后开源在魔擎社区中,与华为此前开源的 Nexent 智能体框架、AppEngine 应用编排、DataMate 数据工程、UCM 推理记忆数据管理器等 AI 工具共同组成了完整的 ModelEngine 开源生态。

华为特别提到,这项技术 " 从第一天起 " 就是高校一起合作开发的。在华为看来,开源是非常重要的,算力资源利用率的提升绝非 " 一概而论 ",需要根据实际业务场景来分析,形成一系列算法。因此华为希望更多客户利用开源生态,将技术拿到自身实际业务场景中,共同探索、解决问题。
华为公司副总裁、数据存储产品线总裁周跃峰特别提到,华为更关注的是 AI 真正的行业化应用,关注 tokens 实现的价值而非总量。他们希望让更多企业真正用好 AI,让 AI 进入生产流程中,实现增值,进而推动 AI 的平民化。
魔擎社区地址:
https://modelengine-ai.net
一、拆解 Flex:ai 三个关键能力:一张卡变 N 张卡、负载算力精准匹配、通算和智算融合
具体来看,Flex:ai 主要有三个方面的关键能力:
1、算力资源切分,一卡变 N 卡服务多个 AI 工作负载
通过算力切分技术,将单张 GPU/NPU 算力卡切分为多份虚拟算力单元,切分粒度精准至 10%。此技术实现了单卡同时承载多个 AI 工作负载,在无法充分利用整卡算力的 AI 工作负载场景下,算力资源平均利用率可提升 30%。

2、多级智能调度,实现 AI 工作负载与算力资源的 " 精准匹配 "
通过全局智能调度器 Hi Scheduler,自动感知集群负载与资源状态,结合 AI 工作负载的优先级、算力需求等多维参数,对本地及远端的虚拟化 GPU、NPU 资源进行全局最优调度,实现 AI 工作负载分时复用资源。即便在负载频繁波动的场景下,也能保障任务平稳运行。

3、跨节点算力资源聚合,实现通用算力与智能算力资源融合
聚合集群内各节点的空闲 XPU 算力聚合形成 " 共享算力池 ",通用服务器通过高速网络将 AI 工作负载转发至池内 GPU/NPU 卡执行,实现通用算力与智能算力资源融合。

二、AI 大模型时代,AI 容器技术升级势在必行
为什么要发布并开源 Flex:ai AI 容器技术?在华为看来,大模型时代,容器与 AI 是天然搭档。
容器技术作为一种轻量级虚拟化技术,可以将模型代码、运行环境等打包成一个独立的、轻量级的镜像,实现跨平台无缝迁移,解决模型部署 " 环境配置不一致 " 的痛点。容器还可以按需挂载 GPU、NPU 算力资源,按需分配和回收 " 资源 ",提升集群整体资源利用率。
Gartner 的分析师表示,目前 AI 负载大多都已容器化部署和运行,据预测,到 2027 年,75% 以上的 AI 工作负载将采用容器技术进行部署和运行。
华为提到,当前传统容器技术已无法完全满足 AI 工作负载需求,AI 时代需要 AI 容器。

大型语言模型(LLM)的容器镜像轻松突破 10GB,多模态模型镜像甚至可达 TB 级别,传统容器无法支持超大镜像的快速拉起,环境构建时间往往长达数小时。
传统容器主要针对 CPU、内存等通用计算资源进行管理与调度,而 AI 大模型训练与推理还需大幅依赖 GPU、NPU 等智能算力资源,传统容器无法对异构智算资源做到算力细粒度切分与智能调度,导致即使很小的 AI 工作负载也独占整张算力卡,且无法进行远程调用。
传统容器的资源调度以固定分配、通用调度为主,而 AI 工作负载的资源调度需要以保障任务完成效率为目标,对不同任务的 SLO 特性进行感知,实现动态弹性的资源分配。
三、对标英伟达 Run:ai,虚拟化和智能调度是关键优势
AI 容器领域业界已经有多家企业推出了不同产品,与英伟达今年年初收购的 Run:ai 公司的核心产品相比,华为 Flex:ai 主要在虚拟化和智能调度方面有一定优势。
具体来看,在本地虚拟化技术中,Flex:ai 支持把单个物理 GPU/NPU 算力卡切割为数个虚拟算力单元,并通过弹性灵活的资源隔离技术,可实现算力单元的按需切分。
同时,Flex:ai 独有的 " 拉远虚拟化 " 技术,可以在不做复杂的分布式任务设置情况下,将集群内各节点的空闲 XPU 算力聚合形成 " 共享算力池 ",此时不具备智能计算能力的通用服务器通过高速网络,可将 AI 工作负载转发到远端 " 资源池 " 中的 GPU/NPU 算力卡中执行,实现通用算力与智能算力资源融合。
智能调度方面,Flex:ai 智能资源和任务调度技术,可自动感知集群负载与资源状态,结合 AI 工作负载的优先级、算力需求等多维参数,对本地及远端的虚拟化 GPU、NPU 资源进行全局最优调度,满足不同 AI 工作负载对资源的需求。
比如高优先级 AI 工作负载可以获得更高性能算力资源支持,在出现算力资源已被全部占满的情况下,能直接抢占其他任务资源,确保最重要的任务能够完成。而优先级较低的 AI 工作负载,则可以在算力闲时如夜间执行,实现分时调度;针对增量训练场景,Flex:ai 还可智能感知集群中增量数据的变化,达到一定阈值后,触发数据飞轮。
结语:AI 容器技术升级,AI 平民化提速
现如今,不同行业、不同场景的 AI 工作负载差异较大,Flex:ai 的开源,可提供提升算力资源利用率的基础能力和部分实践案例,随着更多产业玩家的加入,业界必将完成更多基于这一技术结合场景的落地探索。
与此同时,开源的 Flex:ai 可以在产学研各界开发者的参与下,共同推动异构算力虚拟化与 AI 应用平台对接的标准构建,形成算力高效利用的标准化解决方案,进一步加速 AI 的平民化。


登录后才可以发布评论哦
打开小程序可以发布评论哦