硅星人 16小时前
对话 GMI Cloud :英伟达仅7家的认证伙伴之一,不想做算力包租公
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

2025 年,AI 算力市场的重心正在发生偏移。DeepSeek 等开源模型的爆发是一个明确信号,AI 的主战场正从昂贵的训练场景,被拽入高频、碎片化的推理场景。在这个节点上,Alex Yeh 和他的 GMI Cloud 站在了一个微妙的位置。

这家成立仅 3 年的公司,正在以一种罕见的速度完成资本与产能的原始积累。去年 10 月,GMI Cloud 拿到了 8200 万美元的 A 轮融资 ,今年上半年又获得了 NVIDIA NCP(Reference Platform NVIDIA Cloud Partner)认证 。这个认证,截至目前全球仅有 7 家公司持有 ,在紧缺的算力市场,它意味着拥有最高优先级的拿货权和原厂技术支持 。

上周,GMI Cloud 宣布与 NVIDIA 在中国台湾合作建设 AI Factory,GMI Cloud 自行总投资 5 亿美元 。这座超级数据中心计划部署基于 GB300 NVL72 架构的万卡集群 。据官方透露的独家消息,该工厂的第一期算力已经售出,第二期也已有 50% 被预定 。

这背后是当前算力市场的真实供需,尽管芯片产能不再像两年前那样极度紧缺,但优质、可用的集群资源依然稀缺。Alex Yeh 将这种状态形容为一种复杂的压力。作为 GMI Cloud 掌舵者,他必须在产能与需求之间走钢丝,同时警惕悬在所有 GPU 云厂商头顶的达摩克利斯之剑:当 GPU 最终变成像水电煤一样的大宗商品,一家创业公司如何避免沦为巨头阴影下的流量管道?

Alex Yeh 并非典型的极客创业者。在创办 GMI Cloud 之前,他在私募股权和风险投资领域工作多年,曾是加密货币与区块链生态中最年轻的合伙人 。资本市场的训练让他习惯于剥离技术泡沫,寻找资产的底层逻辑。

他曾目睹区块链行业的兴衰。在他看来,那个市场唯一恒定的资产是比特币,而获取它的路径只有两条,算力和能源。并没有选择炒作币价,他投身于数据中心建设和电力布局 。如今,他将这套逻辑复用到了 AI 领域。无论应用层如何演变,无论最终胜出的是 Coding 还是视频生成模型,算力是唯一的确定性刚需。

但他拒绝做纯粹的算力租赁商。在 AWS、Azure 和 Google Cloud 等超大规模云厂商统治的市场 " 牌桌 " 中,GMI Cloud 试图走出一条 " 符合 AI 应用企业需求的全链条算力支持 " 的新路子。

不同于巨头主要围绕 CPU 构建的通用云底座,GMI Cloud 选择了重资产模式:底层裸金属采买自持英伟达高端 GPU,在全球建设多个数据中心;中间 IaaS 层自研集群调度引擎—— Cluster Engine(集群引擎)平台,上层提供 MaaS 服务—— Inference Engine (推理引擎)平台。同时,据一手消息,他们还即将上线一款名为 "GMI Studio" 的 Workflow 产品,以及在年底陆续孵化强化学习类产品。这种从裸金属到 Token,再到应用层产品的全栈支持能力,让他们在面对 CoreWeave 等北美友商时,依然能在亚太和出海市场找到生存空间。

Alex 并不避讳谈论行业的残酷。他看到单纯的 GPU 租赁生意终将面临利润摊薄,为了在红海到来前建立壁垒,所以他正在做两件事,一是在全球范围内锁定 2027 年的电力资源,因为电力将是数据中心最大的硬约束;二是构建软件生态,通过深度优化模型提供比原生平台更快、更低成本的推理服务、模型服务 。值得一提的是,在行业里大家都还没有将 " 电 " 视为第一生产力影响要素的时候,Alex 早就已经提前做电厂的部署规划。

GMI Cloud 是这一轮 AI 基础设施玩家洗牌的缩影,是 AI Cloud 时代下的当红新贵。当热钱退去,只有那些能解决供应链、电力和深度技术服务的公司,才能留在牌桌上。

近期,我们与 GMI Cloud 创始人 Alex Yeh 进行了一次对话,谈到了他对算力市场的判断、公司的策略选择,以及这门生意的本质。以下是对话实录,经不改变原意的编辑。

看不清哪个 AI 应用会跑出来,但算力是确定的

硅星人:在创立 GMI Cloud 之前,你有着非常丰富的 AI 和 VC/PE 投资背景。是什么契机让你从 " 看项目的人 " 转变为下场 " 做项目的人 ",并投身到 AI 基础设施赛道?

Alex:这其实源于我做投资时的一个核心训练,叫 First Principle Thinking(第一性原理思考)。我习惯去问五个 " 为什么 ",一层层剥开表象,直到推导出一个市场里不变的真理。

举个例子,如果不看科技看养老,那个市场里不变的真理就是 " 老龄化 ",所有的看护、医疗需求都围绕这个不变的逻辑展开。当年我看区块链行业也是一样,为了寻找市场中的 Alpha,我发现那个赛道里唯一恒定的其实是比特币。而要想持续获得比特币,最底层的逻辑就是 " 算力 " 和 " 能源 "。所以我当时没有选择去炒币,而是直接投身去做了最底层的 " 挖矿 ",也就是数据中心的建设和电力资源的布局。

现在的 AI 赛道虽然五花八门,从通用的 LLM 到各种垂直赛道——心理治疗、数学科研、视频模型、Coding 等等,但它们中间核心不变的是什么?推导到最后,它们都需要消耗巨大的算力。

就像 1995 年互联网刚起步时,我们根本无法预见到 20 年后会出现 Facebook、Amazon 或是阿里巴巴。同样的,我现在可能看不清未来哪个具体的 AI App 会跑出来,但我能确定整个赛道对 GPU 算力的需求是确定的。所以,相比于去赌某一个具体的应用或工具(风险较大),赌整个 GPU 算力赛道对我来说是风险最小、确定性最高的选择。加上之前做区块链基础设施积累的机房建设经验和电力资源,也让我能比较快速地切入这个领域。

硅星人:与 AWS、Google Cloud 等云服务商(Hyperscalers)相比,GMI Cloud 的核心差异化是什么?业界有声音认为专业的 AI Cloud 效率能高出 40%,你们有观察到类似的优势吗?

Alex:Hyperscalers 和我们最大的区别,我觉得主要体现在三个维度:位置(Location)、服务颗粒度(Service)和产品形态(Product)。

首先是位置。Hyperscalers 通常只围绕特定的几个核心大区(Region)服务。但在很多特定市场,比如东南亚,公有云的覆盖其实并不完整,往往需要连接到东京或其他大节点的机房,这在延迟和数据合规上会有很大问题。GMI Cloud 创立之初就是一家 Global Company,我们在全球多个地区有多个节点,能更灵活地满足当地客户对数据驻留和低延迟的需求。

其次是服务的深度。这个行业里,除非你是全球 500 强或者每年预算在 2000 万美金以上,否则你很难在 Hyperscalers 那里获得专属的 Account Executive 或技术支持。但在 AI 训练中,机器与模型的绑定非常深,训练过程极不稳定,非常需要 TAM(技术客户经理)和 SA(解决方案架构师)的深度支持。GMI Cloud 能提供这种高强度的技术支持,帮助客户优化 Token 和 Infra,这是很大的体感差距。

最后是产品。Hyperscalers 的底座大多是围绕 CPU 云构建的,GPU 只是其中一部分,很多产品是基于 CPU 架构做的变通。而 GMI Cloud 是 AI Native 的,我们不仅是卖算力,还做到了底层的 Model Optimization 和 Memory Optimization。例如在 Llama 模型的推理上,我们的吞吐量和首字延迟能比传统云厂商快 2-3 倍;在视频生成模型上,我们的速度甚至能比某些官方 API 快 3 倍。这就是专注带来的红利。

硅星人:面对与 CoreWeave、Lambda 等模式相似的竞争对手,GMI Cloud 在技术、服务以及定价策略上,最核心的优势是什么?

Alex:CoreWeave 和 Lambda 都是非常值得尊敬的友商。CoreWeave 主要专注于 Training 和超大规模集群,客户集中度很高,Microsoft 和 OpenAI 占了很大比例,但在推理层面,比如按秒计费、全球多点部署(特别是亚洲),他们目前涉及较少。Lambda 的优势在于 Container 和租赁本身,但在模型层的适配上做得相对少一些。

GMI Cloud 的打法是提供 Vertical Stack(垂直全栈)的能力。我们不仅提供裸金属做训练,还提供 Inference Engine,支持按 Token 计费。这就好比我们既卖 " 面粉 "(算力),也卖 " 面包 "(API)。无论客户是需要裸金属做训练,还是作为创作者只需要调用 DeepSeek 或 Qwen 的 API,我们都能提供。而且我们在视频模型的优化上下了很大功夫,提供了 Video 相关的垂直服务,这是目前很多竞品还没覆盖到的。

不只是 " 套壳 ",是底层优化

硅星人:你们的 Inference Engine 平台,和很多公司都有类似的业务。你们的核心附加值到底是什么?

Alex:这问到了点子上。主要有两个核心区别,全球化能力和对底层硬件的掌控力。

据我了解,国内同类厂商的算力主要集中在国内,如果是做 AI 出海应用,会遇到明显的延迟问题。GMI Cloud 的节点遍布全球,能解决出海客户的地理位置痛点。

更重要的是,我们拥有自己的物理算力(Own Hardware),而不是纯粹的 Serverless API 聚合商。如果你去租阿里云或火山引擎,通常拿到的是 VM(虚拟机),很难做底层的 " 骚操作 " 来优化 GPU 集群的通信和推理效率。因为我们拥有底层的 GPU 卡,我们可以控制到 Bare Metal 甚至底层防火墙级别。只有控制硬体,才能把成本压下去,同时把性能提上来。这就是为什么我们能比原生平台跑得更快、更便宜。

硅星人:作为 NVIDIA 的 Reference Platform NVIDIA Cloud Partner,除了能优先拿到新卡,这个身份还带来了哪些 " 看不见 " 的好处?

Alex:这个认证确实不仅是拿卡那么简单。我们在研发层面与 NVIDIA 有非常紧密的 Bi-weekly Catch-up(双周技术会议)。

举个具体的例子,我们正在推进全亚洲第一个 GB300 液冷万卡集群的建设。这种级别的集群建设,业内几乎没有先例可循,难度非常大。NVIDIA 的团队会直接介入,帮我们一起调整参数、建设部署。

这种从 Confidential Computing 到 Infiniband 网络层面的深度技术支持,是我们能搞定这种超大规模集群的关键。此外,能提前接触到像 Rubin 这样下一代架构的信息和 Demo,也让我们在技术规划上能抢占先机。

硅星人:我们看到市场正出现 NVIDIA 之外的专用 AI 芯片(ASIC)。GMI Cloud 的长期硬件战略,是会继续深度绑定 NVIDIA,还是会拥抱一个更多元化的算力底层?

Alex:这是一个基于理性和时间的考量。目前光是适配 NVIDIA 的迭代——从 H100 到 H200 再到 Blackwell,以及 CUDA 的升级,就已经消耗了我们大量的人力资源。

再加上模型层也在疯狂迭代,像 DeepSeek、Qwen、Wan 这些新模型层出不穷。光是做好 NVIDIA 架构下的模型适配就已经很难了。所以短期内,我们会集中精力把英伟达芯片资源做深。当我们的规模扩展到一定程度后,可能会组建独立的团队去探索新的硬件生态。

硅星人:GMI Cloud 的容器化服务,与传统 GPU 租赁有什么不同?这些 PaaS/MaaS 层的服务,为客户带来的最终业务价值是什么?

Alex:传统的容器服务只是给你一张卡租多少时间。而我们的 MaaS 服务是经过深度优化的。

根据第三方平台的对比,我们的 API 相比其他提供商有 2.4 倍到 3 倍的提速。这背后的技术包括 GPU 并行计算(Parallelism),让我们能在多个节点间高效分配推理任务;以及自动扩缩容(Auto-scaling)和显存访问优化。最终给客户带来的价值就是:速度更快,成本更低。

算力还不是大宗商品,机器坏掉是不会挑日子的

硅星人:在你们与欧洲 AI 音乐平台的合作案例中,提到了 " 联合工作小组 " 进行调优。随着客户群扩大,你们将如何 Scale 这种定制化能力?

Alex:这种深度模式目前主要针对重点客户(Key Accounts)。这其实是一个互补和共同成长的过程。

比如我们有一个案例,客户同时使用 Qwen 和 DeepSeek 两个模型。他们擅长调优 Qwen,我们擅长调优 DeepSeek。于是我们决定 Share Repo(共享代码库),把各自优化的节点和加速经验共享出来,避免重复造轮子。通过这种深度合作,我们能将 GPU 集群的稳定性调得非常高,通过降低故障率和优化 Checkpointing,让客户的训练速度提升了 20%。

虽然这是高接触服务,但我们在合作中学到的技能,比如特定 Video 模型的优化,会沉淀下来,标准化后服务于更多同类客户。这本身也是我们在打磨产品。

硅星人:单纯的 GPU 租赁利润会越来越薄。GMI Cloud 计划如何通过构建自己的软件和服务生态,来避免陷入低利润的 " 算力红海 "?

Alex:很多人认为算力最终会变成 Commodity(大宗商品),但至少目前来看,它还不是。

在这个行业,即使你买了 GPU,如果网络服务和稳定性做不好,客户是没法用的。我们见过有厂商机器经常断网,或者周末找不到人维护。但你知道,机器坏掉是不会挑日子的。所以,服务品质和集群稳定性本身就是极高的壁垒。口碑越好,客户越多。

另外,规模(Scale)也是壁垒。现在能提供 8 卡、16 卡集群的厂商一抓一大把,但能提供单一集群 2000 卡甚至万卡级别的厂商非常少。随着模型越来越大,客户对大规模集群的需求在增加,这实际上是在进行一场去芜存菁的行业洗牌。只有具备大规模交付和服务能力的厂商才能在红海中生存下来。

硅星人:从行业视角看,先租后买(Buy-to-Own)在 AI 算力采购版图中的位置是什么?它会走向主流吗?

Alex: 它不会是全市场的主流,而是服务于特定阶段、比较成熟的客户。这类客户通常愿意签 3 年以上的长约,他们算过账,认为付完 3 年租金后,资产折旧也差不多了,希望能拥有资产的所有权。这是针对特定高端需求的一种灵活服务。

硅星人:与服务本土企业相比,服务海外企业和 AI 出海企业对你们的技术、服务和全球化能力提出了哪些不同的要求?

Alex: 中国出海企业通常有三个核心需求:1、成本可控的混合架构:出海初期预算有限,需要高性价比。2、用户体验:落地到日本、东南亚或北美时,需要当地的节点来保证低延迟。3、中文服务与合规:我们能提供普通话服务,同时解决当地的合规问题。

硅星人:目前来看,哪些行业对你们的 GPU 云服务需求最旺盛?能分享一两个最有意思的应用案例吗?

Alex:目前看最火的三个赛道是:AI Software Copilot(编程辅助)、Image & Video Generation(图像视频生成)和 AI Companions(AI 陪伴)

最有意思的一个案例是我们有个做 Video 的客户。他们的产品发布后瞬间爆火,算力需求在 1 个月内翻了 8 倍。我们必须在极短时间内帮他们完成极速扩容,从几百卡瞬间扩到几千卡。

这对我们的供应链和调度能力是巨大的考验,但我们也因此赢得了客户的极度信任。这也带来了一个 " 甜蜜的负担 ",我们的卡经常处于售罄状态,需要在 Capacity(产能)和 Demand(需求)之间不断玩 " 跷跷板 " 游戏。

只做 " 出海 " 与 " 本地化 "

硅星人:在亚洲市场(如中国大陆、东南亚、东北亚),你们的布局和竞争策略是什么?

Alex:我们在不同市场的打法非常明确。

在中国大陆,我们不碰本土 GPU 业务,只做 " 出海服务 "。帮助中国企业落地东南亚、日本和北美。中国出海企业有三个核心需求:成本可控的混合架构、低延迟的用户体验(Local 节点),以及中文服务与合规。我们在亚太某些地区,因为有本地节点,解决了很多金融或 IC 设计公司在 AWS/GCP 上找不到本地算力的痛点。

在东北亚,我们已经拿下了日本第二大电力公司作为客户,并组建了日本团队,提供从 GPU 到模型管理的一条龙服务,服务本土大客户和出海落地的客户。

在东南亚,我们有丰富的机房 partner 资源,几乎可以做到快速帮国内 AI 应用出海企业快速拉到资源。

硅星人:去年的 A 轮融资取得了哪些关键进展?基于这些成果,公司对下一轮融资有何规划?

Alex:A 轮资金主要用于获取 NCP 认证和建设早期的千卡 / 万卡集群。这一年的成果是显著的,我们拿到了 NVIDIA 的核心认证,建设了万卡规模的算力,并赢得了投资人和客户的认可。

对于 B 轮融资,我们预计规模是 2 亿美金,预计本年底就可以 Close。这笔资金将主要用于建设 AI Factory,将我们的集群规模在现有基础上翻倍甚至翻三倍,特别是在北美、日本和台湾地区的扩容。

巨石、鹅卵石和沙

硅星人:你觉得未来两三年,GPU 云算力这个市场,最大的机会和挑战会是什么?

Alex:最大的挑战绝对是电力。真的不够用。

我们最早找机房时只需半兆瓦(0.5MW),现在找机房起步就是 40MW。整个规模发展非常可怕。我们现在做规划已经不是看 6 个月后,而是要直接去锁定 2027 年的电力资源。这也迫使我们往上游走,直接跟 Hyperscalers 和电力公司合作。未来的竞争,很大程度上会是能源的竞争。

硅星人:怎么看待开源和闭源大模型的竞争?这对你们有什么影响?

Alex:我觉得开源是整个产业的推进器。像今年的 DeepSeek V3 一出来,市场反应非常热烈,企业发现终于可以低成本地控制自己的数据和模型了。

以前大家觉得开源闭源差距很大,现在这个 Gap 正在迅速缩小(Converge)。之前像 Cursor 这样的产品一火,大厂马上就能出一个 Cloud Code 把它覆盖掉,因为成本太高了。但开源模型让大家有了反击的机会。我有一个大胆的预测,在 Video 赛道,也会出现 "DeepSeek Moment"。像阿里的 Wan 2.5 已经非常强了,未来视频模型也会像 LLM 一样,出现一个开源的高光时刻。这对我们这种基础设施厂商是巨大的利好。

硅星人:最后一个问题,我们正进入一个 " 推理时代 "。GMI Cloud 的理想状态,会是一个什么样的角色?

Alex:我们不希望只做一个单纯的 " 算力提供商 ",那样只会越做越窄。我们希望做一个可以解决 AI 应用企业所有技术及算力需求的 Verticalized AI Service Platform(垂直化 AI 服务平台)。

我有一个比喻,叫做 "Rock, Pebble and Sand"(巨石、鹅卵石和沙子):

Rock(巨石):像 CoreWeave 那样,提供超大规模集群给大模型公司做 Training。

Pebble(鹅卵石):通过 K8s 和 Container,服务于需要灵活性、中等规模算力的初创企业。

Sand(沙子):通过 Inference Engine 提供 API 服务,让创作者和开发者能像抓沙子一样,随时随地调用 DeepSeek、Qwen 等模型。同时针对开发者和创作者,我们也会孵化更多好用的服务,比如 Workflow 等。

我们的终局是把这三层全部打通,从最小的 API 调用到最大的万卡集群训练,提供一个全栈式的解决方案。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 区块链 gpu 数据中心 大宗商品
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论