行云集成电路完成超4亿元融资，重构算力成本曲线

来源：猎云网

国内全自研 GPGPU 创新企业「北京行云集成电路有限公司」（以下简称 " 行云 "）宣布连续完成 Pre-A 及 Pre-A+ 多轮融资，融资金额超 4 亿元。本轮由五源资本、赛富投资基金、春华资本联合领投，北京、江苏等地方国资、佰维存储、金沙江联合带动全球知名 GPU 企业创始人家办、创维资本等产业资本跟投。云岫资本连续多轮服务并担任下一轮独家融资财务顾问。

行云成立于 2024 年，专注面向大模型推理的新一代 GPGPU 芯片。技术上打造超大显存规格、极致 CUDA 兼容的全自研产品，公司目标直指 AI 大模型推理的普惠化。

创始人季宇博士，清华大学计算机系博士，" 华为天才少年 " 计划成员，曾在华为海思深度参与昇腾 AI 芯片的编译器与架构研发。CTO 余洪敏博士，中科院半导体所博士，曾深度参与包括两款国产 AI 芯片在内的多款芯片的研发与量产，拥有十余款芯片成功流片经验。一位是站在算法 × 编译器交界处的架构师，一位是十余次走完 " 实验室到量产 " 全流程的芯片老兵——这恰好对应了行云技术路线的两个重点：架构判断要不要赌错、工程交付能不能扛住。

要理解行云芯片的逻辑，必须先承认一个正在被业内默认、但还未被公众充分定价的事实：2026 年的大模型，已经不再是 " 应用 "，而是 " 生产资料 "。

从 Chatbot 到 Agent，从一次性问答到长链路、多轮自主执行的任务交付，模型正在变成知识工作的底层引擎。一旦角色从 " 产品 " 转换为 " 生产资料 "，关于 " 谁拥有它、谁定价它、谁被它替代 " 的讨论就避无可避。而当这个问题向下追问到基础设施层，三个结构性矛盾立刻浮现。

矛盾一：从玩具到工具的鸿沟，门槛是千亿参数

Chatbot 时代，7B、13B 的小模型勉强够用。但真正能被 Agent 场景委以重任的模型，几乎全部集中在 200B – 700B 的千亿参数区间——只有这个量级，才能撑得住超长上下文、稳定的工具调用链和可接受的幻觉率。

用户用钱投票已经把这一点说得很清楚：2026 年初，Anthropic 以行业最高的 API 定价把营收推到 300 亿美元 ARR，其中 Claude Code 单产品 ARR 即达 25 亿美元。" 最贵的模型反而最赚钱 "，恰恰说明在 " 真正能干活 " 的场景里，模型质量是一道硬门槛，而这道门槛，今天的消费级硬件够不着。

矛盾二：成本结构性失衡，大厂和用户被同时挤压

为了把千亿模型留在云端，OpenAI、Anthropic、Google 等头部厂商过去两年的资本开支呈指数级增长——更大的集群、更贵的 HBM、更密的液冷机房。这些成本最终必然向用户端传导：订阅制的代价是限流、降智、高峰排队，海外 API 计费的代价是 Agent 长链任务下指数级增长的 Token 账单，月支出动辄数千美元。

这是一场不对称的双向挤压：大厂在赌自己能撑到回本那一天，用户在赌自己付得起下一张账单。任何能在这局之外另开一条算力供给路径的玩家，都会给目前的产业界带来新的思考。

矛盾三：数据主权与岗位反噬的不对称交换

云端 API 在数据流向上是单向透明的。用户每一次与 Agent 的深度协作，都在把职业 Know-how 免费转交给模型公司。海外大厂一边组建 " 反蒸馏联盟 " 严防所谓竞争对手，一边肆无忌惮地从所有用户身上蒸馏经验。" 个人经验→模型能力→岗位替代 " 的闭环就此闭合。

对一名知识工作者来说，这已经不只是隐私问题，而是生存问题。只要推理还完全构筑于云端，数据和生产关系的主权就总有归零的一天。

上述矛盾，过去并非没人看到，但在稠密 Transformer 时代，" 把千亿模型搬回本地 " 在物理上就不成立——稠密模型每次前向都要全量激活，对带宽的需求让 HBM 成为不可绕开的刚需，消费级的 LPDDR/DDR 根本进不了场。

而 MoE 稀疏架构的普及，把这套法则改写了。MoE 用更大的总容量装下更多 " 专家 "，但每次推理只激活一小部分。结果是瓶颈从 " 极致带宽 " 迁移到 " 超大容量 "，单次激活的算力和带宽需求骤降。带宽需求第一次回落到 LPDDR/DDR 的 " 甜点区间 "。再配合 Attention 的稀疏性和超长上下文的需求，算力，容量，显存带宽，互联的关系在不断发生改变。

换句话说，是算法演进给硬件留出了一个历史性的窗口期。能不能踩准这个窗口，决定了一家芯片公司是顺着潮水走还是逆着潮水走。

行云的技术路径，可以拆成 " 介质替换 " 和 " 系统级工程 " 两层。

介质层面，行云放弃成本高昂的 HBM，转而采用 LPDDR 乃至 NAND（SSD 颗粒）作为显存介质，使显存成本下降 1 到 2 个数量级。低成本介质单颗粒带宽较低，行云用多颗粒、多通道并行架构把整体带宽堆叠到 TB 级，匹配大模型推理的吞吐需求。

系统层面，公司通过 Prefill / Decode 分离（PD 分离）、KV Cache 稀疏化、分布式扩展、极致 CUDA 兼容等手段，在系统级构建软硬件协同壁垒。CTO 余洪敏强调，行云的设计优先级已经从 " 追求单芯片极致性能 " 转向 " 从板级系统角度追求可扩展性与供应链稳定性 " ——通过分布式设计与成熟工艺、低成本存储的组合，在系统层面实现成本最优与体验一致。

物化到产品，就是行云即将推出的首款消费级桌面计算产品，CUDA 极致兼容，面向消费级价位点设计。它不是一张被裁剪过的计算卡，而是从底层就为 " 在端侧跑千亿模型 " 重新设计的芯片，让用户可以在万元价位高吞吐运行万亿级别参数的大模型。

行云援引一个产业类比：当 19 世纪的交通革命中铁路刚出现的时候，英国产生了巨大的铁路泡沫，认为所有的道路将通过铁路流通，并最终留下了商业模型的崩溃出清。但最后并不是只靠贯穿大洲的铁路干线完成所有的交通需求，更依赖于深入毛细血管的汽车与公路。今天的 AI 算力网络也站在同样的分岔口——是走向超算垄断的 " 中心化铁轨 "，还是走向端侧普惠的 " 分布式公路 "？

行云给出的答案是后者。在公司的产品路线里，首颗芯片只是第一个锚点。当技术路径进一步推向 NAND 介质，端侧算力设备的价位有望下探到千元级，覆盖主流千亿乃至万亿参数模型，并在单用户场景下反超云端体验，最终让 AI 算力设备的普及率接近今天的智能手机。

与此对应，季宇明确表示，公司今年的核心目标是完成芯片量产并尽快推向市场，以芯片产品作为商业化的主要抓手。OpenClaw 和 Hermers 这类 Agent 平台的现象级传播也已经印证了下游需求——市场对 " 消费级硬件承载高质量 AI" 的渴望，已经具备实际购买力。

宙世代

一起剪

相关标签