回国6年干出一个AI芯片准独角兽，专访中昊芯英创始人杨龚轶凡

本文来源：时代周报作者：郭美婷

靠 GPU 赚得盆满钵满的英伟达，正在遭受反扑。

从谷歌的 TPU、苹果的 M1 和 M2、微软 Maia 100 和 Cobalt 100、Meta 的 MTIA、亚马逊的 Trainium 和 Inferentia、特斯拉的 Dojo，到英特尔的 FPGA 系列、AMD 的 MI300 系列……巨头们一次次冲击着英伟达的帝国围墙。

近期，苹果在一篇技术论文中表示，支撑其人工智能系统 AppleIntelligence 的两个人工智能模型，是在谷歌设计的云端芯片上进行预训练的。

谷歌设计的芯片是 TPU（Tensor Processing Unit，张量处理单元），这是谷歌专门为加速机器学习应用中的矩阵运算而设计的一种定制化 DSA（Domain Specific Architecture，领域特定架构）芯片。自 2015 年推出以来，谷歌的 TPU 已经发展到第六代，成为了对标英伟达 AI 芯片的强力替代方案之一。

在中国，在 AI 竞速的大时代里，芯片自研的迫切感更重。国产 GPU、AI 芯片从业者和科技厂商们无不在找寻突破口。

中昊芯英（杭州）科技有限公司（下称 " 中昊芯英 "）是其中一员。创始人杨龚轶凡曾在谷歌 TPU 核心研发团队参与过 TPU v2/3/4 的设计与研发工作。

2017 年，杨龚轶凡见证团队研发的 TPU 芯片训练出了 Transformer 框架。TPU 和 Transformer 为自然语言处理（NLP）领域带来了革命性的变化，也开启了现代大规模预训练模型的时代。

杨龚轶凡从中看到 AI 的未来，也看到了作为 AI 基础设施 AI 芯片的价值：" 以前的计算是一块芯片上跑一个应用或多个应用，现在是一个应用跑在一千块甚至上万块芯片上，这是人类计算历史上的大变革。该变革给了所有技术迭代的空间及机遇。"

2018 年，杨龚轶凡归国组建中昊芯英的核心创始团队，并于 2020 年落地杭州，产品线主要围绕人工智能芯片，特别是 TPU 芯片展开。历经了近五年的研发，2023 年下半年，基于全自研 GPTPU 架构的高性能 TPU 人工智能芯片刹那 ® 实现量产。2024 年被杭州市创业投资协会认定为杭州市准独角兽企业。

中昊芯英也是初创芯片公司中，少数已实现盈利的。2023 年，中昊芯英的整体销售额达 4.85 亿元，归母净利润为 8132.64 万元。据了解，中昊芯英目前的客户以政府、运营商、企业为主，多为合作共建智算中心。近日，中昊芯英又宣布与上市公司艾布鲁旗下子公司星罗智算科技（杭州）有限公司达成了战略合作。目前，中昊芯英已经完成了 Pre-B、Pre-B+ 轮融资。

但是，在 GPU 处于绝对垄断地位的当下，GPU 的通用性和生成式 AI 上的强大性能已经过广泛验证。对比之下，TPU 主要针对机器学习和深度学习任务，对于如图形渲染、物理模拟等计算任务并不擅长。

TPU 能否成为 GPU 的替代方案？如何构建和优化围绕 TPU 的软件生态系统？TPU 有可能成为国产 AI 芯片的新机遇吗？带着疑问，时代周报记者走进中昊芯英，与创始人及 CEO 杨龚轶凡进行了面对面访谈。

TPU，AI 芯片新解法？

时代周报：GPU 和 TPU 各具优势，中昊芯英为何会选择专注在 TPU 赛道上跑？

杨龚轶凡：GPU 具有大量结构较为简单的并行处理单元，适合处理高度并行的任务，如图形渲染和科学计算，因此被广泛应用于计算机图形学、游戏开发、视频编码 / 解码、深度学习训练和推理。

TPU 特别适合于处理矩阵乘法等常见于神经网络的操作，主要用于机器学习和深度学习模型的训练和推理，特别是使用 TensorFlow 框架的任务。

早先，非深度学习模型如 GBM（Gradient Boosting Machine）和 Random Forest 等，在 GPU 上展现出的性能更好，这是因为 TPU 的通用计算能力有限，它的设计更针对深度学习任务，所以早年的表现不是很突出。然而，近年来，无论是 AI 小模型还是 AI 大模型，几乎无一例外地转向了深度学习，尤其是那些以 Attention 机制和矩阵乘法（MatMul）作为核心运算的模型，这恰恰是 TPU 所擅长的领域。

随着技术的发展，TPU 在相同制造工艺、能耗和芯片尺寸下，相比 GPU 能提供 3 到 5 倍的性能提升。这意味着，在相同的条件下，TPU 架构能够以更高的效率完成模型训练，从而显著提升性价比。在 AI 领域，尤其是深度学习模型的训练和部署，性价比是决定模型能否广泛落地的关键因素。

因此，从长远来看，TPU 比 GPU 在 AI 赛道上更具竞争力。虽然未来的 AI 模型也许不完全遵循现有的 Transformer 解码器架构，甚至可能出现新的基础运算会取代 MatMul，但深度学习无疑仍是 AI 领域的主导力量。深度学习的某个分支将承载着未来 100% 的 AI 应用，这一点是毋庸置疑的。

生态难题能解？

时代周报：如今，主流的 AI 框架都提供了 GPU 加速的支持，但是 TPU 之前是谷歌专门为 TensorFlow 和自身的云平台设计的，其硬件和软件的可用性可能不如广泛支持各种深度学习框架和平台的 GPU，中昊芯英打算如何解决这一问题？

杨龚轶凡：TPU 的概念在国外正在获得关注与普及，并未局限于谷歌的围墙内。许多初创企业虽未直接冠以 TPU 之名，但其设计理念与 TPU 颇为相似。例如，专注于开发高性能 AI 芯片的初创公司 Groq 所开发的 LPU（Language Processing Uni），从其技术白皮书中可以看出，其芯片架构与 TPU 异曲同工。全球范围内，TPU 及其类似技术的公司如雨后春笋般涌现，不断推动着技术的边界。

另外，软件栈也不是一成不变的。曾经，CUDA 与流行的开源机器学习库 PyTorch 紧密相连，为 GPU 提供高性能计算能力。然而，随着 TPU 等非 GPU 架构的兴起，软件栈开始适应多平台需求，PyTorch 2.0 及后续版本已将 TPU 作为标准分类纳入支持范围，这意味着开发者在使用 PyTorch 时，可以无缝切换至 TPU。

随着软件栈的不断更新与优化，以及硬件领域的持续革新，我认为整个行业对 TPU 的接纳程度将日益提高。

时代周报：英伟达构建了一套全栈式解决方案，结合硬件、软件和服务，形成闭环的生态系统，覆盖从边缘设备到数据中心的各种应用场景。未来中昊芯英是否将构建自己的全栈式的 TPU 产品和技术？

杨龚轶凡：在 AI 赛道，芯片企业一定是向着全栈解决方案迈进的，而且是软硬件一体协同。

当前，业界普遍支持 PyTorch 框架，因其低迁移成本吸引了大量用户。然而，随着用户基数的扩大和行业解决方案的深化，软硬件一体化公司的优势开始凸显，能够提供从基础模型服务、开源模型、到模型预训练的全面支持。

未来，软硬件一旦达到高度协同，芯片的性价比将有望实现 2 到 3 倍的飞跃。

时代周报：此前业内认为，除去产品本身，生态才是英伟达最大的护城河。英伟达又利用 CUDA 平台建立了庞大的开发者生态系统，这是难以 " 突围 " 英伟达的原因。您认为该如何破局？

杨龚轶凡：我从另外一个角度去回答这个问题。何为软件生态？目前软件栈 AI 的框架最流行的是 PyTorch，CUDA 是在 PyTorch 下面一层。如果使用 GPU， PyTorch 就必须链接到 CUDA 接口上，选择 GPU，必须支持 CUDA。

随着时间的迁移，在 PyTorch2.0 以后，TPU 已经是个标准的分类了，在 PyTorch 里面也已经有了很好的支持了，而且 TPU 相对简单，不必像 GPU 那样承担繁重的 CUDA 兼容性负担，反而可以采取更为简洁和高效的软件栈。

据估算，TPU 的软件生态构建工作量仅为 CUDA 的三十分之一，这不仅降低了人工成本，还使得其解决方案在支持度和通用性上更具优势。

现在大家都支持 PyTorch，因为 PyTorch 平台用户的迁移成本较低。但当用户获取量越来越多，开始深入行业解决方案的时候，这就会变成是我们的强项了，核心在于我们是真正的做软硬件一体化的公司，我们能够提供行业大模型的基础模型服务、基础模型的开源、基础模型预训练，当我们把模型的整个软件栈框架搭好后，那么行业客户就可以基于自身行业数据，在我们的这个框架上调用接口，就可以完成模型的二次训练。这样就可以把模型应用在具体场景里面去替代生产力了。

商业路径几何？

时代周报：我们了解到中昊芯英在金融、医疗、教育等领域布局了预训练大模型，作为一家芯片公司，为何入局大模型？

杨龚轶凡：我们希望实现软硬件的一体化协同，通过训练基础模型，并将其开源，同时配套完善相应的软件框架，如此一来，我们为客户提供了完整的解决方案。这一过程被比喻为 " 钥匙工程 "：客户准备和整合自身数据，通过我们交付的接口即可启动模型训练。

这些开源模型不仅仅是技术上的突破，更是芯片公司的核心资产。类似于 CUDA 这样的软件生态系统，是芯片公司技术护城河的重要组成部分。CUDA 为英伟达的 GPU 构建了一个强大的软件开发平台，使得开发者能够轻松利用 GPU 的计算能力进行 AI 应用开发。但如今，CUDA 在 AI 软件生态中的统治地位正在受到挑战，PyTorch 框架与微软的合作，正致力于在其内部开发替代 CUDA 的底层架构，这意味着 CUDA 在 AI 领域的影响力正在逐渐减弱。

因此，芯片公司通过培育开源模型，构建自己的软件生态系统，能够吸引开发者围绕这些模型进行应用开发和优化，进一步巩固和扩大自己的市场地位。

时代周报：当下很多芯片公司还处于亏损，为什么中昊芯英能够在相对短时间实现盈利，模式是怎样的？

杨龚轶凡：首先是因为我们创始团队对于做 AI 芯片有一种信仰，这也是我们创业的核心的原动力。

当时我们创业可以选择在硅谷，也可以选择在中国。我们那时在硅谷隐约感受到了中美未来科技博弈的不可避免，在国内研发国产化自主可控的 AI 芯片，不仅能带动经济效益，还能带动社会效益。

彼时，AI 企业只能运行较小规模的模型。摆在芯片厂商面前的选择，一是做用于推理场景的 " 小芯片 "，如果做 " 大芯片 "，则多数厂商会选择做 GPU，因为 GPU 的通用性很强，更受推广。

而由于我们一直集中在 AI 芯片 TPU 的赛道，如今 AI 赛道的爆发，对 TPU 而言就是核心市场的爆发。我们会将所有的优势资源、研发能力和精力集中在这一块，推动整个大模型的落地和行业发展。

2023 年下半年我们的产品落地，当年整体销售额达 4.85 亿元，归母净利润达 8132.64 万元。

目前，我们已与青海 · 海东 " 丝绸云谷 " 低碳算力产业园、中国联合网络通信有限公司深圳市分公司、新华三集团等各地政府、运营商、企业合作。其中，2023 年，中昊芯英与青海亿众数字能源科技有限公司联合签约，在青海 · 海东 " 丝绸云谷 " 产业园中推动设立 " 唐古拉 "AI 算力实验室，为项目搭建 AI 计算底座，该项目总投资约 230 亿元，分两期建设，是国内首个完全定位于 " 大算力 + 大模型 " 形态的大型人工智能计算中心。

宙世代

逗玩.AI

相关标签