
在近乎沉默中研发四年后,AI 芯片初创公司 Etched 于周二正式亮相,并抛出一系列重磅数据:完成 8 亿美元融资,投后估值达 50 亿美元;签署超过 10 亿美元的客户需求合同;首款生产样片已就绪。其投资者名单囊括了诺贝尔奖得主、深度学习先驱以及量化金融领域的顶级机构。
Etched 的核心赌注清晰而激进:推出名为 Sohu 的专用芯片,专为 Transformer 推理负载优化。该公司声称,Sohu 在架构特异性上实现了通用 GPU 无法匹敌的效率,首批服务器机柜将于今夏出货。这并非渐进式改进,而是对当前以 CUDA 和通用 GPU 为主导的 AI 推理硬件范式的直接挑战。
硬编码 Transformer:Sohu 如何突破 GPU 效率瓶颈
主流大语言模型的核心均依赖 Transformer 架构。在通用 GPU 上运行此类模型时,由于需要频繁从高带宽内存加载权重、调度数千个并行核心线程,导致大量算力闲置。通常情况下,GPU 在处理 Transformer 推理时的浮点运算(FLOP)利用率仅为 30% 至 40%。
Etched 通过两项硬件创新试图填补这一效率鸿沟。首先是 " 低压推理 " 技术,以低于传统芯片一半的电压运行计算模块,避免热节流从而大幅提升 FLOP 密度。官方数据显示,其集群能以超过峰值 80% 的水平运行万亿参数稀疏模型,而通用 GPU 集群难以维持此利用率。
其次是 " 集群规模内存 ",利用专有高带宽互连技术在芯片间构建共享的低延迟内存池。这一设计分离了权重读取与键值缓存读取路径,解决了制约 GPU 吞吐量的内存带宽瓶颈及单令牌延迟问题。
Sohu 芯片采用台积电 N4P(4 纳米)工艺制造,搭配 144GB HBM3E 内存。据 Etched 公布的数据,一台八芯片服务器在运行 Llama 70B 模型时,每秒可处理超过 50 万个令牌。相比之下,同等配置的八卡 H100 服务器约为每秒 2.3 万个令牌,B200 服务器约为每秒 4.3 万至 4.5 万个令牌。这意味着单台 Sohu 服务器的吞吐量理论上可替代约 160 台 H100 GPU。
值得注意的是,上述数据源自 Etched 自行发布的材料。截至目前,尚无第三方机构在生产环境下对 Sohu 硬件进行独立的吞吐量验证。
豪华 investor 阵容:从量化巨头到 AI 教父
Etched 的最新一轮 5 亿美元融资由 Stripes 领投,参与者包括与台积电关联的风险科技联盟(VentureTech Alliance)、彼得 · 蒂尔(Peter Thiel)、Ribbit Capital,以及 Jane Street、Hudson River Trading、Jump Trading、Two Sigma 等顶级量化交易机构。其中,Jane Street 在 Etched 的总投资额已超过 1 亿美元。
天使投资人阵容则赋予了该技术另一种维度的可信度:深度学习先驱 Geoffrey Hinton、斯坦福 AI 研究员李飞飞、前特斯拉 AI 负责人 Andrej Karpathy 以及宏观投资者 Stanley Druckenmiller 均位列其中。这种涵盖理论研究者、工程实践者与资本配置者的广泛支持,表明 Etched 的技术论点已经受住业界最严苛的审视。
风险科技联盟的参与尤为关键,其与台积电的特殊关系可能为 Etched 在产能爬坡阶段提供优先获取 N4P 制程资源的保障。为此,Etched 已在台湾设立工厂和数据中心以支持生产。
英伟达的困境与 Etched 的风险
英伟达的护城河不仅在于硅片,更在于历经二十年积累的 CUDA 生态系统。切换至 Etched 意味着企业需使用其专有编译器重建推理栈,且不再兼容 CUDA、vLLM 或 TensorRT。英伟达若推出专用推理芯片,可能削弱其通用 GPU 的价值主张,加速 CUDA 生态过时。这正是 Etched 押注的市场空隙:在大规模推理时代,通用性可能成为结构性税负。
然而,风险同样显著。Etched CEO Gavin Uberti 坦言,如果 Transformer 架构在未来被取代,这些芯片将沦为昂贵的镇纸。此外,10 亿美元的订单代表承诺采购而非确认收入,性能数据也基于特定基准条件(高批量吞吐量)。真实生产环境中的工作负载更为复杂,实际表现仍有待验证。
业界常将此举比作 ASIC 矿机取代 GPU 挖矿的历史。若专用架构在主导负载上具备数量级的效率优势,经济压力将驱动市场转向。但随着六月首批机柜的交付,未来六到十二个月的生产验证将是决定这一假设能否成立的关键窗口。
常见问题解答
Sohu 芯片与 GPU 的本质区别是什么?
Sohu 将 Transformer 计算图硬编码至硅片,消除了 GPU 因指令调度和内核启动导致的算力浪费。通过 " 低压推理 " 和 " 集群规模内存 " 技术,它在特定负载下实现了远超 GPU 的 FLOP 利用率和内存带宽效率。
Sohu 能否完全取代英伟达 GPU?
在 Transformer 推理负载上,Sohu 旨在提供显著的吞吐量和成本优势。但迁移成本极高,需重构软件栈且失去 CUDA 兼容性。目前缺乏独立基准测试,实际替代能力需待今夏交付后的现实世界数据验证。
主要架构风险有哪些?
一是工作负载兼容性,尽管声称支持混合专家模型(MoE)和长上下文,但未经独立证实;二是技术演进风险,若前沿模型转向非 Transformer 架构(如状态空间模型),固定功能芯片的适应性将面临挑战。
谁投资了 Etched?芯片经过独立测试吗?
投资方包括 Stripes、Jane Street、彼得 · 蒂尔及多位 AI 领域顶尖学者。截至发布日,芯片已向早期客户演示并完成 A0 硅片验证,但尚未有公开的第三方独立基准测试结果。
【星途科讯 图文丨略略 首发于 ZAKER 科技,转载请注明出处】


登录后才可以发布评论哦
打开小程序可以发布评论哦