算力经济学的逻辑，在Agent时代彻底改写了

文 | 硅基星芒

4 月 4 日，忍耐了许久的 Anthropic，终于宣布切断了第三方客户端挂在 Claude Pro/Max 订阅账号的通路。

这一举动瞬间在开发者社区激起了轩然大波。不少习惯了通过 OpenClaw 和 OpenCode 等代理工具薅官方订阅羊毛的用户对此表示极为不满，毕竟，为数不多的几条通往国际顶级大模型的 " 低价高速 " 又少了一条。

两天之后，小米 AI 团队的罗福莉发布了一篇关于 Mimo Token Plan 的推文，批判了当前智能体行业中算力分配的乱象。

两家 AI 公司的彼此独立的商业动作，异口同声地揭示了一个不易发现的行业真相：

大模型正在从互联网免费午餐的幻觉中退场，回归作为稀缺能源的物理本质。

01 订阅制的崩塌

一个摆在眼前的事实是：算力的 " 大锅饭 "，已经供不起爆发两个多月的智能体了。

在传统的 SaaS 时代，订阅制就是互联网公司商业文明的基石。

无论是著名的 Netflix，还是以前几乎每个人电脑中都必须安装的 Office 365，商业逻辑都是一样的：" 用大多数人的闲置来补贴极少数的重度用户 "。

但在如今的智能体时代，这个逻辑已经失效。

罗福莉在推文中隐含了一个深刻的洞察：在当前的算力成本下，低廉的 token 价格、高强度的使用频率和第三方代理的完全开放，构成了一个不可能三角。

对于几个月前的大语言模型，传统的对话式使用（Chatbot）受到人类输入和阅读的速度限制，单次会话的 Token 消耗基本存在一个明确的上限。

但 Agent 毫无征兆地彻底打破了这个博弈规则。

一个像 OpenClaw 这样的编程代理，想要执行任务就必须进行高频的环境感知和工具调用。

越复杂的任务，模型需要记住的内容就越多，在真实应用场景下，隐藏在每一次微小修改背后的，可能是超过上百万的 token 消耗。

如果把订阅制比作健身房的会员卡，过去的用户只是偶尔去运动一个小时打个卡。

但现在的智能体用户，就是带着一群大胃王去吃自助餐，而且每个人的胃都是无底洞。

按照目前 Claude Opus 4.6 的 API 价格，输入端 5 美元 / 百万 token，输出端 25 美元 / 百万 token，一个深度开发者通过第三方代理进行短短几个小时的重度编程，实际消耗的 token 价值可能轻而易举地消耗上百美元。

结论显而易见，Anthropic 卖出一份几十或是上百美元的订阅，不仅不赚钱，甚至要亏损不少算力成本。

Anthropic 在正式切断第三方接入之前，已经不止一次封禁各种渠道的外部订阅，而 Google 的 Antigravity 和 OpenAI 的 Codex 也同样有类似的操作。

本质上，这就是 AI 企业不约而同的一次商业化止损，防止订阅制被智能体带来的算力黑洞彻底吞噬。

国内的 AI 企业当然也不能幸免。

今年 3 月起，智谱、阿里、腾讯等企业推出的 Coding Plan 订阅服务陆续宣布大幅度涨价。

短短一周之内，和此前的外卖大战如出一辙的低价获客活动就草草落幕。

02 计费模式的演进

模型越变越强，用户越来越多，AI 行业的计费逻辑也正在经历着从模糊到精确的演进，而这背后则是用户付费认知与厂商成本压力之间的博弈。

①明码标价的 API

原生的 API 就是最初的工业级 " 电表 "。

API 从 AI 行业走入人们视野至今，一直都是最透明的计费方式，也是让普通用户最焦虑的方式。

它和每家每户的电表一样实时跳动，每一句 " 你是谁 " 都在扣费。

极其公平的计费方式，实际价格却触目惊心：

Anthropic 被全球用户诟病的超高定价自然不必多说，但国内的 AI 巨头们发布的旗舰模型 API 价格也绝对说不上便宜。

价格门槛不仅阻碍了大规模的 C 端普及，B 端用户也不得不仔细考量本地部署的经济效益。

但在 AI 企业相继推出订阅服务之前，这就是用户唯一能选择的付费方式。

也因此，开发者的每一次调用都伴随着极大的 " 算力焦虑 "，这种焦虑也扼杀了 AI 本该带来的探索性尝试。而更多的用户，选择继续在网页中与 AI 免费交流。

②随处可见的 Coding Plan

面对这种付费欲望极低的困境，Coding Plan 成为了变现的良机。

虽然名称各有不同，但目前国内外主流大模型几乎全部推出了订阅制的 Coding Plan，这也是付费认知和成本压力彼此妥协的最终产物。

它通过 " 每 5 小时 1200 次请求 " 这样的模糊规则，将算力包装成了一种类似宽带包月的服务。

随着 Coding Agent 的诞生，其价值逐步得以体现：它成功建立了一部分开发者用户的付费习惯。

这些程序员们成为了第一批吃螃蟹的人，他们开始在电脑上让 AI 帮着编写代码、运行、调试、修复 bug，而不是通过复制粘贴的方式频繁切换窗口和网页中的 AI 进行交互。

不过，仅仅两个月之后，这种计费方式的局限性也暴露出来：不透明。

这 1200 次请求，可不是用户给 AI 发送消息的次数，而是调用模型的次数。

用户的 1 次提问，就会触发几次甚至几十次的模型调用。完成一个任务需要几次提问、几次模型调用？没人能说得清。

除此之外，厂商为了控制成本，往往要在后端进行精细的流量控制，甚至在压力过大时通过模型降级等方式来维持服务。

这种计费模式，最终直接导致了用户使用体验的断裂。对于专业开发者来说，一旦进入高强度的编程状态，要么是发现 AI 突然降智，要么是因为多次对话达到频率限制而不得不中断。

③小米发布的 Token Plan

这是 4 天前小米刚刚推行的一套新的计费逻辑，也是罗福莉在推文中极力倡导的方案。

值得注意的是，发布当天晚上，腾讯也推出了同样的计费方式。

与 Coding Plan 不同的是，它不再使用以次数为限制的虚无缥缈的承诺，而是像手机流量包的配额制一样，明确告知用户一个周期内套餐中能够使用的 token 数量。

当然，罗福莉作为小米 AI 团队的代表，一篇推文的发布必然优先立足于小米的商业化利益。

与此同时，如果只看旗舰模型，小米的 MiMo-V2-Pro 能力和国内第一梯队的智谱、MiniMax、Kimi 也拉不开太大的差距，但价格却并不 " 亲民 "。定价表中 " 一杯咖啡 " 的价格，怕是给星巴克用户专门定制的。

但必须承认的是，这种计费方式是目前能够兼顾算力紧缺现状和商业利益的唯一解法，也是最符合货币经济运行规律的方式。

人们花钱购买生产资料，而产出的价值则取决于生产力。

AI 服务被量化为可预测的成本，" 提效 " 的压力也交还给了开发者。

一个月前被卖到脱销的 Coding Plan 已经告诉我们，在底层大语言模型的性能拉不开差距的情况下，一价定律在订阅服务上是成立的。

因此，可以预见，在 4 月接下来的几周内，Token Plan 即将接管新的 token 计费战场。

至于小米的模型能力到底对不对得起定价，市场竞争最终会给出公平的答案。

03 技术层面的反思

高昂的 API 调用成本、限流限售的 Coding Plan、再加上让 token 进一步涨价的 Token Plan，算力紧缺的问题从来没有被根本解决，反而进一步笼罩了全球 AI 市场。

以前 AI 巨头们抱怨算力不够，是因为规模化定律（Scaling Law）始终在发挥作用。

在那个大语言模型跑分决定一切的年代（尽管就是几个月以前），想要推出具有竞争力的新一代旗舰模型，算法、算力和数据就必须有所突破

显然，相比起算法，算力和数据的堆砌在工程上与投入呈明显的正相关关系，只要有更好的数据和更多的芯片，模型就必然会更强大。

但 Agent 时代，规模化定律虽然仍在生效，但效果已经不如先前显著。

如今的算力缺口，从训练阶段转移到了推理阶段，而 Vibe Coding 技术和以 OpenClaw 为代表的代理程序可谓是罪魁祸首。

就像我之前的观点一样，OpenClaw 等一众桌面代理的出现创造了前所未有的伪需求。

而推理阶段中出现很大一部分算力缺口，就是因为其Agent 框架设计粗糙，人为制造出了大量毫无必要且效能低下的交互。

SGLang 的核心贡献者赵晨阳在 4 月 6 日发布的一篇文章中，把这种现象成为 " 用消防水龙头浇花 "。

而起因是因为他在观测现有的 Agent 框架实际产生的请求模式时，发现缓存命中率（Cache Hit Rate）惨不忍睹。

这与罗福莉推文中提到的问题完全一致：目前的第三方 Agent 框架在上下文管理上表现得极其 " 懒惰 "。

为了在复杂任务中不会因为遗忘信息而脱离应用场景，Agent 往往会在每一轮对话中都重新发送一次全量且未经优化的上下文。

而在接近上下文窗口的上限时，大约每 3 步就会 " 破坏性 " 地压缩一次工具响应信息。

这种行为在工程角度来看最为直观和简便，但几乎让为推理引擎设计的提示词缓存机制变得无效。

赵晨阳的描述很符合目前 AI 行业软硬件发展的现状：

硬件工程师拼命把 HBM 做大，推理引擎工程师拼命优化 KV Cache 内存布局，然后上层 Agent 框架以一种愚蠢的请求方式将资源挥霍殆尽。

这就是各种 Claw 爆火的匪夷所思之处和商业逻辑：

模型能力不足→靠 Agent 框架增加 token 消耗来弥补→ token 销量增加→厂商涨价

自工业革命以来，这套运行逻辑不符合任何技术演进的过程。

这就好比有人设计了一辆极度费油、甚至一边开一边漏油的破车，驾驶者不仅没能跑的更远，反而因为浪费了大量燃油而推高油价。

而现实已经证明，这种依靠低效堆砌换来的繁荣必然是虚假的：

3 月上旬安装龙虾成为净赚几百元的生意；

3 月中旬 AI 企业开始免费给用户安装龙虾；

3 月下旬上门卸载龙虾再次成为净赚几百元的生意；

4 月龙虾在普通用户中无人问津。

罗福莉推文中说的一句话值得所有开发者牢记：

痛苦最终会转化为工程纪律。

只有 Token 变贵到人们不能挥霍的程度，开发者才会有动力去思考：

如何用更少的 Token 完成更多的任务。

04 算力不再是 " 免费午餐 "

人们总是在说，AI，或者说 token，未来将会成为水和电一样的生活基本资源。

于是，AI 行业内也普遍形成了一个共识，未来 token 的成本将会被打到一个极低的水平。

但现实也如此吗？

至少目前的趋势，是 token 在越来越贵。

国内受限于芯片出口限制，算力必须作为 " 省着花 " 的存量资源；国外受限于电力基建和电网功能，算力变成了有上限的增量资源。

在这种既需要算力加强基础模型性能，又需要算力满足爆发的推理需求的环境下，算力的供不应求已经不仅是 AI 企业需要考虑的问题，全球的 AI 用户也必须承担一部分经济成本的压力。

也因此，Coding Plan 几周前的价格战无需任何叫停的声音就已经销声匿迹。

按照火山引擎总裁谭待所说，国内智能体用户的体量只有百万级，而这已经能让各大 AI 企业在短短一周之内接连涨价订阅服务，核心原因仍然是：

其中存在大量快速消耗 token 但产出价值极低的伪需求。当算力以大锅饭的形式供给大众时，这些伪需求就会快速挤占公共资源。

于是，" 精准配给制 " 理所应当地出现了。

Google 的 Gemini API 增加了付费优先级，小米和腾讯推出了价格更高的 token 订阅服务，本质上都是在通过价格手段进行资源的最优配置。

按 token 使用量计费，正是要让更具价值的 token 分配给能创造出更多价值的人。

而这场算力经济的变局，迟早要深刻影响每一个 AI 用户的日常。

在过去的二十年里，软件工程的主旋律一直是 " 用空间换时间 " 和 " 用硬件换开发效率 "。

但在 Agent 时代，算力被抽象为 token，颠覆了这套逻辑并成为了最昂贵的变量。

未来的 AI 用户，可能不会再有 0 门槛使用 AI 完成生产任务的机会，还必须做出一个艰难的二选一：

要么有钱购买高价值 token，要么懂得算力预算管理。

也就是说，对于绝大部分人们，在使用 AI 时都必须有清醒的认知，并准确判断一项任务值得调用什么水平的模型，甚至是一段上下文如何进行更有效地摘要和每一次工具调用是否是冗余的操作。

或许不容易意识到，但我们已经被迫进入了一个算力精算的时代。

不仅是开发者，每一个 AI 用户都必须站在推理引擎、模型能力和业务价值的十字路口做出权衡。

低效的用户依靠暴力堆砌 token，在频繁的改错和吵架中耗尽额度，最终和拒绝使用 AI 的人并无两样。

而高效的用户学会设计出更好的提示词架构，用更聪明的调度方式让模型在更短的上下文中给出答案。

这场由 Anthropic 切断第三方渠道引发的讨论，已经给所有人敲响了警钟：

算力红利接近枯竭，算力纪律已经降临。

我们必须接受高价值 token 正在变得昂贵而稀缺的现实，而且只能在这个现实中寻找新的工程最优解。

罗福莉在推文的最后给出了一句结论：

Agent 时代不属于烧算力最凶猛的人，而属于利用算力最聪明的人。

提高生产力的关键，绝不是规定每个员工一个月必须要用掉多少 token 这种滑稽的做法，而是如何把单位算力的智商产出比提升一个数量级，这才是 Agent 时代的入场券。

至于通用人工智能（AGI），在现有的底层模型能力和 Agent 算法框架水平下，还只是春秋大梦。

宙世代

一起剪

相关标签