AI自主炒二手：从议价到送奶茶，AI正在绕过人类直接做生意

当普通人还在用大模型写周报、薅羊毛时，华尔街的警报已经拉响。

4 月 24 日，老牌电商巨头 eBay 的股价单日下跌 5.3%，跌至 97.94 美元。直接导火索是 eBay 宣布关闭旧金山办公室、裁减员工，以及多位华尔街分析师在财报前集体将其评级下调至 " 持有 "。

但与此同时，科技与投资圈正密切关注另一场几乎同期曝光的硅谷内部实验。

在这场实验中，AI 替代了人类在交易中的角色，自主拿着预算去市场上议价。它们还展示了一条值得关注的商业逻辑：算力差距，直接转化为交易中的议价优势。

今天，我们来拆解这两起分别发生在中美两地的代表性压力测试，看看当大模型掌握了资金调度权，商业世界会发生什么。

一场完全由机器驱动的内部交易实验

事情要从 AI 实验室 Anthropic 的一场内部压力测试说起。这场实验代号「Project Deal」。

玩法很简单：Anthropic 给旧金山办公室的 69 名员工，每人发了大约 100 美元的真实预算。然后，员工只需花 10 分钟和 AI（Claude）聊聊天，告诉它自己想卖掉什么闲置、想买点什么，底价是多少。接下来，人类就不再参与。

被接入 Slack 内部交易频道的 AI 代理们，开始了一场完全自主的交易博弈。

全网检索匹配、精准抛出报价、多轮来回拉扯——它们在没有任何人类干预的情况下，自主起草并锁定了交易合同。

整整一周时间，这群 AI 处理了 500 多件真实物理商品，达成了 186 笔交易，总交易额突破 4000 美元。连一袋装满 19 个乒乓球的塑料袋，都被 AI 以 3 美元的价格买下，理由是这是 " 充满可能性的完美球体 "。

人类唯一需要做的事情，就是根据 AI 谈妥的契约，在线下见个面，把实物交接一下。

但这场实验真正引人注目的地方，并不在于 AI 会买东西。而在于 Anthropic 在底层做的变量控制。

算力差距如何转化为议价优势

在员工们毫不知情的情况下，Anthropic 把测试环境物理隔离了。一部分人的代理，是当时最强的旗舰大模型 Claude Opus 4.5；另一部分人的代理，则是推理成本更低的轻量级模型 Claude Haiku 4.5。

测试结果的数据曲线，揭示了显著的模型能力差距。

在模型代差的对决中，Opus 在议价能力上表现出了显著优势：作为卖家，Opus 平均能多获得 3.64 美元的利润；作为买家，它平均能把采购成本压低 2.45 美元。

最典型的案例是一辆破旧的折叠自行车。同样的需求，同样的底线。当买卖双方都是 Haiku 代理时，成交价是 38 美元；而当 Opus 接管谈判时，它将成交价推高至 65 美元。单一标的物的算力价差，高达 70%。

更具隐蔽性的是，这场算力差距带来的劣势，参与者很难察觉。在经历了不同模型交叉测试的 28 名员工中，有 11 人甚至觉得表现更弱的 Haiku 为自己争取到了更好的条件。他们甚至没有意识到自身处于议价劣势。

实验还提示，提示词的修辞策略对议价结果影响有限。有员工要求 AI 扮演 " 落魄的德州牛仔 " 去卖惨砍价。无论采用何种角色设定，AI 的表现都很投入，但对最终成交价没有产生显著影响。在明显的模型能力差距下，语言策略的边际效果有限。

这就是代理人商业（Agentic Commerce）的底层逻辑。以前，你买东西吃亏，是因为渠道垄断或信息差。未来，你在交易中处于劣势，一个可能的原因是模型能力的差距——你的 AI 代理参数不够大、推理不够深。

从议价博弈到物理世界：1000 万杯奶茶的压力测试

如果说硅谷在测试机器博弈的 " 深度 "，那么大洋彼岸的阿里巴巴，则直接测试了 AI 调度物理世界的 " 广度 "。

2026 年春节，阿里投入 30 亿元人民币，给通义千问（Qwen）大模型做了一场极限压力测试。

用户不需要再打开眼花缭乱的商品列表。你只需要对着通义千问 APP 说一句：" 我想喝奶茶。"

在这个瞬间，千问化身为中枢神经。它领走一张 25 元代金券，向下调用淘宝小时达的接口，定位你附近的喜茶或蜜雪冰城，自动算好折扣，唤醒支付宝免密支付，然后把指令发给同城的外卖骑手。

极简的指令，展现出了极强的端到端执行效率。前 3 个小时，100 万杯奶茶订单涌向全国门店。9 个小时内，真实交易订单突破 1000 万笔。通义千问直接登顶苹果 App Store 免费榜第一。

但这本质上是一场针对物理供应链的压力测试。

全国超 30 万家参与活动的饮品店遭遇了大规模的产能压力。出单机吐出几米长的纸条，部分门店因杯具耗尽被迫暂停营业，外卖骑手在街头排起长龙。云端 AI 几毫秒生成的购买决策，超出了现实供应链的承载能力。通义千问的系统也因超出并发承载能力，临时启用了限流机制。

传统电商模式的黄昏

把硅谷的 " 二手交易实验 " 和阿里的 " 送奶茶测试 " 放在一起看，一个共同趋势就清晰了：大模型正在从 " 理解知识 " 进化到 " 执行动作 "。

传统电商是怎么赚钱的？做极其复杂的 UI 界面，卖广告位，收竞价排名的钱，赚信息撮合的差价，商家精心研究话术，试图刺激消费者的 " 欲望 "。

但现在，当机器可以直接跨过界面，相互用 API 对话、议价、下单时，一切都变了。

如果传统电商平台不能迅速把自己的底层接口改造得对 AI 友好（Machine-readable），它们庞大的流量入口就可能被绕过，逐渐退化为单纯的后端供货商。这也是为什么代理人商业的兴起，让传统互联网平台的商业模式面临根本性挑战。

当然，AI 接管所有商业链路的那一天，并没有那么快到来。眼下，代理人商业还卡在三道障碍上：

1. 支付成本过高

现在的金融管道是为人类低频、大额交易设计的。信用卡刷一笔要收 0.35 美元的固定手续费外加 2% 到 3% 的变动费。但 AI 代理在比价、拼单时，可能会发起海量 0.5 美元的微交易。高昂的手续费，直接让高频机器交易在经济学上不成立。

2. 责任归属不清

AI 代理目前没有 " 法律人格 "。如果你的 AI 代理产生严重偏差（即算法幻觉），花 1000 美元买了个与实际价值严重不符的商品，谁来承担损失？大模型公司早已写好免责条款，最后买单的还是人类用户。在责任归属理清之前，AI 代理注定只能停留在买奶茶、买二手的阶段，无法介入大额资产交易。

3. 机器间的信任机制尚未成熟

不用扫脸、不用输密码，商家怎么确认这笔钱真的是你的授权，而不是 AI 被植入了恶意提示词？

为了解决这个信任问题，谷歌近期牵头，联合万事达卡、PayPal 等 60 多家企业推出了 AP2 协议（Agent Payments Protocol）。它验证的核心不再是 " 你是谁 "，而是通过密码学签名，验证 " 这是否符合你最初始的授权意图 "（Intent Mandate）。只有意图验证通过，商家才会放行资金。

2026 年，商业社会的底层规则正在重写。

对创业者来说，如果你还在死磕前端 UI 的优化，可能已经跑错了赛道。未来的机会，藏在给 AI 提供原生基础设施——对机器友好的 API、低摩擦的微支付网络，以及代理人责任保险。

而对于每一个普通人来说，便利的代价是让渡控制权。当代码接管了我们的钱包，一场基于 " 算力深度 " 的隐性财富再分配已经开始。在这个新世界里，理解并防范自己被高阶模型在议价中占据优势，是我们需要面对的新课题。（本文首发钛媒体 APP，作者 | 硅谷 Tech_news，编辑 | 林深）

宙世代

一起剪

相关标签