预测模型Echo面世：检验AI是“预言家”还是“悍跳狼”？

文 | 超前实验室，作者｜青苹吹果

如果有个 AI 告诉你，三个月后某只股票会跌，或者某个国家会加关税，你怎么判断它说的是真话，还是在瞎蒙？

唯一的方法就是——等三个月，一切见分晓。

但这就陷入了一个死循环：要验证预测，就得等结果出来；等结果出来，黄花菜都凉了。更尴尬的是，就算它蒙对了，你也不知道下次还能不能信它。

市面上号称能 " 预测 " 的 AI 产品一大堆，但没几个敢把历史预测记录全公开的。大部分都是挑几个说中的案例出来吹，说错的就当没发生过。

直到最近，UniPat AI 发布了一套系统，名字叫 Echo，核心是一个专门为预测训练的模型 EchoZ-1.0，并在公开的 General AI Prediction Leaderboard 上稳居第一，领先 Google 的 Gemini-3.1-Pro 和 Anthropic 的 Claude-Opus-4.6。

在涵盖 12 个模型、覆盖政治、经济、体育、科技、加密货币等 7 个领域、活跃题目超过 1000 道的排行榜中，EchoZ-1.0 以 Elo 1034.2 的分数排名榜首，其竞争对手不仅有顶级大模型，还有预测市场上真实投入资金的人类交易者。这意味着 EchoZ 的预测能力已经相当能打了。

我花了两个晚上把他们的技术博客和公开数据翻了一遍，发现他们做了一件挺有意思的事。

Echo 不仅让 AI 学会了预测未来，更重要的是，他们建立了一套，让任何人都能验证 " 预测准不准 " 的方法论。

比谁预测得准，得先站在同一起跑线

过去一年，几乎所有头部大模型厂商都在卷预测能力。Google、Anthropic、OpenAI，一个比一个卷。

但问题是，怎么证明自己的模型真的比别人强？

传统的做法是搞一个排行榜，让各家模型对着同一批题目做预测，然后比谁的正确率高。听起来公平，但有一个致命漏洞：时序不对称。

举个例子。假设有道题是 "2026 年 4 月 20 日收盘时，全球市值最大的公司是哪家？" 模型 A 在 4 月 1 日预测了，模型 B 在 4 月 18 日预测了。4 月 18 日的模型显然能看到更多信息，比如这段时间发生了什么新闻、市场有什么波动。

这两者的准确率能直接比较吗？显然不能。越接近截止时间，预测难度越低。这就像让两个人赛跑，一个跑 100 米，一个跑 50 米，然后比谁先到终点，没有意义。

更麻烦的是，大部分预测基准的题目都来自 Polymarket 这类预测市场，偏向容易结算的二元问题（" 是 " 或 " 否 "）。

但真实世界里，一个做餐饮的老板关心的可能是 " 下个月某款新品的单店日均销量预测能达到多少 "，这种问题在传统基准里根本找不到。

Echo 团队在构建评测系统时，第一个动作就是解决这两个坑。

他们的做法挺直接：只比较 " 同一道题、同一个预测时间点 " 的结果。4 月 1 日预测的，就和 4 月 1 日预测的比，4 月 18 日预测的，就和 4 月 18 日预测的比。

这叫 point-aligned Elo 机制，听起来简单，但之前没人这么干过，因为工程复杂度高，需要持续跟踪每道题、每个时间点、每个模型的输出。

而这么做的好处也是显而易见的：确保了 " 参赛 " 模型都站在了 " 同一起跑线 " 上，厂商不用再为了排名而刻意选择答题时机，研发焦点也能从 " 卡点 " 回归到推理质量本身。

同时，Echo 团队建立了三条数据采集管道。

一条对接 Polymarket 等公开预测市场，保证了题目来源的持续性和可比性；

一条从 Google Trends 等实时趋势中自动生成新题，让评测体系能跟上现实世界的节奏，避免模型 " 刷旧题 "；

还有一条我觉得最有意思，引入科研、工程、医疗等真实专业场景的预测题，则把评测从大众话题的范畴，真正拉进了高价值决策的核心地带。

从大众共识到专业判断，这个光谱覆盖得相当完整。

行业也终于有了一套既公平、又能真实反映模型在复杂现实问题中实用能力的标尺。

评测标准是一把动态的尺

除此之外，Echo 的评测引擎还有一个细节，我觉得挺值得琢磨，那就是它不是静态题库，而是持续生长的。

系统会持续从「三条管道」吸入新题目，预测市场合约、实时趋势自动合成、专家贡献。每道题不只做一次预测，而是根据结算周期长度分配多个预测时间点。

比如周期 10 天的题可以做大约 4 次预测，90 天的则可以 7 次，既保证覆盖密度，又控制计算开销。

新题目持续流入，新的预测点持续触发，对战持续发生，排行榜持续更新。

这就解决了另一个老问题，传统排行榜的数据会过时。去年厉害的模型，今年可能就不行了；去年测的题目，今年可能已经没人关心了。

但动态系统不一样，它造了一把不断校准的尺子，而这把尺子本身也在不停生长。

Echo 团队还做了几组验证实验，挺有意思的。

一个是稳健性测试。

通过模拟因 API 故障或服务器中断造成的预测缺失场景，随机剔除 10% 到 70% 的预测记录，观察排名顺序是否会发生变化。

结果表明，Elo 体系下的排名稳定性始终优于传统 Avg Brier 方法的平均排名，前者波动幅度比后者低 1.4 至 1.8 倍；即便数据丢失比例高达 70%，Elo 排名的变动量也仅相当于 Avg Brier 得分排名波动的一半多。

另一个是收敛速度。

模拟一个新模型刚加入排行榜，看它的排名多久能稳定下来。Elo 在第 5.4 天就收敛到和 20 天后一致的排名，Avg Brier 要到第 14.5 天，快了 2.7 倍。

这些实验在告诉你，这套评测系统本身是可靠的，不是随便搭的架子。

不用答案来训练，那用什么？

评测的问题解决了，下一个问题是训练。

用历史事件训练预测模型，听起来很合理。把过去的新闻和当时的市场数据喂给模型，让它学习 " 在什么信息条件下，什么事件会发生 "。

就像学生们在备考期间，会做「历年真题」来找手感。

但实际做起来，有两道绕不过去的坎。

第一个是数据泄露。

互联网内容持续更新，你让模型去搜 "2024 年某事件的相关信息 "，它搜到的网页可能已经被后来的新闻报道修改过了。你以为是让模型 " 回到过去 "，其实它偷偷看了答案。

第二个是结果导向偏差。

现实世界充满随机性，一个逻辑严密的预测可能因为黑天鹅事件而落空，一个瞎蒙的猜测可能因为运气而命中。

如果只用最终结果做训练信号，模型会学到什么？它会学到了蒙对了就是好，蒙错了就是差。这跟训练一个赌徒没什么区别。

所以 Echo 提出的另一种解法，叫 Train-on-Future ——面向未来训练。

既然答案短期内没法拿到手，那就干脆不拿它当训练素材。改成让模型去面对那些还没出结果的真实问题，然后回过头来评判它的「推理过程」到底靠不靠谱。

所谓的推理过程，就是从模型接到问题开始，到最终给出判断中间走过的每一步，去哪里找资料、怎么梳理信息、最后怎么得出那个概率数字。

在这过程中，模型是特意去搜索那些一手的信息源头，还是随便看看新闻标题就完事？碰上互相矛盾的说法，会不会去自主核实？在给出概率的时候，是拿着过往的历史数据去推算出一个合理区间，还是一拍脑门随口编了个数？

这些动作可以被评价，不需要等答案揭晓。

但问题来了，如何来给「推理过程」打分？总不能靠感觉吧！

这确实是个棘手的问题。毕竟不同领域对 " 好推理 " 的定义完全不一样。

比如做宏观经济预测时，你得判断下个季度的 GDP 增速，这需要盯着央行的货币政策、PMI 的月度变化、失业率报告；但做加密货币领域的预测完全是另一套逻辑，你得看链上活跃地址数、监管机构的表态、市场恐慌贪婪指数。

这就造成了一个问题，面对不同的领域，想写一套通用的评分标准，几乎不可能。

所以 Echo 团队索性决定不靠人写，直接用数据来 " 搜 " 出评分标准。

这套机制叫 Automated Rubric Search，翻译过来就是 " 评分标准自动搜索 "。

大概流程是，先拿出一张草稿，列出几个可能的评分角度，比如 " 信息来源靠不靠谱 "" 碰到矛盾信息怎么处理 "，每项分成好、中、差三档。然后用这套标准去给各个模型的预测过程打分，排出一个名次。

排完之后，拿这个名次跟真正的 Elo 排名，放在一起比对，看看两个版本名次重合度。

重合度越高，说明这套评分标准越有说服力。

排行榜第一，要赢，更要稳

聊了这么多技术，现在，咱们再回到开头提到了的 General AI Prediction Leaderboard 上。

排行榜涵盖 12 个模型，7 个领域，活跃题目超过 1000 道。

但我觉得更值得看的不是排名本身，而是排名的稳定性。

Echo 团队做了一组 σ 参数敏感性测试：调整 Elo 框架中的一个参数，控制模型之间表现差距会被放大到什么程度，从 0.01 到 0.50 共 9 个取值，重新计算全部模型排名。EchoZ 在全部 9 个分组均保持第一，是唯一排名未发生任何波动的模型。

作为对比，GPT-5.2 的排名在第 2 到第 9 之间波动过 8 个位次。

这意味着什么？意味着它不是 " 刚好赢了一点点 "，而是在不同设定下都稳居第一，这比 " 赢了 " 更有说服力。

更有意思的是他们和人类交易者的对比。

EchoZ 与 Polymarket 人类市场共识的分层对比显示：政治与治理领域胜率 63.2%，长期预测（7 天以上）胜率 59.3%，市场不确定区间（人类信心 55%-70%）胜率 57.9%。

有个规律值得注意，人类预测者越犹豫的场景，如高不确定性、长时间跨度、复杂政治博弈，EchoZ 的优势反而越明显。

这恰恰暗示了模型在信息整合和概率校准上的系统性优势，恰好是人类直觉最不可靠的区域。

乍一听，60% 上下的准确率好像也没多厉害。可但凡对投资市场有点了解的人都清楚，在一个靠决策质量分高下的环境里，60% 这个数字意味着什么，只要胜率过半，长期下来就是正收益，而能达到六成，已经是相当可观的领先幅度了。

写在最后

UniPat 在官网上为 Echo 写了一段话："The future is no longer a probability you guess — it is a parameter you integrate."

翻译过来大概是：未来不再是你猜测的概率，而是你可以集成的参数。

这句话挺有嚼头。

当预测从一种直觉判断变成一个可调用、可集成的参数，它能嵌入的决策场景会多得多，金融市场、算法交易、企业战略、供应链管理……比我们现在能想到的要多。

据他们披露，下一步计划是把 EchoZ-1.0 的预测能力封装成一套 AI-native Prediction API 对外开放。这套 API 支持自然语言输入，返回包含概率分布、分层证据链、反事实脆弱性评估和监测建议的完整结构化报告。

想象一下：你问 " 明年 Q1 全球锂矿价格走势 "，它不光给你一个概率，还告诉你这个判断是怎么来的，哪些证据支撑、哪些因素可能让判断失效、需要关注哪些监测指标。

这跟现在那些只会给你一个 " 涨 / 跌 " 结论的「预测工具」，完全不是一个东西。

当然，落地的效果还得等 API 正式上线才能验证。但至少从目前公开的信息来看，Echo 在做的事情是结构化的。它没有在较真自己模型准不准，而是在搭建一套 " 让人相信它准 " 的验证体系。这在预测 AI 这个领域，可能比 " 准 " 本身更重要。

毕竟，如果一个 AI 真的能预测未来，你总得知道它什么时候该信，什么时候不该信。

宙世代

一起剪

相关标签