文 | 超前实验室,作者|青苹吹果
如果有个 AI 告诉你,三个月后某只股票会跌,或者某个国家会加关税,你怎么判断它说的是真话,还是在瞎蒙?
唯一的方法就是——等三个月,一切见分晓。
但这就陷入了一个死循环:要验证预测,就得等结果出来;等结果出来,黄花菜都凉了。更尴尬的是,就算它蒙对了,你也不知道下次还能不能信它。
市面上号称能 " 预测 " 的 AI 产品一大堆,但没几个敢把历史预测记录全公开的。大部分都是挑几个说中的案例出来吹,说错的就当没发生过。
直到最近,UniPat AI 发布了一套系统,名字叫 Echo,核心是一个专门为预测训练的模型 EchoZ-1.0,并在公开的 General AI Prediction Leaderboard 上稳居第一,领先 Google 的 Gemini-3.1-Pro 和 Anthropic 的 Claude-Opus-4.6。

在涵盖 12 个模型、覆盖政治、经济、体育、科技、加密货币等 7 个领域、活跃题目超过 1000 道的排行榜中,EchoZ-1.0 以 Elo 1034.2 的分数排名榜首,其竞争对手不仅有顶级大模型,还有预测市场上真实投入资金的人类交易者。这意味着 EchoZ 的预测能力已经相当能打了。
我花了两个晚上把他们的技术博客和公开数据翻了一遍,发现他们做了一件挺有意思的事。
Echo 不仅让 AI 学会了预测未来,更重要的是,他们建立了一套,让任何人都能验证 " 预测准不准 " 的方法论。
比谁预测得准,得先站在同一起跑线
过去一年,几乎所有头部大模型厂商都在卷预测能力。Google、Anthropic、OpenAI,一个比一个卷。
但问题是,怎么证明自己的模型真的比别人强?
传统的做法是搞一个排行榜,让各家模型对着同一批题目做预测,然后比谁的正确率高。听起来公平,但有一个致命漏洞:时序不对称。
举个例子。假设有道题是 "2026 年 4 月 20 日收盘时,全球市值最大的公司是哪家?" 模型 A 在 4 月 1 日预测了,模型 B 在 4 月 18 日预测了。4 月 18 日的模型显然能看到更多信息,比如这段时间发生了什么新闻、市场有什么波动。
这两者的准确率能直接比较吗?显然不能。越接近截止时间,预测难度越低。这就像让两个人赛跑,一个跑 100 米,一个跑 50 米,然后比谁先到终点,没有意义。
更麻烦的是,大部分预测基准的题目都来自 Polymarket 这类预测市场,偏向容易结算的二元问题(" 是 " 或 " 否 ")。
但真实世界里,一个做餐饮的老板关心的可能是 " 下个月某款新品的单店日均销量预测能达到多少 ",这种问题在传统基准里根本找不到。
Echo 团队在构建评测系统时,第一个动作就是解决这两个坑。
他们的做法挺直接:只比较 " 同一道题、同一个预测时间点 " 的结果。4 月 1 日预测的,就和 4 月 1 日预测的比,4 月 18 日预测的,就和 4 月 18 日预测的比。
这叫 point-aligned Elo 机制,听起来简单,但之前没人这么干过,因为工程复杂度高,需要持续跟踪每道题、每个时间点、每个模型的输出。
而这么做的好处也是显而易见的:确保了 " 参赛 " 模型都站在了 " 同一起跑线 " 上,厂商不用再为了排名而刻意选择答题时机,研发焦点也能从 " 卡点 " 回归到推理质量本身。
同时,Echo 团队建立了三条数据采集管道。
一条对接 Polymarket 等公开预测市场,保证了题目来源的持续性和可比性;
一条从 Google Trends 等实时趋势中自动生成新题,让评测体系能跟上现实世界的节奏,避免模型 " 刷旧题 ";
还有一条我觉得最有意思,引入科研、工程、医疗等真实专业场景的预测题,则把评测从大众话题的范畴,真正拉进了高价值决策的核心地带。

从大众共识到专业判断,这个光谱覆盖得相当完整。
行业也终于有了一套既公平、又能真实反映模型在复杂现实问题中实用能力的标尺。
评测标准是一把动态的尺
除此之外,Echo 的评测引擎还有一个细节,我觉得挺值得琢磨,那就是它不是静态题库,而是持续生长的。
系统会持续从「三条管道」吸入新题目,预测市场合约、实时趋势自动合成、专家贡献。每道题不只做一次预测,而是根据结算周期长度分配多个预测时间点。
比如周期 10 天的题可以做大约 4 次预测,90 天的则可以 7 次,既保证覆盖密度,又控制计算开销。
新题目持续流入,新的预测点持续触发,对战持续发生,排行榜持续更新。
这就解决了另一个老问题,传统排行榜的数据会过时。去年厉害的模型,今年可能就不行了;去年测的题目,今年可能已经没人关心了。
但动态系统不一样,它造了一把不断校准的尺子,而这把尺子本身也在不停生长。
Echo 团队还做了几组验证实验,挺有意思的。
一个是稳健性测试。
通过模拟因 API 故障或服务器中断造成的预测缺失场景,随机剔除 10% 到 70% 的预测记录,观察排名顺序是否会发生变化。
结果表明,Elo 体系下的排名稳定性始终优于传统 Avg Brier 方法的平均排名,前者波动幅度比后者低 1.4 至 1.8 倍;即便数据丢失比例高达 70%,Elo 排名的变动量也仅相当于 Avg Brier 得分排名波动的一半多。

另一个是收敛速度。
模拟一个新模型刚加入排行榜,看它的排名多久能稳定下来。Elo 在第 5.4 天就收敛到和 20 天后一致的排名,Avg Brier 要到第 14.5 天,快了 2.7 倍。

这些实验在告诉你,这套评测系统本身是可靠的,不是随便搭的架子。
不用答案来训练,那用什么?
评测的问题解决了,下一个问题是训练。
用历史事件训练预测模型,听起来很合理。把过去的新闻和当时的市场数据喂给模型,让它学习 " 在什么信息条件下,什么事件会发生 "。
就像学生们在备考期间,会做「历年真题」来找手感。
但实际做起来,有两道绕不过去的坎。
第一个是数据泄露。
互联网内容持续更新,你让模型去搜 "2024 年某事件的相关信息 ",它搜到的网页可能已经被后来的新闻报道修改过了。你以为是让模型 " 回到过去 ",其实它偷偷看了答案。
第二个是结果导向偏差。
现实世界充满随机性,一个逻辑严密的预测可能因为黑天鹅事件而落空,一个瞎蒙的猜测可能因为运气而命中。
如果只用最终结果做训练信号,模型会学到什么?它会学到了蒙对了就是好,蒙错了就是差。这跟训练一个赌徒没什么区别。
所以 Echo 提出的另一种解法,叫 Train-on-Future ——面向未来训练。
既然答案短期内没法拿到手,那就干脆不拿它当训练素材。改成让模型去面对那些还没出结果的真实问题,然后回过头来评判它的「推理过程」到底靠不靠谱。
所谓的推理过程,就是从模型接到问题开始,到最终给出判断中间走过的每一步,去哪里找资料、怎么梳理信息、最后怎么得出那个概率数字。
在这过程中,模型是特意去搜索那些一手的信息源头,还是随便看看新闻标题就完事?碰上互相矛盾的说法,会不会去自主核实?在给出概率的时候,是拿着过往的历史数据去推算出一个合理区间,还是一拍脑门随口编了个数?
这些动作可以被评价,不需要等答案揭晓。
但问题来了,如何来给「推理过程」打分?总不能靠感觉吧!
这确实是个棘手的问题。毕竟不同领域对 " 好推理 " 的定义完全不一样。
比如做宏观经济预测时,你得判断下个季度的 GDP 增速,这需要盯着央行的货币政策、PMI 的月度变化、失业率报告;但做加密货币领域的预测完全是另一套逻辑,你得看链上活跃地址数、监管机构的表态、市场恐慌贪婪指数。
这就造成了一个问题,面对不同的领域,想写一套通用的评分标准,几乎不可能。
所以 Echo 团队索性决定不靠人写,直接用数据来 " 搜 " 出评分标准。
这套机制叫 Automated Rubric Search,翻译过来就是 " 评分标准自动搜索 "。
大概流程是,先拿出一张草稿,列出几个可能的评分角度,比如 " 信息来源靠不靠谱 "" 碰到矛盾信息怎么处理 ",每项分成好、中、差三档。然后用这套标准去给各个模型的预测过程打分,排出一个名次。
排完之后,拿这个名次跟真正的 Elo 排名,放在一起比对,看看两个版本名次重合度。
重合度越高,说明这套评分标准越有说服力。
排行榜第一,要赢,更要稳
聊了这么多技术,现在,咱们再回到开头提到了的 General AI Prediction Leaderboard 上。
排行榜涵盖 12 个模型,7 个领域,活跃题目超过 1000 道。
但我觉得更值得看的不是排名本身,而是排名的稳定性。
Echo 团队做了一组 σ 参数敏感性测试:调整 Elo 框架中的一个参数,控制模型之间表现差距会被放大到什么程度,从 0.01 到 0.50 共 9 个取值,重新计算全部模型排名。EchoZ 在全部 9 个分组均保持第一,是唯一排名未发生任何波动的模型。

作为对比,GPT-5.2 的排名在第 2 到第 9 之间波动过 8 个位次。
这意味着什么?意味着它不是 " 刚好赢了一点点 ",而是在不同设定下都稳居第一,这比 " 赢了 " 更有说服力。
更有意思的是他们和人类交易者的对比。
EchoZ 与 Polymarket 人类市场共识的分层对比显示:政治与治理领域胜率 63.2%,长期预测(7 天以上)胜率 59.3%,市场不确定区间(人类信心 55%-70%)胜率 57.9%。
有个规律值得注意,人类预测者越犹豫的场景,如高不确定性、长时间跨度、复杂政治博弈,EchoZ 的优势反而越明显。
这恰恰暗示了模型在信息整合和概率校准上的系统性优势,恰好是人类直觉最不可靠的区域。
乍一听,60% 上下的准确率好像也没多厉害。可但凡对投资市场有点了解的人都清楚,在一个靠决策质量分高下的环境里,60% 这个数字意味着什么,只要胜率过半,长期下来就是正收益,而能达到六成,已经是相当可观的领先幅度了。
写在最后
UniPat 在官网上为 Echo 写了一段话:"The future is no longer a probability you guess — it is a parameter you integrate."
翻译过来大概是:未来不再是你猜测的概率,而是你可以集成的参数。
这句话挺有嚼头。
当预测从一种直觉判断变成一个可调用、可集成的参数,它能嵌入的决策场景会多得多,金融市场、算法交易、企业战略、供应链管理……比我们现在能想到的要多。
据他们披露,下一步计划是把 EchoZ-1.0 的预测能力封装成一套 AI-native Prediction API 对外开放。这套 API 支持自然语言输入,返回包含概率分布、分层证据链、反事实脆弱性评估和监测建议的完整结构化报告。
想象一下:你问 " 明年 Q1 全球锂矿价格走势 ",它不光给你一个概率,还告诉你这个判断是怎么来的,哪些证据支撑、哪些因素可能让判断失效、需要关注哪些监测指标。
这跟现在那些只会给你一个 " 涨 / 跌 " 结论的「预测工具」,完全不是一个东西。
当然,落地的效果还得等 API 正式上线才能验证。但至少从目前公开的信息来看,Echo 在做的事情是结构化的。它没有在较真自己模型准不准,而是在搭建一套 " 让人相信它准 " 的验证体系。这在预测 AI 这个领域,可能比 " 准 " 本身更重要。
毕竟,如果一个 AI 真的能预测未来,你总得知道它什么时候该信,什么时候不该信。


登录后才可以发布评论哦
打开小程序可以发布评论哦