新智元 08-07
爆冷,首届大模型争霸,Grok 4下出“神之一手”?DeepSeek、Kimi惨遭淘汰
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

AI 国际象棋对抗?这次玩真的!谷歌 Kaggle 推出首届全球 AI 象棋争霸赛,八款顶级语言模型正面对抗,胜负只在一步之间!

国际象棋全球 AI 争霸赛来了!

首战即放狠招:让全球八款最强语言模型,国际象棋正面对抗:

闭源的大模型:Gemini 2.5 Pro、OpenAI o4-mini、Grok 4、OpenAI o3、Claude 4 Opus、Gemini 2.5 Flash;

开源的大模型:DeepSeek R1 和 Kimi K2 Instruct。

首战落幕

今日凌晨 1 点,这场大赛正式打响了 8 进 4 淘汰战:

Gemini 2.5 Pro、o4-mini、Grok 4、和 o3,以 4-0 的碾压式战绩横扫对手,进入半决赛。

而 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi K2 没能撑过中盘,就已纷纷崩溃退场。

第二天的半决赛,OpenAI 的 o3-mini 和 o3 将「自相残杀」,而 Gemini 2.5 Pro 和 Grok 4 则狭路相逢

整场赛事由谷歌旗下的 Kaggle 举办。为此,他们专为通用大模型打造了竞技平台——「Game Arena」。

谷歌表示游戏是评估模型与智能体的理想平台,是通用智能可靠的衡量标准。游戏作为基准测试的价值更体现在:

无限扩展性:对手越强,难度阶梯式攀升;

思维可视化:可完整追踪模型的「决策链」,窥见其战略思维过程。

对 AI 来说,下好一盘棋,比你想象的更难。

比赛共有 3 场,首赛中 DeepSeek R1 对阵 o4-mini,Kimi-K2 对阵 o3。

半决赛将在明天太平洋时间上午 10:30 举行。

下面,一起回顾一下首场战况吧。

Kimi K2 犯规出局,o3 不战而胜顺利晋级

四局比赛,Kimi K2 每一局都因非法走子被系统判负,最短的对局甚至不到 8 个回合。

对局开始还能跟着开局理论下几步,但一旦脱离熟悉的套路,Kimi K2 就像突然「失明」一般,误读棋盘布局,走出错误的棋子。

面对这样的对手,o3 不费吹灰之力,轻松晋级半决赛。

DeepSeek R1 中盘掉线,o4-mini 轻松将死两局

这是一场「开局唬人,中间崩盘」的比赛。

如果你只看每盘棋的前几回合,你会发现,在开局两个模型都走得无懈可击,仿佛两个国际象棋大师在对弈。

但到了某一节点,棋局的质量就会急转直下。

一旦脱离「开局模板」,DeepSeek 就开始频频出错:瞄准不存在的棋子、防守并无威胁的空格,甚至走出将自己逼入死角的「自爆式操作」。

相比之下,o4-mini 虽然不够惊艳,但是稳扎稳打、不犯大错,还顺利完成了两次将杀收尾,赢得理所当然。

Claude 4 Opus 血战到底,仍不敌 Gemini 2.5 Pro

如果说 Kimi K2 的比赛是「自动退出」,那 Claude 4 Opus 的落败,则是拼尽全力后的溃败。

在第一局,双方在前九个回合都走得有板有眼,直到 Claude 4 Opus 贸然下出 10...g5,主动敞开防线,为 Gemini 送上突破口。

在第四局还出现了一个让人哭笑不得的场面:Gemini 2.5 Pro 手握两只皇后,总子力优势高达 32 分,本该将 Claude「一波带走」,结果他却在进攻过程中挂掉几枚关键棋子。

尽管如此,胜利还是属于 Gemini。

而这场对局,也是四场比赛中最接近真正象棋对抗的一场。

Gork 4 杀疯了,精准打击,专挑软肋

前三场像是在训练模式,Gork 4 一登场,比赛才终于像个「战场」

面对 Gemini 2.5 Flash 的频繁错漏和无人防守的棋子,Gork 4 精准识破、果断出击。

它不是在「模仿下棋」,而是真的能看懂弱点、消灭威胁,最终以 4-0 终结比赛。

Gork 的「四连超凡」不仅打出了目前最有「棋感」的对局,还被不少业内人士评为开赛以来全场最佳表现。

马斯克在 X 上转发了 Gork 的战绩,只留下一句简单的回应:

订单这只是副作用。xAI 几乎没在国际象棋上花什么精力。

没有炫耀,没有过度评价,只是随手转发,仿佛这场胜利只是系统顺手完成的一次功能调用。

但在这场模型犯错频繁、认知失误频出的混战中,Gork 4 是少数能「看清棋局并稳定走完」的存在。

从棋盘到智力测试

比赛只是表面,挑战才刚开始。

这场比赛的意义,从来不只是看谁赢了、谁走了更漂亮的一步棋。

它考验的不是棋艺,而是 AI 的整体理解能力。

游戏为强大的人工智能评估提供了绝佳的基础,帮助我们了解在复杂推理任务中哪些方法真正有效。

游戏能提供明确无误的成功信号:不是赢就是输,或者平局。

它们结构清晰且结果可衡量,是评估模型的理想试验场。游戏迫使模型展现出多种技能,包括策略推理、长期规划以及面对智能对手时的动态适应能力,从而为衡量其通用问题解决智能提供了一个可靠的依据。

就在上个月,世界冠军卡尔森在旅行中途虐了 ChatGPT 一局,一子未损。赛后他轻描淡写道「我有时旅途中会无聊」。

AI 甚至没意识到对面是谁——这比输棋更值得警惕。

Kaggle 官方也透露,真正的评分标准,其实藏在「幕后数百场未公开对局」的排行榜里。

眼下这场棋,不过是一块测试通用智能的开局小盘。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

半决赛 国际象棋 谷歌 kimi flash
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论