AI 国际象棋对抗?这次玩真的!谷歌 Kaggle 推出首届全球 AI 象棋争霸赛,八款顶级语言模型正面对抗,胜负只在一步之间!
国际象棋全球 AI 争霸赛来了!
首战即放狠招:让全球八款最强语言模型,国际象棋正面对抗:
闭源的大模型:Gemini 2.5 Pro、OpenAI o4-mini、Grok 4、OpenAI o3、Claude 4 Opus、Gemini 2.5 Flash;
开源的大模型:DeepSeek R1 和 Kimi K2 Instruct。
今日凌晨 1 点,这场大赛正式打响了 8 进 4 淘汰战:
Gemini 2.5 Pro、o4-mini、Grok 4、和 o3,以 4-0 的碾压式战绩横扫对手,进入半决赛。
而 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi K2 没能撑过中盘,就已纷纷崩溃退场。
第二天的半决赛,OpenAI 的 o3-mini 和 o3 将「自相残杀」,而 Gemini 2.5 Pro 和 Grok 4 则狭路相逢
整场赛事由谷歌旗下的 Kaggle 举办。为此,他们专为通用大模型打造了竞技平台——「Game Arena」。
谷歌表示游戏是评估模型与智能体的理想平台,是通用智能可靠的衡量标准。游戏作为基准测试的价值更体现在:
无限扩展性:对手越强,难度阶梯式攀升;
思维可视化:可完整追踪模型的「决策链」,窥见其战略思维过程。
对 AI 来说,下好一盘棋,比你想象的更难。
比赛共有 3 场,首赛中 DeepSeek R1 对阵 o4-mini,Kimi-K2 对阵 o3。
半决赛将在明天太平洋时间上午 10:30 举行。
下面,一起回顾一下首场战况吧。
四局比赛,Kimi K2 每一局都因非法走子被系统判负,最短的对局甚至不到 8 个回合。
对局开始还能跟着开局理论下几步,但一旦脱离熟悉的套路,Kimi K2 就像突然「失明」一般,误读棋盘布局,走出错误的棋子。
面对这样的对手,o3 不费吹灰之力,轻松晋级半决赛。
这是一场「开局唬人,中间崩盘」的比赛。
如果你只看每盘棋的前几回合,你会发现,在开局两个模型都走得无懈可击,仿佛两个国际象棋大师在对弈。
但到了某一节点,棋局的质量就会急转直下。
一旦脱离「开局模板」,DeepSeek 就开始频频出错:瞄准不存在的棋子、防守并无威胁的空格,甚至走出将自己逼入死角的「自爆式操作」。
相比之下,o4-mini 虽然不够惊艳,但是稳扎稳打、不犯大错,还顺利完成了两次将杀收尾,赢得理所当然。
如果说 Kimi K2 的比赛是「自动退出」,那 Claude 4 Opus 的落败,则是拼尽全力后的溃败。
在第一局,双方在前九个回合都走得有板有眼,直到 Claude 4 Opus 贸然下出 10...g5,主动敞开防线,为 Gemini 送上突破口。
在第四局还出现了一个让人哭笑不得的场面:Gemini 2.5 Pro 手握两只皇后,总子力优势高达 32 分,本该将 Claude「一波带走」,结果他却在进攻过程中挂掉几枚关键棋子。
尽管如此,胜利还是属于 Gemini。
而这场对局,也是四场比赛中最接近真正象棋对抗的一场。
前三场像是在训练模式,Gork 4 一登场,比赛才终于像个「战场」
面对 Gemini 2.5 Flash 的频繁错漏和无人防守的棋子,Gork 4 精准识破、果断出击。
它不是在「模仿下棋」,而是真的能看懂弱点、消灭威胁,最终以 4-0 终结比赛。
Gork 的「四连超凡」不仅打出了目前最有「棋感」的对局,还被不少业内人士评为开赛以来全场最佳表现。
马斯克在 X 上转发了 Gork 的战绩,只留下一句简单的回应:
订单这只是副作用。xAI 几乎没在国际象棋上花什么精力。
没有炫耀,没有过度评价,只是随手转发,仿佛这场胜利只是系统顺手完成的一次功能调用。
但在这场模型犯错频繁、认知失误频出的混战中,Gork 4 是少数能「看清棋局并稳定走完」的存在。
比赛只是表面,挑战才刚开始。
这场比赛的意义,从来不只是看谁赢了、谁走了更漂亮的一步棋。
它考验的不是棋艺,而是 AI 的整体理解能力。
游戏为强大的人工智能评估提供了绝佳的基础,帮助我们了解在复杂推理任务中哪些方法真正有效。
游戏能提供明确无误的成功信号:不是赢就是输,或者平局。
它们结构清晰且结果可衡量,是评估模型的理想试验场。游戏迫使模型展现出多种技能,包括策略推理、长期规划以及面对智能对手时的动态适应能力,从而为衡量其通用问题解决智能提供了一个可靠的依据。
就在上个月,世界冠军卡尔森在旅行中途虐了 ChatGPT 一局,一子未损。赛后他轻描淡写道「我有时旅途中会无聊」。
AI 甚至没意识到对面是谁——这比输棋更值得警惕。
Kaggle 官方也透露,真正的评分标准,其实藏在「幕后数百场未公开对局」的排行榜里。
眼下这场棋,不过是一块测试通用智能的开局小盘。
登录后才可以发布评论哦
打开小程序可以发布评论哦