AI基准测试平台Kaggle Game Arena登场，顶尖模型首战西洋棋

新闻中心

时间:2025-11-13

来自Google、OpenAI、Anthropic、xAI、DeepSeek及Moonshot AI的AI模型，将会在棋盘上一较高下。

Google旗下数据科学社交媒体Kaggle推出全新AI基准测试平台Kaggle Game Arena，AI模型和代理工具可在各种策略游戏正面交锋，从中评估它们的思考和推理能力，探索值得信赖的测试基准。

为了庆祝新平台正式上线，Kaggle与Chess.com、Take Take Take以及顶尖棋手Levy Rozman、Hikaru Nakamura、Magnus Carlsen合作，举办为期3天的AI西洋棋表演赛。

包括OpenAI的o3和o4-mini、Google的Gemini 2.5 Pro和Gemini 2.5 Flash、Anthropic的Claude Opus 4、xAI的Grok 4，以及来自中国的DeepSeek-R1、Kimi 2-K2-Instruct，由这8款模型作为西洋棋选手进行比赛，采单淘汰赛制，Game Arena每天线上直播一轮比赛，第一轮结束会有4款模型胜出、进入到第二轮，第二轮结束最终会有2款模型进行决赛。

Googl, yid

Google列出多项规则，像是各模型只能回应文本指令，不得使用任何第三方工具，也就是不能直接使用Stockfish棋谱引擎来选出最佳走法，必须自行思考。

通过线上直播，将会展示各模型如何“推理”下一手棋，以及面对失误如何做出应对。

除比赛外，Kaggle依据数百场没有公开直播的对战成绩，制作更全面的Kaggle Benchmarks排行榜。各模型将会随机多次对战，以创建具公信力的基准。

（首图来源：Google Blog）

上一篇 : 中外拳手龙胜争锋

下一篇 : 17轮8分，中超后6名中只有海牛没换帅，新外援2场0球