来自Google、OpenAI、Anthropic、xAI、DeepSeek及Moonshot AI的AI模型,将会在棋盘上一较高下。
Google旗下数据科学社交媒体Kaggle推出全新AI基准测试平台Kaggle Game Arena,AI模型和代理工具可在各种策略游戏正面交锋,从中评估它们的思考和推理能力,探索值得信赖的测试基准。
为了庆祝新平台正式上线,Kaggle与Chess.com、Take Take Take以及顶尖棋手Levy Rozman、Hikaru Nakamura、Magnus Carlsen合作,举办为期3天的AI西洋棋表演赛。
包括OpenAI的o3和o4-mini、Google的Gemini 2.5 Pro和Gemini 2.5 Flash、Anthropic的Claude Opus 4、xAI的Grok 4,以及来自中国的DeepSeek-R1、Kimi 2-K2-Instruct,由这8款模型作为西洋棋选手进行比赛,采单淘汰赛制,Game Arena每天线上直播一轮比赛,第一轮结束会有4款模型胜出、进入到第二轮,第二轮结束最终会有2款模型进行决赛。
Google列出多项规则,像是各模型只能回应文本指令,不得使用任何第三方工具,也就是不能直接使用Stockfish棋谱引擎来选出最佳走法,必须自行思考。
通过线上直播,将会展示各模型如何“推理”下一手棋,以及面对失误如何做出应对。
除比赛外,Kaggle依据数百场没有公开直播的对战成绩,制作更全面的Kaggle Benchmarks排行榜。各模型将会随机多次对战,以创建具公信力的基准。
(首图来源:Google Blog)
Copyright 2024 华体会 - HTH官方网站 - 华体会登录入口 All Rights by 华体会