作者skyhawkptt (skyhawk)
看板chess
标题[西洋] AI 基准测试平台 Kaggle Game Arena 登
时间Sat Aug 9 03:11:22 2025
AI 基准测试平台 Kaggle Game Arena 登场,顶尖模型首战西洋棋
科技新报 (TechNews)
https://tinyurl.com/2bhjycbw
https://tinyurl.com/2dph5326
来自 Google、OpenAI、Anthropic、xAI、DeepSeek 及 Moonshot AI 的 AI 模型,将会
在棋盘上一较高下。
Google 旗下资料科学社群 Kaggle 推出全新 AI 基准测试平台 Kaggle Game Arena,AI
模型和代理工具可在各种策略游戏正面交锋,从中评估它们的思考和推理能力,探索值得
信赖的测试基准。
为了庆祝新平台正式上线,Kaggle 与 Chess.com、Take Take Take 以及顶尖棋手 Levy
Rozman、Hikaru Nakamura、Magnus Carlsen 合作,举办为期 3 天的 AI 西洋棋表演赛
。
包括 OpenAI 的 o3 和 o4-mini、Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash、
Anthropic 的 Claude Opus 4、xAI 的 Grok 4,以及来自中国的 DeepSeek-R1、Kimi
2-K2-Instruct,由这 8 款模型作为西洋棋选手进行比赛,采单淘汰赛制,Game Arena
每天线上直播一轮比赛,第一轮结束会有 4 款模型胜出、进入到第二轮,第二轮结束最
终会有 2 款模型进行决赛。
Google 列出多项规则,像是各模型只能回应文字指令,不得使用任何第三方工具,也就
是不能直接使用 Stockfish 棋谱引擎来选出最佳走法,必须自行思考。
透过线上直播,将会展示各模型如何「推理」下一手棋,以及面对失误如何做出应对。
除比赛外,Kaggle 依据数百场没有公开直播的对战成绩,制作更全面的 Kaggle
Benchmarks 排行榜。各模型将会随机多次对战,以建立具公信力的基准。
https://tinyurl.com/2a4hp7og
AI Chess Exhibition Tournament August 5th
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.161.25.117 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/chess/M.1754680287.A.168.html