作者skyhawkptt (skyhawk)
看板chess
标题[西洋] 8大AI西洋棋大乱斗:OpenAI o3 横扫冠军,Grok 4 四战皆败成为话题焦点
时间Sat Aug 16 01:09:29 2025
8大AI西洋棋大乱斗:OpenAI o3 横扫冠军,Grok 4 四战皆败成为话题焦点
T邦克
https://tinyurl.com/27x28dtc
https://tinyurl.com/2b3akrlb
这场比赛由 Google 所属的 Kaggle Game Arena 主办,平台设於 Chess.com,邀请多家
语言模型参赛。比赛规定所有参赛模型不得接受任何针对西洋棋的训练,只能透过自学、
蒐集网路资料进行对弈能力推理,是一场检验泛用 AI 智能「从零学会策略」的测验场。
参赛阵容:八大模型角逐,Grok 一度看涨
本届赛事集结了 OpenAI o3、o4 mini、Google Gemini 2.5 Pro 与 Flash、Anthropic
Claude Opus、Moonshot DeepSeek R1、Kimi K2 以及 xAI 的 Grok 4 等八大主流语言模
型。
Grok 4 在淘汰赛一路过关斩将,击败 Google 的 Gemini 双版本晋级决赛。马斯克也曾
在 X(原 Twitter)上强调:「我们几乎没在西洋棋上下功夫就进决赛,已经很惊人。」
然而决赛中,OpenAI o3 表现更为压倒性,不仅 4:0 完封 Grok,前三场也皆以同比分击
败对手,包括自家 o4 mini。
https://tinyurl.com/22nhwa9a
棋王与大师怎麽看?「会吃子但不会赢棋」
世界排名第一的西洋棋手芒努斯.卡尔森(Magnus Carlsen)在评论中指出,这些 AI 模
型大多只有 800~1200 ELO 的实力,「Grok 就像只会理论、不会实战的新手。」他形容
:「他们像会买菜却不会煮饭的厨师。」
国际西洋棋大师中村光(Hikaru Nakamura)则指出:「Grok 在对局中犯了很多错,而
o3 的策略更稳定。」这也是最终比分如此悬殊的原因。
https://tinyurl.com/22d4yx2h
这场比的不是下棋,而是 AI 的学习力
这次比赛不同於 AlphaGo、Deep Blue 那类「针对某棋种专训的模型」,而是测试语言模
型能否透过自学掌握陌生游戏规则,进而运用推理与逻辑进行策略性游戏操作。
这场比赛展示的,不只是 AI 是否能「会玩西洋棋」,而是「能否学会西洋棋」,从语言
任务进阶到逻辑策略任务,呈现泛用人工智慧(AGI)重要发展指标。
泛用 AI 的关键实验场
语言模型若要真正走向通用智能,必须具备跨知识、跨技能的即学即用能力。这场由
Kaggle Game Arena 主办、在 Chess.com 平台上进行的赛事,正是一次对 AGI 潜力的
测试。
虽然目前表现还在入门程度,但 OpenAI o3 展现出高稳定度与策略整合能力,为未来语
言模型走入游戏、推理、模拟等高层次任务奠定了基础。
----------------------------------------------------------------
LLM西洋棋赛落幕:OpenAI o3 夺冠,xAI Grok 4 没赢一盘被完封
https://tinyurl.com/24zgv8yp
Kaggle AI 国际西洋棋赛落幕,未经专门训练的 o3 以 4-0 完封击败 Grok 4,显现推理
能力极强。
近日 Google 旗下 Kaggle 举办的「人工智慧西洋棋表演赛」8 月 14 日公布结果,
OpenAI 通用大型语言模型 o3 以 4:0 横扫 xAI 的 Grok 4,夺下冠军,并成为首个
在未经专门训练下完封对手的 LLM。
赛事共 8 组 AI 参与,为期三天,以淘汰赛决胜。
语言模型比赛看点
根据 OpenTools.ai 报导,o3 在一路晋级过程中连续三场交出 4:0的完封成绩,准决赛更
淘汰自家轻量版 o4 mini。
相较之下,Grok 4 常在早盘一度领先,却於赛事最末多次「丢后」(牺牲行动力最强的
Queen)。西洋棋特级大师 Hikaru Nakamura 评价 o3 「错误极少」,并指 Grok 4 常
出现战术自爆。
前世界冠军 Magnus Carlsen 形容 Grok 的棋风:
像在看小孩下棋。
他估算 Grok 的 Elo 约 800,o3 约 1200,远低於顶尖人类或专精型棋类 AI。
-----------------------------------------------------
Elo:一种专业分制度(英语:Elo rating system)是指由匈牙利裔美国物理学家Arpad
Elo创建的一个衡量各类对弈活动水准的评价方法,是当今对弈水准评估公认的权威标准
,且被广泛用於西洋棋、围棋、足球、篮球等运动。西洋棋 Elo 最高分数由 Magnus
Carlsen 创下 2882 分。
-------------------------------------------------------
通用型 AI 与专精型 AI 角力
Stockfish 这类专精型系统靠深度搜寻与领域评分,长期坐拥约 3644 Elo。通用型 LLM
则透过大规模跨领域语料学习,下棋仅是推理能力的延伸。虽然 o3 能击败 Grok 4,但
今年稍早仍不敌 Stockfish,显示通用模型在棋艺游戏推理的稳定性与深度计算上仍有差
距。
日 Google 旗下 Kaggle 举办的「人工智慧西洋棋表演赛」8 月 14 日公布结果,
OpenAI 通用大型语言模型 o3 以 4
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.161.14.187 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/chess/M.1755277772.A.140.html
※ 编辑: skyhawkptt (1.161.14.187 台湾), 08/16/2025 01:19:11