[西洋] 8大AI西洋棋大乱斗：OpenAI o3 横扫冠军，Grok 4 四战皆败成为话题焦点

时间Sat Aug 16 01:09:29 2025

8大AI西洋棋大乱斗：OpenAI o3 横扫冠军，Grok 4 四战皆败成为话题焦点 T邦克 https://tinyurl.com/27x28dtc https://tinyurl.com/2b3akrlb 这场比赛由 Google 所属的 Kaggle Game Arena 主办，平台设於 Chess.com，邀请多家语言模型参赛。比赛规定所有参赛模型不得接受任何针对西洋棋的训练，只能透过自学、蒐集网路资料进行对弈能力推理，是一场检验泛用 AI 智能「从零学会策略」的测验场。参赛阵容：八大模型角逐，Grok 一度看涨本届赛事集结了 OpenAI o3、o4 mini、Google Gemini 2.5 Pro 与 Flash、Anthropic Claude Opus、Moonshot DeepSeek R1、Kimi K2 以及 xAI 的 Grok 4 等八大主流语言模型。 Grok 4 在淘汰赛一路过关斩将，击败 Google 的 Gemini 双版本晋级决赛。马斯克也曾在 X（原 Twitter）上强调：「我们几乎没在西洋棋上下功夫就进决赛，已经很惊人。」然而决赛中，OpenAI o3 表现更为压倒性，不仅 4:0 完封 Grok，前三场也皆以同比分击败对手，包括自家 o4 mini。 https://tinyurl.com/22nhwa9a 棋王与大师怎麽看？「会吃子但不会赢棋」世界排名第一的西洋棋手芒努斯．卡尔森（Magnus Carlsen）在评论中指出，这些 AI 模型大多只有 800~1200 ELO 的实力，「Grok 就像只会理论、不会实战的新手。」他形容：「他们像会买菜却不会煮饭的厨师。」国际西洋棋大师中村光（Hikaru Nakamura）则指出：「Grok 在对局中犯了很多错，而 o3 的策略更稳定。」这也是最终比分如此悬殊的原因。 https://tinyurl.com/22d4yx2h 这场比的不是下棋，而是 AI 的学习力这次比赛不同於 AlphaGo、Deep Blue 那类「针对某棋种专训的模型」，而是测试语言模型能否透过自学掌握陌生游戏规则，进而运用推理与逻辑进行策略性游戏操作。这场比赛展示的，不只是 AI 是否能「会玩西洋棋」，而是「能否学会西洋棋」，从语言任务进阶到逻辑策略任务，呈现泛用人工智慧（AGI）重要发展指标。泛用 AI 的关键实验场语言模型若要真正走向通用智能，必须具备跨知识、跨技能的即学即用能力。这场由 Kaggle Game Arena 主办、在 Chess.com 平台上进行的赛事，正是一次对 AGI 潜力的测试。虽然目前表现还在入门程度，但 OpenAI o3 展现出高稳定度与策略整合能力，为未来语言模型走入游戏、推理、模拟等高层次任务奠定了基础。 ---------------------------------------------------------------- LLM西洋棋赛落幕：OpenAI o3 夺冠，xAI Grok 4 没赢一盘被完封 https://tinyurl.com/24zgv8yp Kaggle AI 国际西洋棋赛落幕，未经专门训练的 o3 以 4-0 完封击败 Grok 4，显现推理能力极强。近日 Google 旗下 Kaggle 举办的「人工智慧西洋棋表演赛」8 月 14 日公布结果， OpenAI 通用大型语言模型 o3 以 4:0 横扫 xAI 的 Grok 4，夺下冠军，并成为首个在未经专门训练下完封对手的 LLM。赛事共 8 组 AI 参与，为期三天，以淘汰赛决胜。语言模型比赛看点根据 OpenTools.ai 报导，o3 在一路晋级过程中连续三场交出 4:0的完封成绩，准决赛更淘汰自家轻量版 o4 mini。相较之下，Grok 4 常在早盘一度领先，却於赛事最末多次「丢后」（牺牲行动力最强的 Queen）。西洋棋特级大师 Hikaru Nakamura 评价 o3 「错误极少」，并指 Grok 4 常出现战术自爆。前世界冠军 Magnus Carlsen 形容 Grok 的棋风：像在看小孩下棋。他估算 Grok 的 Elo 约 800，o3 约 1200，远低於顶尖人类或专精型棋类 AI。 ----------------------------------------------------- Elo：一种专业分制度（英语：Elo rating system）是指由匈牙利裔美国物理学家Arpad Elo创建的一个衡量各类对弈活动水准的评价方法，是当今对弈水准评估公认的权威标准，且被广泛用於西洋棋、围棋、足球、篮球等运动。西洋棋 Elo 最高分数由 Magnus Carlsen 创下 2882 分。 ------------------------------------------------------- 通用型 AI 与专精型 AI 角力 Stockfish 这类专精型系统靠深度搜寻与领域评分，长期坐拥约 3644 Elo。通用型 LLM 则透过大规模跨领域语料学习，下棋仅是推理能力的延伸。虽然 o3 能击败 Grok 4，但今年稍早仍不敌 Stockfish，显示通用模型在棋艺游戏推理的稳定性与深度计算上仍有差距。日 Google 旗下 Kaggle 举办的「人工智慧西洋棋表演赛」8 月 14 日公布结果， OpenAI 通用大型语言模型 o3 以 4 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.161.14.187 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/chess/M.1755277772.A.140.html ※ 编辑: skyhawkptt (1.161.14.187 台湾), 08/16/2025 01:19:11

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

chess 板

[西洋] 8大AI西洋棋大乱斗：OpenAI o3 横扫冠军，Grok 4 四战皆败成为话题焦点

热门看板

赞助商连结