作者error405 (流河=L)
看板C_Chat
标题[闲聊] 玩小游戏证明你比AI聪明 ARC-AGI-3
时间Mon Apr 6 18:01:54 2026
https://arcprize.org/arc-agi/3
按Play [Humans]开始玩
说明:
ARC-AGI-3 是 2026 年 3 月底才正式推出的互动式(agentic)基准测试,跟之前的
ARC-AGI-1/2 很不一样。它不是静态的格子拼图,而是让 AI 在完全陌生的环境中探索、
即时学习目标、建立世界模型、并有效率地行动。
人类在这些环境中几乎都能 100% 解决(通常几分钟内搞定)。
前沿大模型 的表现非常惨:Google Gemini 3.1 Pro Preview:最高约 0.37%
OpenAI GPT-5.4 High:约 0.26%
Anthropic Claude Opus 4.6 Max:约 0.25%
xAI Grok 4.20(Reasoning 模式):0%
整体来说,目前所有公开测试的前沿 AI 分数都低於 1%,远远达不到「破关」的程度。
公开的 agent 尝试(非官方大模型 leaderboard)在 ARC Prize 官方的 unverified
live leaderboard(开放给大家提交 agent 的排行),目前最好的开源/自制 agent 分
数也只有 12.58%(StochasticGoose 团队,完成 18 个 levels),其他大多在 3~8% 左
右。这些是专门为 ARC-AGI-3 设计的 agent,不是纯靠大模型。
ARC Prize 2026 竞赛现况总奖金高达 200 万美元,其中 ARC-AGI-3 轨道的 Grand
Prize(100%) 是 70 万美元。
比赛刚开始没多久(2026/3/25 启动),还有好几个月才到 milestone 和最终截止,目
前还在早期阶段,没有人接近 100%。
之前 2025 年的 ARC Prize(主要用 ARC-AGI-2)最高也只到 24% 左右,Grand Prize
同样没人领走。
简单说,ARC-AGI-3 现在是目前最「未饱和」的 AGI 相关基准之一,专门用来测量 AI
在全新情境下的流体智能(fluid intelligence)和学习效率,目前 AI 跟人类的差距还
非常明显。
--
grok整理
另外的参考说明:
https://www.ithome.com.tw/news/174698
我也过了几个小游戏确定了自己还能被称为人类
AI是不懂自主判断游戏目的游戏机制的 至少现在还是啦
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.230.45 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/C_Chat/M.1775469719.A.B1D.html
※ 编辑: error405 (114.36.230.45 台湾), 04/06/2026 18:19:13
1F:推 uohZemllac: 还挺容易的 不知道语言模型是卡在什麽地方 04/06 18:24
2F:推 Vivian1913: 应该是语言模型没有真正的形式和非形式逻辑能力吧 04/06 18:30
※ error405:转录至看板 AI_Art 04/06 18:34
※ error405:转录至看板 Little-Games 04/06 18:35
3F:推 qd6590: YA 我比AI还聪明 04/06 19:06