作者Bugquan (靠近边缘)
看板Math
标题[其他] Semi-Autonomous Mathematics Discovery
时间Mon Feb 2 16:19:46 2026
Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdos Pro
blems
https://arxiv.org/abs/2601.22401
最近 Google DeepMind 和多所大学合作发表了一篇论文,他们拿 Gemini 的数学特化版模
型(代号 Aletheia),去挑战数学界着名的「Erdos Problems」。
https://www.erdosproblems.com/
他们流程大概是:
700 个开放问题
↓ Aletheia AI 代理
200 个候选解决方案
↓ 初步人工筛选
63 个技术上正确的响应
↓ 专家数学家评估
13 个有意义的正确响应(6.5%)
剩下的那 50 题虽然逻辑没错,但大多是因为题目定义不清或钻漏洞,导致 AI 给出了正确
但无聊的废话解答。
也就是说:
‧68% 是根本错的
‧31% 技术上对,但多半解错版本或解了没意义的东西
‧真正对到 Erdos 原意的,只有 6.5%
这 13 个成功的案例可以分成几类:
‧自主解决 (Autonomous):有 2 题(Erdos-652, 1051)是 AI 真的提出了解法。其中 1
051 题 AI 用了级数尾部和 Mahler 判别法,被认为是比较有水准的发挥。
‧文献考古 (Literature Identification):有 5 题其实人类早就解出来了,只是因为年
代久远或太冷门,资料库没更新。AI 的功劳是把它们从旧论文堆里挖出来,告诉大家这题
已经被解了。
‧重新发现 (Independent Rediscovery):有 3 题 AI 自己导出了证明,但後来发现人类
其实也解过。
‧部分解决:有 3 题解出了多小题组中的其中一题。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 39.14.0.118 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Math/M.1770020389.A.2CD.html
※ 编辑: Bugquan (39.14.0.118 台湾), 02/02/2026 16:20:24
※ 编辑: Bugquan (39.14.0.118 台湾), 02/02/2026 16:40:37
※ 编辑: Bugquan (39.14.0.118 台湾), 02/02/2026 16:49:37
1F:推 arrenwu : 这样看起来AI对於数学研究满有用的啊 02/02 17:36