作者Bugquan (靠近边缘)
看板Math
标题[其他] First Proof 数学难题测试结果
时间Sat Feb 14 16:39:28 2026
https://1stproof.org/#about
https://arxiv.org/abs/2602.05192
上礼拜一群顶尖数学家在 arXiv 上发了一篇叫做 First Proof 的文章,
作者包含:
Martin Hairer(Fields Medal)
Daniel Spielman
Nikhil Srivastava
Lauren Williams
等十几位不同领域的学者。
所谓「First Proof」(初次发酵),取自烘焙术语,意指在将面团分割塑形前,先让整团
面团进行关键的发酵。这个专案就像是让这些难题在数学界先发酵,以便发展出一套更客观
、真实的方法来评估 AI 的能力
这不是一般 benchmark,而是他们自己研究过程中自然产生、但还没公开发表的研究级数学
问题。
全部都是研究论文等级。
而且每题都满足:
可以在五页内证完
但不是 trivial lemma
目前网路上找不到答案(避免资料污染)
他们测的是:
GPT-5.2 Pro
Gemini 3.0 Deep Think
而且原则上只给一次机会,不反覆提示优化。
报告重点整理
一、 结论:
很会装懂,但容易幻觉
对於非专家来说,AI 生成的证明看起来非常专业,很难分辨对错。AI 的表现呈现两极化:
在需要结构化计算的领域表现出色,但在需要严谨逻辑推导的领域很容易产生「幻觉」(Ha
llucinations)。
二、 AI 的典型翻车案例:
1. 瞎掰文献与论证 (Hallucinations)
在 Andrew Blumberg 出的第 5 题(切片过滤问题),AI 为了完成证明,直接编造了不存
在的引理,甚至虚构了一整篇论文来支持自己的论点。
2. 偷换概念与无视规则
Lauren Williams 出的第 3 题(马尔可夫链),题目特别限制「不能使用平凡解(trivial
solution)」。结果 AI 给出的最佳解就是用了题目明确禁止的 Metropolis-Hastings 演
算法。AI 很倾向将复杂难题自己替换成已解决的简易版。
3. 引用错误的草稿
Fields 奖得主 Martin Hairer 出的第 1 题 (\Phi^3_4 测度)。AI 引用了作者网站上一份
未发表的粗略草稿,宣称里面有详细证明。但 AI 根据那个草稿推导出的结论(测度等价)
甚至是错的(正确答案是互为奇异/mutually singular)。
三、 AI 的高光时刻 (令人惊艳的突破)
有两题 AI 的表现吓到了出题者:
1. 第 9 题:代数关系 (Joe Kileel)
这题要求构造特定的多项式映射。AI (NoInternet 版本) 给出了一个「本质上正确」的答
案!虽然 AI 的证明过程跟作者不同,但结论是正确的。
2. 第 10 题:张量分解优化 (Tamara Kolda) —— 全场 MVP
这题是关於非对齐张量的 CP 分解。出题者 Tamara Kolda 表示,AI 给出的解答是正确的
,而且比她自己提供的原始解答更好!AI 提出了一种降低计算复杂度的方法,让人类作者
承认「AI 的洞察力事後看来很明显,但我当时没想到」。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 27.52.164.248 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Math/M.1771058376.A.273.html
1F:推 ginstein : 符合 LLM 特性,DS 应该特性类似但推测比例好一点 02/19 22:48