[其他] First Proof 数学难题测试结果

时间Sat Feb 14 16:39:28 2026

https://1stproof.org/#about https://arxiv.org/abs/2602.05192 上礼拜一群顶尖数学家在 arXiv 上发了一篇叫做 First Proof 的文章，作者包含： Martin Hairer（Fields Medal） Daniel Spielman Nikhil Srivastava Lauren Williams 等十几位不同领域的学者。所谓「First Proof」（初次发酵），取自烘焙术语，意指在将面团分割塑形前，先让整团面团进行关键的发酵。这个专案就像是让这些难题在数学界先发酵，以便发展出一套更客观、真实的方法来评估 AI 的能力这不是一般 benchmark，而是他们自己研究过程中自然产生、但还没公开发表的研究级数学问题。全部都是研究论文等级。而且每题都满足：可以在五页内证完但不是 trivial lemma 目前网路上找不到答案（避免资料污染）他们测的是： GPT-5.2 Pro Gemini 3.0 Deep Think 而且原则上只给一次机会，不反覆提示优化。报告重点整理一、结论：很会装懂，但容易幻觉对於非专家来说，AI 生成的证明看起来非常专业，很难分辨对错。AI 的表现呈现两极化：在需要结构化计算的领域表现出色，但在需要严谨逻辑推导的领域很容易产生「幻觉」（Ha llucinations）。二、 AI 的典型翻车案例： 1. 瞎掰文献与论证 (Hallucinations) 在 Andrew Blumberg 出的第 5 题（切片过滤问题），AI 为了完成证明，直接编造了不存在的引理，甚至虚构了一整篇论文来支持自己的论点。 2. 偷换概念与无视规则 Lauren Williams 出的第 3 题（马尔可夫链），题目特别限制「不能使用平凡解（trivial solution）」。结果 AI 给出的最佳解就是用了题目明确禁止的 Metropolis-Hastings 演算法。AI 很倾向将复杂难题自己替换成已解决的简易版。 3. 引用错误的草稿 Fields 奖得主 Martin Hairer 出的第 1 题 (\Phi^3_4 测度)。AI 引用了作者网站上一份未发表的粗略草稿，宣称里面有详细证明。但 AI 根据那个草稿推导出的结论（测度等价）甚至是错的（正确答案是互为奇异/mutually singular）。三、 AI 的高光时刻 (令人惊艳的突破) 有两题 AI 的表现吓到了出题者： 1. 第 9 题：代数关系 (Joe Kileel) 这题要求构造特定的多项式映射。AI (NoInternet 版本) 给出了一个「本质上正确」的答案！虽然 AI 的证明过程跟作者不同，但结论是正确的。 2. 第 10 题：张量分解优化 (Tamara Kolda) —— 全场 MVP 这题是关於非对齐张量的 CP 分解。出题者 Tamara Kolda 表示，AI 给出的解答是正确的，而且比她自己提供的原始解答更好！AI 提出了一种降低计算复杂度的方法，让人类作者承认「AI 的洞察力事後看来很明显，但我当时没想到」。 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 27.52.164.248 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Math/M.1771058376.A.273.html

1^F：推 ginstein : 符合 LLM 特性，DS 应该特性类似但推测比例好一点 02/19 22:48

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Math 板

[其他] First Proof 数学难题测试结果

热门看板

赞助商连结