科研与技术前沿AI Agent

80 年没人推翻的猜想,一个通用 AI 模型做到了

平面上放一些点,能有多少对距离恰好为 1?

这个问题是 Paul Erdős 在 1946 年提出的,80 年里没有实质进展。两天前,OpenAI 的一个内部推理模型否证了 Erdős 的猜想。Fields 奖得主 Tim Gowers 在审阅了证明后写道:如果这是人类写的论文投到 Annals of Mathematics,「我会毫不犹豫推荐接受。」

但这件事真正的信号不在数学本身。

一个任何人都能看懂的问题

先把问题说清楚。你有 n 个点,散落在平面上。问:最多能有多少对点距离恰好为 1?

直觉上,把点排成一条线没用——相邻两点距离为 1,但也就 n-1 对,随着 n 增大只是线性增长。更好的办法是把点排成正方形网格:横竖对齐,间距为 1。这样每个点有更多邻居在单位距离上,总对数大约是 2n——还是线性。

但可以再优化。把网格整体缩放,让网格点之间的某个距离刚好等于 1,然后数这个距离出现了多少次。假设网格里有 √n × √n 个点,距离集合里的某些值会出现得更频繁——因为两个整数平方和可以有多种表示方式(比如 5 = 1² + 2²,也可以 5 = 2² + 1²,同一个距离值在网格里对应了更多点对)。Erdős 自己算出来,网格构造可以达到约 n^(1 + c/log log n) 的单位距离对——比线性略快,但快不了多少。

log log n 增长极其缓慢。即便 n 取到全宇宙的原子数,log log n 也只有个位数。所以这个项随着 n 增大会趋近于 0——本质上还是线性。

Erdős 在 1946 年猜想,这就是最优解。用数学语言说:单位距离对的数量最多是 n^(1+o(1)),那个 o(1) 表示一个随着 n 增大而趋近于 0 的项。80 年里,几乎所有数学家都相信这个猜想是真的。

正方形网格中单位距离对的经典构造

缩放后的正方形网格中,每个点可以与多个邻居形成单位距离对。

为什么 80 年没有进展

这个问题有一个关键数字:O(n^(4/3))。1984 年,Spencer、Szemerédi 和 Trotter 证明了这个上界——你可以把它理解为一张无法翻越的天花板。它本身是什么意思不重要,重要的是之后 42 年里发生了什么:最好的数学家试了各种方法,这个数字纹丝不动。

Erdős 1946 年的同一篇论文里还提了另一个问题:n 个点最少能产生多少种不同的距离?这是单位距离问题的姊妹问题。2010 年,Guth 和 Katz 用一套全新的方法几乎解决了它。János Pach 当时写道:「这是一个喜庆的日子。」但他紧接着加了一句:「恐怕单位距离问题的解决还需要更长的时间。」

他的直觉完全正确。Guth 和 Katz 的方法在姊妹问题上势如破竹,在单位距离问题上却完全使不上力。同样的工具,换到这个问题上就失效。O(n^(4/3)) 这道天花板,从 1984 年一直挂到了 2026 年。

更麻烦的是,所有间接证据都指向猜想为真。Matoušek 和其他人研究了「非欧几里得距离」版本的同类问题,发现绝大多数情况下猜想成立——如果不用欧氏距离,正方形网格确实是最优的。这就像所有路标都指向同一个方向,只是没人能找到那条通往目的地的路。

Noga Alon 说这是 Erdős 在讲座中反复提起的最喜爱问题之一,「每一个做组合几何的数学家都想过它。」

AI 做了什么

GPT-5 选择了大多数人类数学家没选的方向:它尝试推翻这个猜想,而不是证明它。

在模型的思维链里——长达 100 多页的推理过程——大部分步骤都在试图构造反例。用数论学家 Arul Shankar 的话说:「模型具有某种好的直觉,愿意尝试社区里被认为概率极低的路径。」

关键一步来自一个任何人都没想到的地方:代数数论。具体来说,证明用到了无限类域塔(infinite class field towers)和 Golod-Shafarevich 理论。这些东西和组合几何几乎没有交集——它们是研究数的代数结构时发展出来的工具,主要关心「整数的扩展」里因子分解之类的问题。没有人想过它们能回答一个关于平面上点和距离的几何问题。

Erdős 自己的构造依赖于高斯整数——形如 a+bi 的数,其中 a 和 b 是整数,i 是 -1 的平方根。GPT-5 的突破在于把高斯整数换成了更复杂的代数数域,利用它们更丰富的对称性来创造更多的单位距离差。具体来说,模型构造了无限多个点的排列,使得单位距离对的数量达到 n^(1+δ),其中 δ 是一个大于 0 的固定常数。Princeton 的 Will Sawin 后来把 δ 精炼到了 0.014。

这意味着 Erdős 猜错了。80 年里所有人都以为正方形网格基本上是最优的——它不是。

这个信号比数学更大

这件事最容易被误读成「AI 比人类数学家更聪明」。Tim Gowers 的评价确实令人印象深刻——Annals of Mathematics 是数学界最顶级的期刊之一。Arul Shankar 说 AI 目前「不只是人类数学家的助手——它们能够产生原创的巧妙想法,并把它推进到完成」。Jacob Tsimerman 说自己「实际上曾经短暂地研究过这个问题,试图构造反例,但没有取得进展」,而 AI 给出了一个「即便你已经知道答案,要看懂就已经相当困难」的构造。

但真正值得关注的信号不是「赢了」,而是三个更具体的点。

第一,这个模型没有专门为数学训练。它不是 AlphaGeometry,不是为证明显式搭建的 scaffold 系统。Noam Brown 明确说这是个「通用大语言模型」,没有被针对这个问题、甚至没有被针对数学这个领域优化。这意味着推理能力在某个临界点后可以跨领域迁移——它在数学上能做原创研究,不是因为被专门训练过,而是因为它会推理。

第二,这不是孤例。OpenAI for Science 团队同时发布了 13 个案例,覆盖数学、物理、生物、材料科学和计算机科学。在物理上它帮助分析了黑洞方程的对称性。在生物上它识别了免疫细胞实验中未预期的变化机制,并提出了一个后来被实验验证的方案。在数学里有四个证明(包括另一个 Erdős 数论问题)。如果只有单位距离这一个案例,你可以说「数学碰巧是 LLM 擅长的领域」。13 个案例分布在五个学科,很难说是巧合。

第三,时间线在压缩。Noam Brown 说的原话是:「不到一年前,前沿 AI 模型还在 IMO 金牌水平。我预计这个进步速度会持续。」IMO 金牌是解决已知有答案的问题,原创研究是创造新知识。这个跳跃只用了一年。

人还在回路里

GPT-5 的思维链有 100 多页。人类数学家从中提取了关键部分,重写成了标准论文格式,做了验证和补充。最终评注论文的署名是 Tim Gowers、Noga Alon、Arul Shankar、Jacob Tsimerman 和 Thomas Bloom——不是 GPT-5。

但这个模式本身在变化。Thomas Bloom 在评注里的总结可能最接近这件事在当前时刻的位置:「知识的前沿非常参差不齐。未来几个月和几年里,在其他数学领域无疑会看到类似的成功——AI 揭示了意想不到的关联,把已有的技术工具推到了极限。」

数学是一个检验推理能力的干净试场:问题精确,证明可验证,长论点的每一环必须成立。如果一个模型能在这样的试场里产生让人类顶级专家认可的原创贡献,它在其他需要长链推理的领域里的潜力就不是理论推演。

方向感仍然来自人。选择什么问题是重要的,解读结果意味着什么,下一步往哪走——这些仍然是人的判断。但这个判断的价值在变:当一个 80 年没人推翻的猜想被一个通用推理模型解决了,需要重新判断的东西比想象的多。


主要来源:OpenAI 官方博客 · 证明 PDF · 数学家评注 · 思维链 · OpenAI for Science 论文 · János Pach on Guth-Katz (2010)

鸭哥每日手记

日更的深度AI新闻和分析