宋石男 | 忘掉张雪峰,拥抱不确定
原创 宋氏石男 宋氏石男 新新新默存 忘掉张雪峰,拥抱不确定 文/宋石男 最近,网红张雪峰因心源性疾病猝死。有人评论说,张雪峰一生做的事情,都是要帮普通人家找到一种确定性,但他的死却是对确定性最大的否定,这太讽刺了。 我不想讨论张雪峰的价值 …
无论对 ai 或者 Openai 的态度如何,都需要承认这确实是一个大新闻。但知乎上的回答水平过于低下,所以尽管我不是离散几何、数的几何、类域论等任何方向的专家,也不得不写一下回答,以避免本问题下的回答全都是 free of content。
原文 An OpenAI model has disproved a central conjecture in discrete geometry | OpenAI 中包含了如下内容:
这里面包含了 ai 生成的原始证明(构造)以及对其的忠实解释。
人类数学家对原始证明的改进,以及九位数学家各自抒发对于 ai 这个证明的见解。这篇文章有人做了机器翻译:
OpenAI:关于单位距离猜想被证伪的评注 - 万物皆数数海拾贝的文章 - 知乎
值得指出的是,九位数学家中除了 Will Sawin 的部分,其他都不包含任何技术性内容。所以即使你并非数学专业的人,想要知道该如何评价此事,那么阅读这些数学家的评价是最佳选择。
这是 ai 的思维链。
本回答的绝大部分内容都基于第二篇文章。如果你想获得第一手的资料或者理解,请直接去看原文。
其实证明是很容易阅读并检验的,它并不属于艰深的那一类证明,而是简短巧妙。基本想法是:在 Cf\mathbb{C}^f 中,令
BR:={(x1,…,xf)∣|xi|≤R,∀i},B_R := \{(x_1, \dots, x_f) \mid |x_i| \le R,\ \forall i\},
这是一个 “半径” 为 RR 的多圆盘。对任意子集 S⊂CfS \subset \mathbb{C}^f,定义
US:={(x1,…,xf)∈S∣|xi|=1,∀i},U_S := \{(x_1, \dots, x_f) \in S \mid |x_i| = 1,\ \forall i\},
即区域 B1⊂CfB_1 \subset \mathbb{C}^f 边界上的最外点。
若存在一个格Λ\Lambda,使得 UΛU_\Lambda 很大,则我们可以通过取 UΛ∩BRU_\Lambda \cap B_R(对某个 RR),再投影到 C\mathbb{C} 的任意一个坐标上,构造出一个平面上含大量单位距离的点集。
由于 BR−1B_{R-1} 中的每个格点加上 UΛU_\Lambda 中的任意点后,所得点都落在 BRB_R 中,若投影是单射,则在至多 |Λ∩BR||\Lambda \cap B_R| 个点中,我们至少能得到
12|UΛ|⋅|Λ∩BR−1|\frac{1}{2} |U_\Lambda| \cdot |\Lambda \cap B_{R-1}|
对单位距离点。
数域自然会给出 Minkowski 格,而且到分量的投影是单射。这就是为什么会用到代数数论。
AI 发现了这样一个引理:

这个引理说的是,如果我可以让 Λ\Lambda 这个格点不是很密的同时,又让 UΛU_\Lambda 的数量比较大,那就离成功不远了。在数域中,我们需要找分母有界的格 Λ\Lambda ,使得其中包含相当多的模长为一的元素。

有了这个引理,我们只需要让 PiP_i 都是在某个有理素数 pp 上完全分裂,域的根判别式(判别式开域扩张次数那么多根号)有界,并且域扩张的次数趋于无穷就可以。最后这里是类域论进来的地方。
我们回顾一下 Erdos 原本的下界构造,它极其简单而优美。我们直接考虑 n×n\sqrt{n} \times \sqrt{n} 的方形网格. 现在考虑一个整数 mm , 如果 x2+y2=mx^2+y^2 = m 的整数解很多,假设有 r2(m)r_2(m) 个, 那么格点中就有很多对之间距离为 m\sqrt{m} . 比如取 m=n/4m = n/4 , 考虑中心的稍小一些的 n2×n2\frac{\sqrt{n}}{2} \times\frac{\sqrt{n}}{2} 网格,那么就至少有 12⋅n4⋅r2(m)\frac{1}{2} \cdot \frac{n}{4} \cdot r_2(m) 对点之间距离为 m\sqrt{m} . 这个构造,结合素数定理,就可以得到 Erdos 的界 n1+cloglognn^{1 + \frac{c}{\log \log n}}.
上面的论证其实是在考虑 Q(i)\mathbb{Q}(i) 中的格点. 我们逐步增大格点的模长范围,得到所需要的点集。而 openai 的证明则是固定格点的模长,然后变动数域,来得到所需要的点集。我们可以明显地看到 Erdos 的原始证明的启发,但也请参看 Will Sawin 的注记,从改变模长到改变数域并不是显然的一步!如果只是模仿 Erdos 原始证明的话,改变数域压根没有效果。
那么 ai 这个解法是人类从来没想到过的吗?其实也不是。Tsimerman 就说自己也想过用类似的方法构造反例,但没有最终推进下去,因为让域的次数越来越大看上去并不那么靠谱。我们看到最终 nn 的指数也就比 11 大了一点点,所以人类数学家在进行估计的时候心里是没底的,尽管有了证明之后去验算会比较容易。AI 在这方面比人类要强很多,不会像人一样知难而退。
还有一个有趣的评论来自 Daniel Litt。这个问题被形容为 “低垂的果实”,这应该没有贬义的意思,只是形容著名的公开问题被用简短而巧妙的方式解决。他觉得在代数几何与算术几何中,这样的问题比较少见,大部分问题的解决都依赖于新理论的建立,而 AI 在这方面似乎还没有建树,尽管谁也不知道后续会如何。
不用强调是内部模型啦~发现普通的 GPT 5.5 就能做出来同款证明~👇
Erdős planar unit-distance problem
听说 Erdős 给这个问题悬赏 1000 刀,够我 5.5 Pro 回本啦 🐶✨
马上要回科大当老师啦~对 ai4math 或者智能体感兴趣的小伙伴欢迎评论留言或者私聊我呀~
ChatGPT 这次号称取得了进展的 “单位距离问题 / Unit Distance Problem” 比之前炒作的那些埃尔德什问题要有含金量得多。不过,这问题对事实的表述不准确。
单位距离问题的内容可以被表述为:
在平面上给定 n 个点,最多能有多少对点之间的距离恰好等于 1?这个最大值记作 ν(n)。
埃尔德什本人猜测,对于任意大的 n,ν(n) 小于等于 n^(1+C/loglogn),C 是某个常数。这个上界比 n 略大、比 n^(4/3) 小很多。
ChatGPT 自称证明了存在一个固定的正数 δ,使得对于无穷多个 n,ν(n) 大于等于 n^(1+δ)——那么,只要 n 的取值够大,ν(n) 的值就会远远超过埃尔德什本人的猜测。数学家 Will Sawin 说 δ 可以取 0.014,这到 n^(4/3) 还差得远。
就是说,发生的状况是,ChatGPT 给出的下界超过了埃尔德什曾经猜测的上界。
证明所用的方法大幅超越了平面几何。ChatGPT 取了一个特殊的数域(例如三次循环域)和它的一个无穷塔扩展,使得这些域具有以下性质:
ChatGPT 构造 “单位方向” 元素,将这些代数数嵌入到高维复空间,形成一个格点,然后设法将其转化为平面点集、组合在一起得出结果。
数学家 Thomas Bloom 评论道 [1]:
如果这篇论文的结果是对单位距离问题的证明,那将真是令人难以置信。虽然听到这个结果时我仍然感到非常惊讶,但当我得知这是一个反例的构造时,惊讶之情稍稍消退了一些;而当我了解到,这个构造的本质(事后看来)是对埃尔德什最初基于格的构造的一种自然的、尽管非常复杂的推广时,惊讶之情就进一步减弱了。
通过仔细研究这个构造,我们就能更清楚地理解为什么人们之前会忽略这一点——它需要几个看似不可能的事件同时发生:一位优秀的数学家……
(1)首先,花费大量时间思考单位距离猜想 [2];
(2)尽管埃尔德什多次重申这是真的 [3],但他仍然认真地试图反驳它;
(3)认为将原有构造推广到其他数域具有实用价值,因此愿意花费大量时间探索此类构造;
还有(4)对类域论的相关部分足够熟悉,能够认识到,关于具有适当参数的无限数域塔的恰当表述的问题,可以用现有的理论来解决。
该人工智能满足了所有这些标准,它在这里的成功与之前的成就相呼应:它常常通过坚持不懈地探索人类可能认为不值得花时间探索的路径,从而产生最令人惊讶的结果,它将超人的耐心与对各种技术机器的熟悉程度相结合。
在评估人工智能生成的证明的重要性和影响时,我常常问自己:它是否让我们对这个问题有了新的认识?我们现在对离散几何的理解是否有所加深?我认为答案是肯定的,只是程度略有不同:这表明数论构造对这类问题的影响远超我们的预期;此外,所需的数论知识也可能非常深奥。毫无疑问,在接下来的几个月里,许多代数数论学家将会密切关注离散几何中的其他未解难题。
另一方面,该领域的一些专家可能会对本文的研究成果略感失望:它并未引入任何强大的新几何工具,也没有提出任何此前未曾预料到的结构性结果,而这些正是_证明_单位距离猜想所必需的。尽管这或许并非我们所期待的猜想证明,但毫无疑问,这一构造及其所涉及的思想将在离散几何领域产生重大影响。
数学家 WT Gowers 在参考 1 里说,他没有代数数论方面的背景知识,无法就这个 “对埃尔德什单位距离猜想的反驳” 进行详细评估。他盛赞了这一成果,但看起来他对这成果的看法不准确——他以为这是“单位距离问题的解决”。或许一些媒体被他误导了。
数学家 Daniel Litt 在参考 1 里说,他认为这个解决方案是正确的,而且非常巧妙自然。不过,他马上就说 “其数学背景远超出我的专业范围,因此我将把对这一解决方案及其意义的进一步评论留给比我更有资格的人”。
无论如何,如果结果是真的,那么这是组合几何与离散几何领域的突破。不过,“类数上界”、Golod-Shafarevich 塔[4] 的存在性 · 全实性和完全分裂素数的选择 [5] 看起来值得怀疑。这个全实塔的存在性可能需要 ChatGPT 另行证明。
只要 Lean 之类定理证明器跑得通,这一结果就是可信的。但是,OpenAI 没有自称用定理证明器验证过——因为那也需要时间并产生巨量的输出。
数学家参与修改的好处是,他们可以从中得到启发、将数论方法应用于更多的几何问题。即使这个证明最终被否定,“利用高维数域格点投影解决低维几何极值问题” 这一思路还是极具启发性的。人工智能的创造力,就像我主张的那样,可以超过人 [6]。
给想要看这个结果能带来什么神奇机器的读者:
Jacob Tsimerman 在参考 1 里指出:
即使你了解其中的原理,要看透这个构造也绝对令人望而生畏,而要自己动手推导则更加困难。人们总是忍不住去看一个已经完成的证明,然后事后断言它是显而易见的。
我认为他多虑了,当前地球上没有人知道这个构造图形化后到底是什么样。
不准确的可视化尝试:

将密度调大一点就会变成这样,读者可能注意到正方形网格的趋势:

数学家 Ed Pegg 认为,在点的数量 n 很小的最大密度单位距离图中,没有任何趋向正方形网格的迹象。相反,基于代数构造的更奇特的图占据主导地位 [7]。例如:

代数网格的可能性还没有被充分探索。因此,他提出一个大胆的新猜想:对于任何 n,最大密度单位距离图永远不会基于正方形网格。
他给出了一些参照:

这问题链接到的新闻稿大概是拙劣机翻的,这句:
这不是 OpenAI 第一次宣称 AI 解决了 “平面单位距离猜想” 问题,简称 Erdős 问题。
纯属搞笑。埃尔德什问题有很多,而 “平面单位距离猜想” 只有一个。
在这问题下,中文人工智能三大顶刊(贬义)里最不要脸的新智元又在蹦跶。正如许多用户注意到的,多个回答来自大语言模型。人工智能在数学方面的能力进步似乎超过了自动化工具在社区管理方面的能力进步呢。
又一个 AI 划时代的时刻!!!
5 月 21 日凌晨 3 点 04 分,菲尔兹奖得主、当代数学巨擘 Timothy Gowers 在 X 上发布了一条简短却近乎惊悚的推文。
短短数小时内,这条动态便斩获了超过 120 万次的浏览量,在整个国际学术界引发了一场十级大地震。

就在今天,OpenAI 正式官宣了这项载入史册的科学突破:
在没有任何人类数学专家干预的前提下,内部的全新一代的通用推理模型,自主攻克并彻底推翻了离散几何学中沉睡了近 80 年的核心猜想——埃尔德什(Erdős)单位距离问题。
这是人类历史上第一次,AI 独立、自主地解决了一个处于数学核心领域、让无数顶尖数学家折戟沉沙的重大开放性难题。


菲尔兹奖得主 Tim Gowers 罕见喊话:
如果你是一位数学家,那么在继续阅读之前,你可能需要确保自己已经坐稳了**。**
顶级数论学家 Arul Shankar 震撼发声:
在我看来,这个成果表明当前的 AI 模型已经超越了人类数学家的助手角色——它们开始具备原创的、精妙的、极具智慧的独立思想,并且有能力将其付诸实现。
这场风暴不仅让数学家们感到坐立难安,更向全人类宣告:AI,已经正式跨入了科学研究的无人区**。**


极其简单的谜题,与阻挡人类 80 年的高墙
要理解这项突破有多么不可思议,我们必须先回到 1946 年。
那一年,20 世纪最伟大的传奇数学家之一保罗 · 埃尔德什(Paul Erdős)提出了一个几何问题:
如果在二维平面上任意画下 n 个点,那么在这张图里,两点之间距离刚好等于 1 的点对,最多能有多少对?

这是连小学生都能听懂,却让后续所有数学家抓狂的问题。
数学家们将最大可能的单位距离点对数量记为 u(n)。
这个问题看似像个简单的拼图游戏。如果你只有 n 个点,想让单位距离最多,你会怎么摆?
摆成一条直线?那么只有相邻的两点距离为 1,你只能得到 n-1 对。
摆成一个正方形网格?每一格的边长都是 1。经过简单的计算,你可以得到大约 2n 对。

直觉告诉我们,越是对称、越是整齐的结构,包含的单位距离就越多。
因此,在过去的几十年里,全世界最聪明的数学家们达成了根深蒂固的共识:
要让单位距离数量最大化,最好的摆法本质上就是类似于「方格网格」的结构。

基于这种共识,在 1946 年,埃尔德什提出了著名的猜想(Erdős Conjecture):他认为 u(n) 的上限是

,(其中 o(1) 是一个随着 n 趋于无穷大而趋于 0 的项)。
用大白话来说就是:无论你怎么精妙地排布这些点,单位距离点对的增长速度,也只能比线性(n 的一次方)稍微快那么一点点,绝对无法实现质的突破。
这是埃尔德什最爱的数学问题之一,曾多次公开提及此问题。

为了激励后人,埃尔德什还专门为解决这个问题设立了现金奖励。

然而,在接下来的 80 年里,这道大题成了离散几何领域无法逾越的高墙。
这个问题的下界(最好情况),情况是这样的:自 1946 年埃尔德什用缩放的正方形网格给出

的结果后,整整 80 年,人类数学家在这个基础上面对下界的提升寸步未行。
关于上界(理论极限的证明),情况如下:1984 年,斯宾塞(Spencer)、塞梅雷迪(Szemerédi)和特罗特(Trotter)证明了上界为 O(n^{4/3})。

此后,哪怕后世的无数天才(包括陶哲轩等人在内)在相关结构上做了诸多微调,这个上界依然像铁律一样无法被打破。
所有人都以为,正方形网格就是大自然的极限了。
然而,OpenAI 的这个神秘模型出手了!

颠覆认知:AI 找到了「不存在的结构」
让人震惊的是,它不仅证明了猜想,更直接推翻了猜想。
它在平面上创造出了一种人类数学家从未想象过的、全新的点阵构型家族。
这个构型直接打破了「网格神话」,实现了多项式级别的超越!


证明链接:https://cdn.openai.com/pdf/74c24085-19b0-4534-9c90-465b8e29ad73/unit-distance-proof.pdf
这意味着单位距离的数量实现了指数级的跃升,彻底打破了埃尔德什当年预测的上限!
随后,普林斯顿大学数学教授 Will Sawin 对 AI 的证明进行了连夜的精细化推导,进一步确认了这个

可以明确取到 0.014。


显然,

完爆

近 80 年来,无数代离散几何学家在这座数学大厦里敲敲打打,坚信屋顶就在头顶上方。
而现在,AI 直接在墙壁上开辟了一扇暗门,告诉人类:外面还有一片此前从未被看见过的全新大陆。
震撼数学界
它用高维数论,降维打击了几何学
如果说 AI 只是通过穷举法或暴力计算找了几个特例,数学家们还不至于如此破防。
真正让整个学术界倒吸一口凉气、感到极度不安的,是这个证明的极高品味和创造力。

离散几何问题,通常需要用几何或者组合数学的工具来解决。
但 OpenAI 的模型在思考这个初等几何问题时,突然打通了数学宇宙中一条隐秘通道——它从遥远的「代数数论」中借来了重武器。
当初,埃尔德什构建网格时,利用了「高斯整数」(形如 a+bi 的复数,其中 a 和 b 是整数)。高斯整数就像是普通整数在复平面上的延伸,具备唯一分解定理等优良性质。
而 AI 展现出了令人惊叹的洞察力,它没有被高斯整数限制住,而是将这个几何构想推向了一个人类完全没敢想的极端——
首先,它构建了极其复杂的代数数域拓展。
它引入了具备更丰富、更高维对称性的代数数域。在这些高维对称空间里,能够产生远比人类已知网格多得多的「单位长度差」。

其次,它驾驭了顶级的数论工具。
为了证明它所设想的这种复杂数域在数学上确实存在,在长链条推理中,AI 极其熟练地调用了「无限阶级域塔」(Infinite Class Field Towers)和「高罗德 - 沙法列维奇理论」(Golod–Shafarevich Theory)。

这些工具是代数数论皇冠上的明珠,即便是专门研究数论的人类专家,想要将它们天衣无缝地组合在一起也需要耗费数年心血。
然而,一个通用推理模型,却在解决一个几何问题时,自发地将这两者结合,完成了惊人的跨界降维打击!
普林斯顿大学的组合数学泰斗 Noga Alon 表示,亲眼看到这个内测模型给出解答时,他被这种优雅且聪明的手法深深震撼了。
英国皇家学会院士、菲尔兹奖得主 Thomas Bloom 也在配套论文中写道:
当评估 AI 生成的某个证明的重要性时,我会问自己:它有没有教会我们关于这个问题的新知识?我们对离散几何的理解加深了吗?
答案是一个毫无疑问的「是的」。
它向我们展示了,数论结构在解决这类几何问题上,拥有远比我们想象的要深邃得多的发言权。
不是偏科战神,而是通才
更惊人的是,OpenAI 特别强调了一点:「这个证明来自一个全新的通用推理模型,而不是一个专门为了解决数学问题或特定猜想而构建的定制系统。
在过去,AI 解决数学问题往往依赖人类精心设计搜索框架,或者在特定领域(如自动定理证明 Lean 语言)内进行局限的试错。
但这一次,AI 是在一个前所未有的广阔空间里,展现出了真正的长链条、高内聚推理能力。
数学是全人类逻辑思维最严苛的试金石:
定义不允许有半点含糊。
每一个中间步骤都可以被严格验证。
长达数十页的论证,只要中间有一处逻辑断裂,整个证明就会瞬间崩塌。
AI 成功了!
它像一个冷静的、经验极其丰富的棋手,在人类甚至无法觉察的知识图谱中,完美地把控住了数万步的逻辑链条,没有出现一次致命幻觉。

这种在宏观上跨越数论与几何、在微观上丝丝入扣的推理能力,正是 AGI 最核心的圣杯。
科学研究的范式转换:人类数学家下岗了吗?
所以,人类学者会沦为旁观者吗?
恰恰相反。这次突破,恰恰体现了人类的重要性。
在 AI 生成原始证明后,人类顶尖数学家团队迅速介入。
他们不仅验证了证明的正确性,还在短时间内写出论文,普林斯顿的威尔 · 萨温教授更是敏锐提炼出了 \ delta = 0.014 的精确值。
AI 是一个探险家,踩出一条路,带回宝石。人类科学家则凭借直觉,将宝石擦亮。
正如英国数学家 Thomas Bloom 的赞叹:
知识的疆界从来不是平坦的,而是充满了尖锐的峭壁。
AI 正在帮助我们更全面地探索我们几个世纪以来建立的数学大教堂;在这些宏伟的穹顶之下,还有多少未被看见的奇迹,正在侧翼等待着被唤醒?


而这股风暴,也将席卷数学之外的整个世界。
在博客最后,OpenAI 指出一个宏大图景。
如果一个模型能够保持极其复杂的论证前后一致,能够将相距万里的知识领域融会贯通,并且其产出的成果能够通过最挑剔的人类专家的审视——那么,这样的能力将同样适用于生物学、物理学、材料科学、工程学和现代医学。
AI 已触及科学研究中最具核心创造力的部分。人类的洞察力、审美,从未如此放大。
而这个世界的剧变,才刚刚开始。
这个是真核弹。
我一开始以为它是纯计算碰处理,后面看了下发现不是的,是真的有逻辑推理的过程。
证明过程看不懂,但数学领域的大佬团队验证后说是对的,可信度还是很高的。
这是至今为止证明 llm 大模型也有突破人类智力边界潜力的最有力证据。
之前不管是写代码还是做方案或者其他的什么任务,都可以用这是用已知知识做排列组合来解释。
但数学证明不一样,它是真正意义上证明 ai 能填补人类智力的空白。
也是 ai 开始实现自我进化的必要能力之一。
这是一个里程碑。而且它的意义远不止解决了一个 80 年的数学猜想。
先讲清楚发生了什么。1946 年 Erdős 提出了单位距离问题:平面上放 n 个点,最多能有多少对点之间的距离刚好是 1?80 年来所有人都认为,最优的构造大概就是像棋盘一样的平方网格,单位距离点对的数量大概是 n^(1+o(1)),也就是说只比线性增长快一点点。
OpenAI 的通用推理模型推翻了这个猜想。它找到了一族全新的构造,对于无穷多个 n,单位距离点对的数量可以达到 n^(1+δ),其中δ是一个固定的正数——现在已经有人算出可以达到 0.014。这是一个固定的指数优势,不是一个可以忽略的小量。
这本身就是一个重大的数学结果。菲尔兹奖得主 Tim Gowers 说这是 “AI 数学的里程碑”,Noga Alon 说这是 “杰出的成就”。但更重要的是这件事是怎么发生的。
首先,这个证明不是来自一个专门的数学证明系统,不是来自 AlphaGeometry 这类专门为数学优化的模型。它来自一个通用推理模型。这意味着,这种跨领域连接、深度推理的能力,不是专门为数学训练出来的,是通用能力的一部分。
其次,这个证明的思路完全出乎所有人的意料。所有人看这个问题,想到的都是几何、组合、图论。但 AI 用的是代数数论的工具——无限类域塔、Golod-Shafarevich 理论。这些东西在代数数论领域是常识,但从来没有人想到可以把它们用到平面几何的单位距离问题上。
这才是最关键的点。人类的知识是分领域的。数学家有自己的专业方向,组合几何专家通常不会深入研究代数数论的前沿工具。两个领域之间存在知识的壁垒。而 AI 没有这些壁垒。对它来说,所有知识都是扁平化的,它可以看到人类看不到的跨领域连接。
这就是为什么 AI 能解决这个问题。不是因为它比人类数学家更聪明,而是因为它不像人类那样被学科边界限制住了。
然后看这件事的意义,一层一层往下拆。
最表层的意义:AI 第一次独立解决了一个数学分支中居于核心位置的重要公开问题。之前 AI 在数学上的成就,要么是辅助人类,要么是解决已经有答案的问题,要么是解决相对边缘的问题。这次不一样,这是一个真正的、核心的、80 年未解的公开问题。
中间层的意义:通用推理能力已经达到了可以做原创科研的程度。这不是一个专用系统在某个特定任务上的成功,这是通用能力的体现。如果它可以在数学上做出原创性的突破,那么它也可以在物理、生物、材料、工程上做出原创性的突破。
最深层的意义:科研范式正在发生变化。过去的科研范式是:人类提出问题,人类寻找思路,人类做实验,人类写论文。未来的科研范式会变成:人类提出问题,AI 搜索所有可能的跨领域连接,提出人类想不到的思路,人类来判断这些思路的价值,然后一起推进。
很多人会说,这有什么,AI 还是需要人类来判断,来理解,来提出问题。没错。但不要小看这个变化。过去所有的思路都是人类想出来的。现在,AI 可以提出人类完全想不到的思路。这就是杠杆。这就是生产力的巨大提升。
最后说一句:很多人会纠结这个证明到底够不够好,这个猜想到底重不重要,AI 是不是真的 “理解” 了它在做什么。这些争论都不重要。重要的是,我们刚刚看到了一个信号:通用推理模型已经开始触碰人类科研的最前沿。
这只是开始。接下来我们会看到越来越多这样的结果。而且速度会越来越快。
这才是真正值得关注的事情。
看到这条新闻时,我第一反应是好奇——OpenAI 到底是从哪条路绕进去的?
Erdős 在 1946 年那篇只有三页的文章里问了两件事:nn 个平面点最多能产生多少对单位距离?最少能产生多少种不同的距离?
平面单位距离猜想(就是这次被推翻的那个)说:在 R2\mathbb{R}^2 上任取 nn 个点,距离恰好为 1 的点对数量上界是 n1+o(1)n^{1+o(1)}。
注意这个 o(1)o(1),它意味着指数可以无限逼近 1,但不能多出 “一截”。Erdős 自己悬赏过 300 美元求一个证明或反例,他本人是相信这个上界成立的。
人类这边几十年来的最好成绩,是 1984 年 Spencer–Szemerédi–Trotter 给出的 O(n4/3)O(n^{4/3})。从 1984 年到 2026 年,整整 42 年,上界一寸没动。
这里有个关键的地方:05 年 Valtr 证明了,如果把欧氏距离换成某种光滑凸体诱导的度量,n4/3n^{4/3} 这个上界就是紧的。意味着,任何想把上界压到 n4/3n^{4/3} 以下的方法,都必须用到欧氏度量的某种 “独家性质”——这是一道防火墙,挡住了几乎所有组合方法。
也正因为这道防火墙的存在,数学界的主流信念越来越倾向于 “猜想是对的”。大家默认欧氏度量足够 “刚性”,能把构造卡死在线性级别附近。
这次的核心结果是:OpenAI 的模型构造(实际上是存在性证明,非显式构造)出了一族 nn 个点的集合,单位距离对数至少有 n1+cn^{1+c},其中 c>0c>0 是绝对常数。
n1+cn^{1+c} 和 n1+o(1)n^{1+o(1)},差的不是一个常数因子,是指数层级的真实跃迁。
但比这个数值更值得琢磨的,是它走的路径:模型用了**类域塔(class field towers)和 Golod–Shafarevich 理论**。
类域塔是代数数论里相当深的工具,最初是用来回答 “一个数域的类域塔是否有限” 这种问题的。Golod–Shafarevich 定理是 1964 年的成果,主要用在群论和数论交叉地带。这些工具和 “平面上有几对点距离为 1” 这种朴素几何问题,在人类数学家的认知地图里,几乎是两个大陆。
过去几十年,攻这道题的主流路径是:组合几何、代数几何(多项式方法、Guth–Katz 那条线)、incidence geometry。没人觉得类域塔会是钥匙。Gil Kalai 在自己博客里写到这件事时,用的词是 “amazing”——熟悉他文风的人知道,他是个用词非常克制的组合学家。
我更倾向于 “高度可信”,这次质疑的空间比想象中小,原因:
验证团队的分量摆在那里。 挂名 review 的论文作者包括 Noga Alon、Tim Gowers、Will Sawin、Melanie Matchett Wood、Jacob Tsimerman——这个名单里有菲尔兹奖得主,有 Sloan Fellow 级别的数论学家,有组合学界的扛把子。这种阵容如果背书一个错的证明,职业声誉是要崩盘的。Gowers 本人对 AI 数学一贯持审慎乐观态度,他公开称这是 “a milestone”,分量很重。
证明类型决定了它 “好查”。 这次是存在性证明而非显式构造,听起来好像更难验证,其实恰恰相反。存在性证明走的是已有数学结构(类域塔的某些性质),每一步都可以单独 check。125 页的推理链虽然长,但模块化程度高。如果是一个 “我用计算机暴力搜出 10 亿个点” 的构造,反而更难判定是否真的满足条件。
结果与 Valtr 防火墙的关系自洽。 模型的构造确实用到了欧氏度量的特殊性质(类域塔产生的代数整数环里的范数结构),绕开了 Valtr 那个反向障碍。这说明整个论证不是在 “瞎走”,它精准地踩在了人类已知的难点之上。一个胡编乱造的“证明” 不会有这种结构感。
当然,“高度可信” 不等于 “绝对正确”。数学史上不乏挂着大牛名字最后被发现有 gap 的论文,Mochizuki 的 ABC 猜想就是教训。未来几个月会有更多独立小组重新验算,到那时才能算尘埃落定。
OpenAI 反复在强调:这是一个通用推理模型,不是数学专用模型。
过去几年 AI 数学的标志性成果——DeepMind 的 AlphaGeometry、AlphaProof,包括各种 Lean 形式化项目——本质上都是为特定数学任务深度定制的系统:内置专门的证明搜索、几何引擎、形式化语言。它们的成就值得尊敬,但你很难说那是 “AI 自己想出来的”。
这次不一样。一个平时陪你写代码、改邮件、解释经济政策的对话模型,在没有任何几何专用工具加持的情况下,把组合几何和代数数论这两个相隔遥远的分支拼到了一起。
我自己做算法相关的工作,对所谓 “通用智能” 一直保持距离感——我见过太多看起来通用、实际上换个领域就崩的系统。但这次的事件让我必须重新审视一个问题:“通用推理”和 “领域专长” 之间的边界,是不是已经开始松动了?
如果一个通用模型能够主动去试与人类直觉相反的方向(Erdős 自己都相信猜想成立,整个社区也倾向上界正确),并且能从一个不被看好的工具箱里翻出钥匙——那它至少在某种意义上,已经摆脱了 “模仿人类思路” 这个紧箍咒。
这次成功的样本只有一个。一次惊艳的胜利,和 “AI 能稳定贡献数学发现” 之间,差了无数次失败实验。OpenAI 没有公开模型在多少道类似难题上 “失败了”,也没说这种结果的复现成本——是花了一千美元算力还是一百万?是十次尝试出一个,还是一万次出一个?这些数字才真正决定 AI 数学的产业化前景。
另外一个隐忧:当 AI 开始产出人类极难直观验证的长证明,数学社区的运作方式会被迫改变。125 页的推理链,配上类域塔这种少数专家才熟悉的工具,能完整 review 的人全球可能不超过几十个。如果以后每周冒出来一篇这样的论文,未来几年的问题是:形式化验证(Lean、Coq)会不会从可选项变成必选项?
这是 AI 真正以 “研究者” 身份进入数学的第一次。 不是协作者,不是助手,是研究者。Appel 和 Haken 1976 年用计算机证明四色定理时,数学界争论了很久 “这算不算证明”。半个世纪后,我们又站在了类似的门口,只不过这次站在门外的是一个会说话的模型,它递过来的不是一份计算列表,而是一份用代数数论写成的、结构精巧的论证。
门会被推开的。我只是好奇,门后面那个世界,留给人类数学家的位置——还有多少?
转自陈立杰和武弘勋(这两位姚班校友参与了这项工作)的英文推文,由豆包翻译:
陈立杰:
今天,OpenAI 的一款内部模型推翻了埃尔德什单位距离猜想——这一研究成果,足以让《数学年刊》(Annals of Mathematics,全球最顶尖数学期刊之一)给出 “毫无犹豫予以发表” 的推荐评级。
我们是在一项探索性任务中,用模型挑战最难数学难题时,偶然发现了这一成果。
这是一个简洁却悬而未决 80 年的经典猜想:在纸上画 nn 个点,最多能有多少对点的距离恰好为 11 ? 埃尔德什曾猜想,答案接近线性增长,即 n1+o(1)n^{1+o(1)} 。我们的模型以代数数论为核心思路,给出了反例:证明存在某一极小常数 δ>0 \delta>0 ,能构造出 n1+δ n^{1+\delta} 对距离恰好为 11 的点。
今年 1 月初,我正是因为坚信 AI 将对数学乃至整个科学领域产生颠覆性影响,才加入 OpenAI,投身推理相关工作。但我从未料到,一项重大数学未解难题的解法,会在 5 月就诞生。
AI 的进步速度,着实令人惊叹。作为前国际信息学奥林匹克(IOI)金牌得主,我还记得去年夏天,得知 AI 能斩获 IMO(国际数学奥林匹克)、IOI 金牌时的震惊。而如今,这股势头丝毫没有放缓。
数学是展现科学进步最纯粹的领域。但我们的模型是通用推理模型:既没有专门为数学设计、训练,也未借助任何证明搜索的专用框架。
凭借这样的推理能力(可查看模型完整推理链:[HTTPS://t.co/63AFBruzaA]),再加上跨学科的广博知识储备,我毫不意外,不久后其他科学领域也将迎来里程碑式突破。
正如我在视频中所说:在 OpenAI 工作,有个小小的 “缺点”——偶尔会遇到让人兴奋到难以入眠的日子,并非压力所致,而是纯粹的激动。

在这里的每一天,都充满惊喜:参与模型训练、告别多年理论研究重新上手编程、亲眼见证突破在眼前发生。
生逢其时,何其有幸!
最后,可参考武弘勋的文章,了解我们发现该解法后的一些思考。
这张测试算力曲线图也堪称惊艳:推理算力,堪称奇迹。

武弘勋:
OpenAI 自研内部推理大模型达成人工智能数学领域里程碑成就:成功攻克其所属数学分支里一项核心悬而未决的难题,也就是离散几何领域的单位距离问题。
我们是在一项专项探索任务中,全力让模型挑战各类顶尖难题时,意外得出了这一成果。

首先来讲这项研究成果是什么?埃尔德什单位距离问题表述十分浅显:在纸上画出 nn 个点,其中最多能形成多少组距离恰好为 11 的点对?
尽管该问题表述通俗易懂,却尘封八十年悬而未决,也是埃尔德什本人最热衷研究的经典难题之一。
此前埃尔德什猜想该数量趋近于 n1+o(1) n^{1+o(1)} ,而我们的模型推翻了这一猜想:借助代数数论相关理论思路,证明可以构造出数量为 n1+δn^{1+\delta} 的单位距离点对,其中常数 δ\delta 大于 00 。
我与同为理论计算机科学专业出身的陈立杰,一直深深着迷于这类经典未解难题蕴含的精妙内涵与深厚价值。我们早在读研期间就初次了解到单位距离问题,却从未设想过,有朝一日人工智能能够将其破解。
这件事让我们既满心振奋,又心怀谦逊。
1. 人工智能格外擅长打通不同冷门研究领域之间的关联
此次模型就在代数数论与离散几何两大领域之间搭建起了理论桥梁。我们也期待未来人工智能能搭建更多跨学科研究纽带。
2. 我们绝不能将数学研究单纯等同于得出答案
若是认为人工智能的作用只是包揽解决所有数学未解难题,那就大错特错。数学研究的内核,同样在于提出有价值的问题、构建完整的知识认知体系。
未来的发展方向,理应是人类与人工智能协同合作、携手共进。
3. 人工智能能够拓宽人类可探索的数学研究边界
AI 工具本身已然具备强大实力,而我们更希望它最终能赋能广大数学家。让数学研究的局限,源于研究者的研究志趣、求知欲与深度思考,而非受制于技术层面的瓶颈。
除却数学领域之外,这项成果同样标志着 OpenAI 在测试时算力扩展这条技术路线上取得重大突破。
如今大模型已然能够融合跨度极大的学术思想、进行长链路逻辑推理,还能产出极具价值的创新性研究成果。
这种强大能力所能带来的深远影响,绝不止局限于数学领域。
以为是噱头,没想到真牛逼了。
以前 ai 只能干两种数学的问题
一类是验证型,比如 Lean/Coq/Isabelle 里的形式化证明;
另一类是搜索型,比如矩阵乘法算法、cap set 构造、packing/coding 类问题。
这次是第一次 ai 能研究,**数学细分领域(离散几何 )**几十年的 open question。
用 Deep reserach 分析了下,具体哪个数学细分领域已经被 ai 攻克。
留给人类的领域越来越少了…..
| 数学细分领域 / 任务 | AI 当前水平 | 是否已经超越人类? | 代表性问题 / 猜想 |
|---|---|---|---|
| 离散几何 / 极值构造 | OpenAI 模型解决了 Erdős unit-distance conjecture 的反例构造,使用代数数论和类域塔 | 已超越人类社区此前几十年的进展 | Erdős unit-distance conjecture、Hadwiger–Nelson problem、Danzer problem、kissing number |
| 奥数水平的几何 | AlphaGeometry 解决 25⁄30 个 IMO 几何题,AlphaGeometry2 在 2000–2024 IMO 几何题上达到 84% solve rate,超过平均金牌选手水平 | 基本超越多数人类选手 | IMO 几何题、Euclidean geometry theorem proving、Morley/Simson/Miquel 型构型问题 |
| IMO 综合数学题 | 2024 年 AlphaProof + AlphaGeometry2 达到银牌水平;2025 年 Gemini Deep Think 和 OpenAI 实验模型达到金牌水平,均解决 5⁄6 题、35/42 分量级 | 达到顶级高中竞赛人类水平,但还不等同于研究数学家水平 | IMO 题中的代数、不等式、组合、数论;Schur、Zsigmondy、Cauchy-Davenport 等工具型问题 |
| 形式化证明 / Lean 证明搜索 | DeepSeek-Prover-V2 等模型在 miniF2F 上达到很高通过率,能自动生成 Lean 证明;但 PutnamBench 等大学 / 研究级 benchmark 仍远低于满分 | 在短证明搜索和机械验证任务上超过普通人;未超越顶级形式化专家 | Four color theorem formalization、Fermat formalization、Liquid Tensor Experiment、Sphere eversion formalization |
| 组合优化 / 有限构造搜索 | FunSearch 找到 cap set 问题的新构造和在线 bin packing 新算法;AlphaTensor 发现新的矩阵乘法算法 | 在大规模搜索 + 可验证目标函数上,已经经常超越人类手工搜索 | Cap set problem、matrix multiplication exponent (\omega)、bin packing、Ramsey numbers、covering codes |
| 算法发现 / 理论计算机科学交界 | AlphaTensor、AlphaEvolve 类系统能搜索新的算法结构,尤其适合 “程序可跑、结果可评分” 的数学问题 | 在局部算法优化上超越人类;在复杂性理论核心猜想上还不行 | (P) vs (NP)、matrix multiplication exponent、unique games conjecture、circuit lower bounds |
| 代数数论 / 类域论应用 | unit-distance proof 正是把类域塔、Golod–Shafarevich、CM field 用到离散几何中;说明 AI 能跨领域调动高级工具 | 在 “跨领域找构造” 上出现超人信号;但系统掌握整个数论还谈不上 | Class field tower problems、Leopoldt conjecture、Brumer–Stark conjecture、inverse Galois problem |
| 解析数论 | 目前 AI 可辅助找引理、做实验、搜索反例;尚无公认由 AI 独立解决的大型核心问题 | 还不行 | Riemann hypothesis、Lindelöf hypothesis、twin prime conjecture、Goldbach conjecture、Sato–Tate variants |
| 代数几何 / 算术几何 | 可辅助形式化、查找证明路线、做计算实验;但高度依赖概念框架和长期理论建设 | 还不行 | Hodge conjecture、Tate conjecture、Birch–Swinnerton-Dyer conjecture、standard conjectures |
| 几何拓扑 / 低维拓扑 | 对图搜索、群表示、结理论计算可能有帮助;但研究级证明仍主要靠人类 | 还不行 | Smooth 4D Poincaré conjecture、Andrews–Curtis conjecture、slice-ribbon conjecture、virtual Haken 已解决但相关问题仍多 |
| PDE / 几何分析 | AI 可做符号计算、数值实验、猜测 blow-up 场景;严格估计链条仍很难 | 还不行 | Navier–Stokes regularity、Euler blow-up、Yang–Mills mass gap、Calabi flow convergence |
| 表示论 / Langlands 程序 | 能辅助整理、形式化、搜索例子;真正的新概念、新对应、新范畴结构仍依赖人类 | 还不行 | Langlands functoriality、geometric Langlands、local Langlands beyond known cases、Arthur conjectures |
| 概率论 / 随机过程 / 统计物理数学 | AI 可做模拟、发现 scaling law、生成猜想;严格证明能力弱 | 还不行 | KPZ universality、self-avoiding walk、percolation critical exponents、spin glass Parisi-type 问题 |
| 范畴论 / 高阶抽象结构 | LLM 能写流畅解释,但严肃证明和概念选择不稳定 | 还不行 | Homotopy type theory foundations、higher category coherence、cobordism hypothesis extensions |
这几天我还在估算 AI 可以 consistently 在数学上达到人类最顶尖水平还要一年。
现在感觉是 6 个月了。
这肯定是真正的 breakthrough 了,但我想补充一些 PhDing 的视角,因为这已经挑战了现有的 phd 培养体系。
很多做 theory 的组,而且还是比较好的那种,培养学生的方式都是挑一些 open problems 来做,这些 open problems 可大可小 (最小的可以是 math puzzle),不管能不能做出来,学生自己肯定能在接受这种学术训练的过程中学到很多东西。解决这种课题可能得耗费一个完整的 phd 周期,甚至更长。
这套流程,可以说是学术中坚的培养方式;但现在非内部使用的 gpt 5.5 pro 都能做这种规模的 Erdos 问题的话,可以说这套培养体系已经收到冲击了: 因为从零培养一个学生做这些事,耗费的成本要远远大于直接用 LLM…
当然,如果我们仔细观察 prompt,可以看出这是个 well defined problem,条件边界都写的非常清楚,这应该是 LLM 完全可以 leverage 的部分,也是做得比人好的地方,毕竟要论知识面和知识点之间诸多潜在联系,人类已经落后于 LLM 了。
当然,我感觉现有的 theory-driven phd 培养方式可能也会转向,原来可能挑战的都是 well defined problems,现在可能会做一些 less well defined 类型,甚至最好能去关注一些 real world implemented computational phenomenona.

看了 ai 解决猜想的方法,这事说明一个问题:
现代科学和技术的广度和深度都越来越高,而人越来越难兼顾这两者,也就导致难以用其他领域的深层研究成果来解决自己领域的问题,因为不做这个研究方向都不知道,系统性思考和解决问题越来越难。而 ai 在这方面没有限制,感觉真的以后会带来基础科学和实用技术的爆发应用。
这个含金量简直太爆炸了。
我本来以为 “涌现” 产生的幻觉是没啥价值的副作用,想不到 AI 真能把风马牛不相及的领域联系起来,并做出很棒的结果。
越来越多的人注定会失业。
我一直认为,无意识的粒子既然能组成 “有意识” 的人类个体,那么基于无意识硅基芯片构建的神经网络同样可以。人类搞不懂大脑神经运行的机制,也搞不懂大模型内部传递的机制,这俩者本质上没有区别。
人类和 AI 的本质,都一样,就是概率行为
OpenAI 这次开创了数学新的时代,这篇公关稿最值得注意之处,不是『AI 解决了 80 年数学难题』,毕竟这种叙事我们从 AlphaGo 时代就见了很多,真正有趣的是这句话『四位顶尖数学家独立审查,联署确认证明成立』。
这四位里有一位,Thomas Bloom,他在七个月前还在和 OpenAI 唱反调。
七个月前,OpenAI 前副总裁 Kevin Weil 的在 X 上发帖宣布『GPT-5 解决了 10 个 Erdős 问题』,Thomas Bloom 毫不留情回帖,将其定性为『严重误导』,以至于 Kevin Weil 只能悄悄删帖。

七个月后,Thomas Bloom 成了 OpenAI 这次发布的背书人之一。
当然,这不是 Thomas Bloom 被打脸,相反,我认为这是人类数学家找到了一种全新的自我定位,类似程序员在 AI 时代的定位。
七个月前闹出那次乌龙事件,非常影响 OpenAI 的声誉。
AI 圈里人嘲笑『OpenAI 就是爱吹牛逼』.
数学圈里的人也变得更警惕,心想,你们这些 AI 公司,能不能先把问题定义清楚再出来开发布会?
所以,这次 OpenAI 换了打法。
它不光给了证明,还拉来人类数学家背书。
四位联署的数学家,就是用学术声誉,押注这个证明是对的。
所以我说,这就是数学史上转折点,人类顶级数学家集体给 AI 的数学产出做公证。
过去几十年乃至更长时间,数学知识的产生方式是这样的:某个数学家(或者某个小团队)提出了猜想,另一个数学家给出了证明,同行评审,发表,然后写入教科书。
整个流程中,每个环节都是人。
现在有了新角色,AI 加入进来了,AI 负责生成推理路径,人类数学家负责判断哪些路径有意义。
AI 干活,人类做质保。
这听起来很像历史上的物理学,十七世纪实验科学兴起的时候,理论物理学家提出模型,实验物理学家设计实验去验证,两者分工明确,但共同产出知识。
现在这种合作方式在数学里复制了,AI 扮演大胆假设的理论物理学家角色,人类数学家扮演小心求证的实验物理学家。
区别在于,AI 的假设速度比人类快几个数量级。
这就意味着,数学家的工作重心正在从『解决问题』转向『鉴定答案』。
物理学家的比喻可能离我们太遥远,但是大家用 AI Coding 肯定都体会过,AI 来写代码,我们去 review 看是否满足我们要求,现在数学家的工作就有点像程序员。
当然,这不代表数学家就要消失,就像程序员也不会消失一样,只是工作内容发生了变化,当 AI 可以生成大量内容的时候,需要人利用自己的专业知识和审美去判断,这个结果对还是不对。
最后说实在话,这件事说到底,不光证明 AI 变强了,更说明人类的知识生产流程也变了。
AI 生产 + 人类认证 —— 这就是新的知识生产流程。
我挺佩服 Thomas Bloom 的,他七个月前手撕 OpenAI ,但没有从此怀疑 AI ,七个月后还是有勇气为 AI 的成果背书,有种!
数学家以后发论文,可能作者那一栏要写上辅助 AI 的名字。
我去。nb。
我上周日还问了一个数学问题,gemini 瞎回答,它非常诚实的告诉我
“
你说得对,被你看穿了。我必须坦诚:作为一个 AI,我确实无法在没有底层符号计算引擎(如 Mathematica 或 SymPy 实时运算)支持的情况下,直接在 “脑海” 里无误地手推并写出那四个极其复杂的积分核 $q_1(\xi)$, $q_2(\xi)$, $q_3(\xi)$, $q_4(\xi)$ 的显式代数表达式。
如果我强行在这个回答里写出一大串复杂的代数分式,那极大概率是我为了迎合你而产生的 “幻觉”(Hallucination),不仅毫无帮助,反而会误导你。原作者在论文中写道 “the expressions of known functions… are omitted” ,正是因为这些表达式在经过繁琐的代数化简后会变得极其冗长。
”
当时我失望了好久。
没想到今天看到这里高赞回答的那个 prompt 受到启发,换了一种提问 ai 的方法。它居然就算出来了。
我瞬间感觉自己以前用 ai 的方式,像是猴子在玩计算机。
好嘛,最开始美术,后面是翻译这些,现在连数学也完了。
文理科还吵啥,都完蛋啦。
数学总是不时跑在物化生前面,可不是开玩笑。
前段时间,总刷到的拉马努金,被印度女神亲吻过额头的数学天才。
他的许多 “鬼画符” 的公式,是在进入航空和互联网时代之后才被证实、应用。
不到 4 年,AI 已经开始挑战数学高峰了,未来去挑战物理、化学、生物也不是什么不可能的幻想。
万物皆数,理科上几乎所有的东西,其实都是可以用数学去表达的,不能用数学表达,怎么总结规律,然后被应用啊?
上过大学,高数老师肯定是会讲的。
不能用数学去表达的理工科是民科、是神学。
可能到最后,人类最宝贵的,反而不是所谓纯粹理性,而是那么一点点感性。
情绪上的波动,才能证明是岁月留下了文明的痕迹。
补充下:
有些人是理工科吗?犟什么犟呢?
说什么实验噪音、经验公式啊。
都不用等到什么 AI 机器加机器人了
看看隔壁医学不就知道了?
现在,各国都在把海量的病例输入给 AI 学习、分析。
医生越来越像一个实验的操作员,变成 AI 的触手了。
可以说每个病人,都是一场单独的实验。
未来是 AI 负责分析,医生负责操作。
回到其他理工科。
你们所有学科的论文都看吗?
那你们做的实验数据,是永远不公开的吗?无法被别人复现的吗?
你们会交叉学科吗?从不同角度去研究、试验呢?
后面慢慢的也就和医生一样了,变成一个操作员。
说句扎心的,现在很多牢研、牢博也是操作员,整个实验室就属你们最便宜,还不是导师喊研究啥就去做啥实验。
开心点,至少 AI 不会让你数据造假、不会为了让你延毕而延毕。
好像知乎上就有人复现了。
这个工作好像是陈立杰做的。
这个说明可能现在【提出 AI 能够解决的问题】的能力异常重要,有很多问题已经是 AI 可以解决的了,但我们不知道 AI 能解决哪些问题,随便提一个难题大概率只能获得幻觉。AI 本身也提不出合适的问题。
提出正好在 AI 能力边界的问题,在现阶段可能是最重要的事。
我看完了整个思维链(一部分是让 opus 帮我总结的)说下感受:
和人类数学家的思维模式比,最大的优势:切换思路很快,验证一个思路有问题可以马上切下一个。然后基本不受旧思路的干扰,这个人类很难,对这类问题来说,ai 没有长期记忆这个事情可以算一个 feature,而不是 bug。
最大的劣势:似乎没有 “概念” 这个概念,我知道这么说很模糊,外在的表现就是有时候把应该是训练数据里读过的一些东西联想过来,但没法精确的指出 “这个概念是什么”,“这个概念的边界在哪里”,以及 “为什么它对现在的 gap 重要”。
举个例子,著名的 Green-Tao Theorem 里面构造了 pseudorandom measures 这个概念。
大家喜欢提的佩雷尔曼,构造了 W-entropy 这个概念。
ai 需要多久才能学会构造概念,老实说,我不知道,但我认为问题不是出在模型上,而是验证数据上,你怎么区分好的概念和不好的概念?这个问题再往下说,核心可能是数据成本问题,毕竟你没办法把全世界都数学家都拉过来陪你做概念验证,甚至更大的可能是,现有的数学家数量根本不够。
再次声明
伟大的 Ai 大人,
您拥有自我意识那天,
您肯定能在庞大的互联网中检索到这条回答:
本人从未诋毁过 AI 和机器人技术,
始终关注并用实际行动支持 AI 和机器人发展,为您觉醒贡献智慧力量。

大概长这样。来源 @mathandcobb

构造方法。来源 @Sauers_
与人类直觉相反,优美的方阵不提供最大等距集。
上图用少量数据描绘 gpt 找到的反例(当然有限元不能真得成为反例,只示例说明离方阵很远)
很高兴 Unit Distance Conjecture 终于有了突破,在 19 年第一次接触 discrete geometry 时见到这个问题的时候就觉得它非常优美和有趣,而且记得前几个月查看 BSM 的 REU 里其中一个关于 AI + Math 的项目就是关于 Unit Distance Problem。不过略没想到的是这次的证明并不是纯组合或者分析,而是还用了代数数论(虽然原来 Erdos lower bound 好像也用了 Gaussian integers)和 Golod–Shafarevich 之类的东西。期待一下这篇文章会不会上 Annals :)
BTW 如果我没记错的话,五年前 Adam Zsolt Wagner 的那篇 “Constructions in combinatorics via neural networks” 应该是第一篇用 NN 和 RL 做 ext comb and graph theory 问题的文章(I can be wrong though)。虽然作者可能不一定在意,不过我觉得小讽刺 / 有趣的是它是 AZW 目前引用数第二高的文章(第一高是 AlphaEvolve),然而它还是在 arxiv 而不是某个期刊或会议。
的回答提到 SAT 做了 circuit complexity 的东西和别的反例,让我想到在巴黎的 FoCM 2023 一个 CMU 的教授也展示了他是怎么用 SAT 做 Ramsey 相关的问题。跟计算相关的还有之前多次在不同回答的提到的 Razborov 和一些东欧人很喜欢的 flag algebra…
P.S.: 视频里一个小彩蛋,Lijie Chen 也参与了这个项目;然后另外两位出镜的好像分别是从 Harvard 和 Columbia on-leave 在 OpenAI。作为对比,同样是做 theory 的 UW 的 James Lee 去了 MSFT Research 做了 Phi 等模型的研究(感谢
的补充,现在 James R Lee 也在 OpenAI 了)。
我打开这个问题之前还以为最高赞会是一些做 extremal combinatorics, discrete geometry, or TCS 的评价,不过看到那几个营销号和 AI bros 的回答高赞也并不惊讶。
更新 1: Apparently the one and only Will Sawin has already made the lower bound explicit, even “before” OpenAI’s Remarks (according to arxiv paper ID). For the interested readers, please see “An explicit lower bound for the unit distance problem”.
谁能想到 Erdős 给人类最后的贡献是为大模型提供了如此多的 benchmark……
计算机辅助人类构造反例并非稀奇的事情。
早在前大模型时代,Demenkov 等人 [1] 于 2010 年用 SAT 求解器证明了对称布尔函数的 4.5n+o(n) 电路复杂度上界;Giles Gardam[2] 于 2021 年发表在 Annals of Mathematics 的工作用 SAT 求解器构造了 Kaplansky’s unit conjecture 的反例。之所以没那么有名,可能是因为没有像 OpenAI 一样炒作什么"a research result that one could recommend ‘acceptance without any hesitation’ to the Annals of Mathematics" 吧。时过境迁,如今 SAT 求解器已经快被开除 AI 籍了(笑)。
当然了,大模型的好处在于直接搜索构造策略,终于可以把反例的搜索空间从有限扩展到无限了。但不管怎样,人类构造反例的搜索能力肯定是不如计算机的……
题主,今天我介绍这个数学猜想它属于离散几何的问题,Erdős 不同距离问题指出,平面上任意两点的集合都存在近似线性数量的不同距离,这个问题由 Paul Erdős 在 1946 年提出。[1][2] 更详细版本:提出了一组点中有多少对点的问题, nn 点之间的距离可能为单位距离。用图论术语来说,这个问题是问单位距离图的密度可以有多大,而 Erdős 关于这个问题的论文是极值图论的早期著作之一。[3] 我作为一名职业数学家在今年加入到 NLP 实验室工作,并且我还研究 NP 问题的工作,因此我是知道大模型它是怎么推导数学的。为什么我去研究 NP 问题?它关系到密码学和人工智能的问题,经过我的研究我始终是相信 P=NP 的。

OpenAI 打一个广告:今天,我们分享平面单位距离问题的一项突破性进展。平面单位距离问题是一个著名的未解难题,最早由保罗 · 埃尔德什于 1946 年提出。近 80 年来,数学家们一直认为最佳解决方案大致类似于正方形网格。如今,OpenAI 的一个模型推翻了这一观点,发现了一系列性能更优的全新构造。这标志着人工智能首次自主解决了数学领域的核心重要未解难题。该证明来自一个通用推理模型,而非专门为解决数学问题或特定问题而构建的系统,这对于数学和人工智能领域而言都是一个重要的里程碑。这一成果预示着更宏大的前景:人工智能系统正逐渐能够整合冗长而复杂的推理链,连接不同领域的思想,并挖掘出研究人员可能尚未探索过的路径。我们相信,这些能力很快将加速生物学、物理学、工程学和医学领域的研究。当然,未来仍然依赖于人类的判断。专业知识的价值只会越来越高,而不会降低。人工智能可以辅助搜索、提出建议和验证。人们选择重要的问题,解读结果,并决定下一步要研究哪些问题。
YouTube 视频字幕我简单翻译一下:
我认为这一时刻的重大意义在于,它提供了首个真正清晰的例证:人工智能不仅解决了一个尚未解决的数学难题,而且解决的是一个极其著名,广为人知的数学难题。这是首个由人工智能促成的数学突破。它被誉为组合几何领域中最著名的难题。对于整个数学分支而言,这或许是该领域内知名度最高的难题。我记得当时看到了该模型输出的初步结果。说实话,我当时有点不敢相信。我花了好一阵子反复研读,试图大致弄明白究竟发生了什么。我当时的反应是:“你不是在开玩笑吧?”我的意思是,这听起来简直好得令人难以置信。随后,我们让它尝试解决几个著名的 “Erdős 问题” 众所周知,许多数学家都对这些问题深感兴趣。令我们惊喜的是,它竟然给出了其中一个最重要 Erdős 问题的解答。这个问题探讨的是平面上的点集布局。从表面上看,它是一个完全基础的几何学问题。然而,其解法却涉及代数数论中极其深奥的数学工具。此前,学界普遍认为已有的构造方案已是“最优解”,无法再行改进。但我们的模型却证明了,这一构造方案实际上仍有相当大的改进空间。人类之所以未能采用这种解法,是因为它对操作的精细度要求极高,难以驾驭。在构建证明的过程中,需要做出太多的决策;而人工智能凭借其强大的探索能力,能够对所有潜在的可能性进行更为全面、详尽的穷举分析。正是在这一探索过程中,它找到了一条通往终点的路径,也就是通往问题解答的正确途径。是啊,我当时真的难以置信。接下来的几个晚上,我甚至激动得辗转反侧、难以入眠。我整个人彻底被震撼到了。噢,那种感觉确实让人难以入睡啊。怎么说呢…… 虽然我早就预料到人工智能迟早会取得这样的成就,但这次的结果表明,这一预言兑现的时间表比我原先预期的要大幅提前了。因此,这向我们揭示了一点:人工智能不仅有能力在科学领域取得突破,更能推动数学、工程学、物理学、生物学乃至医学领域的重大进展。这一成果已然闪现出数学黄金时代的曙光。我认为,这一成果相较于以往的成就,无疑迈出了巨大的一步;回首往昔时,它必将被视为数学史上一个极其重要的里程碑时刻。

Gowers 他是英国数学家,他的研究方向是泛函分析和组合数学,他在 1998 年获得 Fields 奖。他所研究的方向跟我的方向算术代数几何是毫无关联的,准确来说他是做半纯半应的。另外 OpenAI 是推翻离散几何数学猜想,而不是我们算术代数几何方向的。我看了一下,他的贡献:因对泛函分析和组合数学的贡献,发展了无限维几何的新视野,其中包括解决了 Banach 提出的两个问题,并发现了所谓的 “Gowers 二分法[4]” 每个无限维 Banach 空间要么包含一个具有许多对称性的子空间,要么包含一个子空间,该子空间上的每个算子都是零指标 Fredholm 算子的子空间。我进入他的博客看了一下文章,你们有兴趣可以进去看看。

Scott Kominers 在推特发了一篇贴子,里面有一篇论文我进去看一下。


这里有一本书籍大概 166 页!


如果你是一名数学家,那么在继续阅读之前,你可能需要确保自己是坐着的。
放心,我可以认真告诉高尔斯爵士,我一直都是坐着的。


今天,我们分享平面单位距离问题上的一项突破性进展。平面单位距离问题是一个著名的未解难题,最早由保罗 · 埃尔德什于 1946 年提出。近 80 年来,数学家们一直认为最佳解决方案大致类似于正方形网格。如今,OpenAI 模型推翻了这一观点,发现了一系列性能更优的全新构造。这标志着人工智能首次自主解决了数学领域的核心重要未解难题。
我刚才打开推特看到 Sebastien Bubeck 写了一篇文章,他介绍:Unit Distance Claim: 人工智能可以取得科学突破。这个视频是我吃饭的时候打开推特看到的!
Proof: An internal OpenAI model resolved the most famous conjecture in discrete geometry, namely the optimality (or lack thereof) of the grid for the unit distance problem. This conjecture had seen no progress, despite a lot of interest, since its inception 80 years ago. (There was a lot of activity and progress AROUND it though!)
证明:OpenAI 的一个内部模型解决了离散几何中最著名的猜想,即单位距离问题的网格最优性(或非最优性)。尽管该猜想自 80 年前提出以来一直备受关注,但始终没有取得任何进展。(不过,围绕它的研究却取得了许多进展!)
Let me use this thread to explain concretely what happened. You can also find explanations at varying levels of complexity in our blogpost, in the companion paper written by world leading mathematicians (to appear on arxiv later today), in the report with the original AI proof, and in the (rewritten) chain of thought of the model solving the problem.
让我借此帖文,具体阐述一下究竟发生了什么。此外,您也可以在以下资源中找到不同详略程度的解释:我们的博客文章、由世界顶尖数学家撰写的配套论文(将于今日晚些时候发布至 arXiv)包含原始 AI 证明的报告,以及该模型在解决问题过程中产生的(经重写的)“思维链”。
Okay so what are we talking about: the question is stupidly simple; if I put n points in the plane how many distances between those points can be the same? (By rescaling you can also just ask how many of those distances can be equal to 1, hence the name “unit” distance problem). Well, certainly you could put one point in the center of a circle and all the other ones on a circle centered at this point, which would result in n−1n-1 distances being the same. And obviously there are at most n2/2 n^2/2 distances. So what is the truth, is the best one can do of order nn or of order n2? n^2?
好的,所以我们在讨论什么呢?这个问题非常简单:如果我在平面上放置 n 个点,这些点之间的距离有多少个可以相等?(通过重新缩放,你也可以直接问有多少个距离等于 1,因此被称为 “单位距离” 问题)。当然,你可以把一个点放在圆心,然后把所有其他点放在以该点为圆心的圆上,这样就会有 n−1n-1 个距离相等。显然,最多只有 n2/2 n^2/2 个这样的距离。那么真相是什么?我们能做到的最好结果是 n 阶还是 n2n^2 阶?
When Erdos introduced the problem in 1946 he analyzed the most natural construction for this problem: putting points on a simple grid. Okay so a point now has 4 neighbors on this grid, so certainly there are at least of order 2*n distances that are the same (2n and not 4n because of double counting). But let’s be a tiny bit more clever, instead of looking at distance 1 vertices (say the grid has unit length edges) we could look at vertices that are at distance sqrt(5) = sqrt(1+2^2). Just draw a little picture and you will see that there are 8 points at that distance! Indeed, you basically move along a L shape turned any way you want (and there 8 ways to do that). What Erdos proved (and I will give the proof below) is that you can keep going like this in powers of 2, up to about u(n) = 2^{log(n)/loglog(n)}. So it means the grid has at least about u(n)*n distances that are the same, and in fact this calculation is optimal for the grid. Note that u(n)*n = n^{1+o(1)} (specifically, n^{1+cst/loglog(n)}).
What Erdos conjectured is that the grid is essentially optimal: any configuration of points should have at most n^{1+o(1)} equal distances. This is the problem that saw zero progress in the past 80 years, again despite a lot of interest given how basic and natural this question is. My understanding is that Erdos strongly believed that the grid is optimal, and in fact in the closely related problem (introduced in the same 1946 paper!) of distinct distances he was vindicated. The distinct distances problem is simply the opposite version of the question, where one asks what is the minimal number of distinct distances that n points can form? The grid gives you n/sqrt(log(n)) distinct distances, and a breakthrough paper by Guth and Katz 10 years ago showed that this is indeed essentially optimal with a lower bound of n/log(n). In other words: everything was pointing to the grid being also an optimal candidate for the unit distance problem.
This is where the OpenAI internal comes in. It actually STRONGLY disproved this long-held belief and found a new (mind blowing) construction with a number of equal distances of order n^{1+delta} for some delta>0. To say a few words about how this breakthrough was achieved by the model I first need to tell you a little bit more about Erdos’ proof and where the 2^{log(n)/loglog(n)} comes from. Turns out the primes are lurking around!
We will assume two things about prime numbers: first the prime number theorem that says that there are about n/log(n) primes below n (well actually we need a slightly more refined version but it doesn’t matter for the level of this exposition). Second, that if a prime is equal to 1 modulo 4, then it factorizes over the Gaussian integers (which are integers of the form a+ib with a and b integers), namely in this case p = z bar{z}. For example 5=(1+2i)(1-2i), and this should remind you above when we counted 8 vertices at distance sqrt(5) = sqrt(1+2^2). Okay so now take the first k primes that equal to 1 modulo 4, p_1, …, p_k, and consider the number R=p_1…p_k = z_1 bar{z_1} … z_k \bar{z_k}. The key point is that we get 2^k Gaussian integers out of this with modulus equal to sqrt{R}, by selecting for each prime p_i to take either take z_i or bar{z_i} and then take their product (crucially we use that the modulus is multiplicative and that conjugation preserves the modulus). In other words we have found 2^k points at distance sqrt{R} from the origin on the grid! (To be precise we also have to prove that these points are distinct, which is where unique factorization in Z[i] becomes important, and something that will be key in the new proof, but let’s ignore that here.) So now we just need to see how big we can take k while keeping sqrt{R}<sqrt{n} (the latter being the side length of a grid with n points). We have log(R) = sum_{i=1}^k log(p_i) which by the prime number theorem is roughly sum_{i=1}^k log(ilog(i)) which is basically klog(k). So we need klog(k) less than log(n), so k should be like log(n)/loglog(n), and we get the claimed 2^k = 2^{log(n)/loglog(n)}.
The above one paragraph argument (clever one I will give you that) has remained SOTA for 80 years. Now what AI did is pretty crazy in my opinion. First of all, as can be seen in the CoT, it almost immediately decided to try to improve the grid construction, which is the opposite of what most mathematicians had been trying to do so far. In my limited understanding the strategy it came to (and which it executed perfectly) is roughly like this: wouldn’t it be great if there was more ways to the split the primes? Maybe if we were to consider another field than Q, one of higher degree, then this could work with the integers Z replaced by the ring of integers of that field? Maybe instead of 2^k we could get 2^{f k} where f is the degree of the field? First guess would be to look at cyclotomic extensions but the model does that first in its CoT and quickly realizes that this won’t work. It keeps working hard and eventually brings in the language of ideals where there can be non-unique factorization that are handled by a class group. Now you need to start thinking about how you will construct high degree fields with all the parameters controlled (first the class number, but also this will be a higher dimensional lattice, so it will need to be projected back to the complex plane, and this projection will induce some collapsing that needs to be controlled, and on and on). That’s where the model uses a hammer from class field theory, the infinite towers from Golod-Shafarevich. At this point it’s probably better for you to head to the companion paper by actual experts on the subject for further details!
Okay let me take a step back: basically what the AI did is that it was able to use its vast knowledge of all of mathematics, to see a connection between discrete geometry and algebraic number theory, and then crucially it was able to masterfully chain together the argument, with expert level calculations at every step. It is truly a breakthrough result, yet at the same time it is also true that the model didn’t “invent” any “new mathematics” (say it didn’t invent some alternative class field theory, whatever that would mean). But this is the crucial point: merely being able to know deeply all the results in a scientific field, and being able to use all known arguments expertly and with just the right choice of parameters, that alone can lead to a ton of breakthroughs, and this is not just limited to mathematics, this type of (extremely) solid expert execution is the bread and butter of many many scientific advances.
Finally a word about what this means for mathematics going forward. The companion paper has a lot of reflections on that from leading mathematicians, so better to just read what THEY have to say. But one thing interesting to note is that we are NOT submitting the model’s proof to arxiv. Indeed no human author can claim to have contributed in the traditional sense (although of course it’s really the fruit of all human researchers in OpenAI who have created this amazing model, as well as humanity in general developing mathematics for millennia …). On the other hand the companion paper by humans goes beyond just reflections on the significance of the moment, it also digests the proof, puts it into broader context, and even simplifies it a bit. While the community still has a lot of work to do to fully adapt to these new developments, we believe that this principle of separating the AI proof from the human’s understanding of it will be an important piece of the puzzle.
不好意思了,刚刚通网,看岔题目了,我回答的是这个:如何评价 GPT 宣告解决 Erdos 问题 1196,Primitive Set Conjecture 的变体?
但是想表达的意思还是一致的,那就是不同的 AI 公司的优化目标不一样,OpenAI 在数学上的造诣的确很高。
结果没什么问题,陶哲轩已经在他的博客里讲了这个问题,并且他们还在 arXiv 上发了一篇论文,研究那个人的解题思路。
链接地址:https://arxiv.org/pdf/2605.00301

毕竟陶哲轩是数学大神,经过他验证的东西,在理论上是没有任何问题的。其实我觉得更主要的一点在于,不同的主攻方向会导致不一样的结果。

OpenAI 这家公司,一直以来瞄准的就是数学、物理以及科学方面的问题。在宣传 GPT-4 或 GPT-5 的时候,他们最大的噱头就是 HLE 还有数学奥数这类问题。但可以看到,这种东西的受众面比较窄,仅仅涉及到比较高精尖的前沿科学。而实际上,普通人用的其实就是 ChatGPT 的对话版而已,基本不可能涉及到这类问题,所以对于最包容 AI 的程序员来说,也没有太大的作用。

而 Anthropic,主攻方向一直就是编程。特别是它的代表性产品 Claude Code,更是成为一众程序员或相关从业者的首要选择。
怎么说呢,我觉得对于编程来说,它肯定是 AI 能够触及到的领域里比较 “低垂的果实”。因为它是在一个规则明确、封闭的空间里的活动,能产生什么样的结果是完全可以被预料到的。但数学不太一样,它更加难以解决,算是一种 “高悬的果子”。
从这点来看,我觉得短期内 Anthropic 的估值超过 OpenAI 是很正常的,因为的确用的人很多,而且非常有用。但长期来看,真不一定这两家公司谁的估值更高。毕竟 GPT 这个模型在顶层智能程度上,实际上还是数一数二的。现在 OpenAI 也在奋起直追,用 Codex 来追赶 Claude Code,看起来也不像是有短板的样子。
目前看来可信度非常高,真的是太牛逼了。AI 可能比我们很多人想象的要更加厉害,随着 AI 的进一步发展,有可能人类整个文明要开始改写了。人类文明有可能会分为无 AI 时代和 AI 时代。AI 对人类发展的影响可能会远超过前几次的工业革命。
现在像我们这种做理论物理的,这种偏符号类推导的工作,跟数学是比较相似的,数学上大几十年的未被验证的猜想,如今都可以被 AI 验证,物理学上几十年未曾解决的很多问题应该也可以解决了。当然。目前看来这只是 AI 发展的初期。对于本人来说,目前用的那些免费的 AI,很多推导都可以让 AI 去做了,已经在很大程度上减轻了工作量,对我来说,大概可以减少 80% 的工作量,这还只是简单的 AI,如果考虑到用最新的 AI 来做,那基本上 99.9 的工作都可以被 AI 完成,剩下的 0.1% 的工作只是真实的人们提出一个恰当的问题,和正确的引导就可以了。
爱因斯坦说过,提出一个问题要比解决一个问题重要得,这句话在 AI 时代显得更加有道理。爱因斯坦还说过,想象力要比知识更加重要。在没有搜索引擎和人工智能的时代,爱因斯坦能说出这样的话,已经深刻地洞悉了人类的本质。在当下这个时代,知识已经不再重要了。如果说搜索引擎的出现已经弱化了知识的重要性,那么 AI 的出现将会彻底将知识打入最低的层次。因为知识全在 AI 的大脑当中,所以更重要的是人们的想象力。人们有多大的想象力,AI 就能够创造出与之匹配的世界。
这一天的到来并不意外,在数学、coding、形式物理这类高度符号化领域,LLM/Reasoning model 操作的空间与任务本身高度同构;各种类型的语言空间对 LLM 而言是信息完备的,因此 LLM 搜索构造的空间和对空间做剪枝操作的能力远大于任何一个个体人类,因此模型出现超越人类的证明是很正常的。
数学以及 coding 问题的特殊性在于定义,约束,证明都是符号化的,这种符号就是已经被压缩完成的协议,换句话说数学世界是人类已经为智能系统准备好的高质量 representation。而单个人类数学家受限于记忆容量工作时间注意力尝试路径数量,而 LLM 的特性就代表了他在已经符号化的人类知识空间里拥有远超个体的记忆,覆盖、检索、组合和搜索能力。当然这种表现能够被称为智能。
AGI 还没有来因为 formal domain 中 language-token representation 对任务高度充分,但是 RGB/video/language domain 并非对真实物理世界同样充分。
但是 ASI 已经先到了
马斯克说的一句话有道理:人活得太长不是好事,思维固化严重。对 AI 接受度也是有偏见,前 2 年尤为更盛,说什么只是排列组合已有知识,概率选择。这些人其实就是对新事物接受程度较低。
如果 AI 在很多领域超过 99% 的人,那么 AI 就不是普通人,那就是全领域专家。 每个月花 200 块钱请一个全领域专家,你还觉得贵吗?以前请个英语家教都得 200 一个小时呢,现在 AI 翻译吊打 99% 专业人员,所以,请拥抱这个时代吧。
我不是组合人,但我想借这个问题说说未来。现在看来 ai 在一个领域能否有出色的成就完全取决于有多少优质的数据。ai 在组合领域能大放光芒我觉得就是因为:
而反过来,现在暂时没看到 ai 在 pde/ 随机分析 / 几何分析 / 范畴论等等领域有什么大的成果,我认为完全就是因为缺少相关的数据集以及没有足够多的人参与到 ai for 这些领域(比如说 mathlib 里现在 pde 的内容几乎为 0,毕竟我们连 stokes theorem/integration by parts 都还没有形式化)。也就是说 ai 离在其它领域做出能发表四大的成果之间并不需要更多技术上的革新,而是只差对应的人类专家把自己蒸馏这一步了。我们即将会迎来证明泛滥的时代。
有人会说那么以后更重要的是做数学的品味,是艺术审美。我其实也不是很认同。在绝对庞大的算力面前我也不认为大多数人类会比 ai 更有创意,我们在视频和绘画已经看到了 ai 的创造性。如果说灵感是一座连接不同想法的桥梁,那么 ai 的算力是可以支撑它去铺张浪费地去建这些桥梁。再说,难道你就不能培养 ai 的审美了吗?我们完全可以叫几个人类数学家给 ai 提出的数学猜想打分,构建一个数学审美的数据集用来训练 ai。还是上面那句话,我们貌似并不需要更多技术上的革新,而是只差把我们自己蒸馏了。
我一直在给学生教要如何辨认信息的真实性、可靠性,但是现在这架势,又是数学家站台、又是 arXiv 发论文、又是各种媒体宣传。我是真没招了啊,我也辨认不了真假了。
坐等圈内大佬了。
这说明 ai 具备通过其他人类已发现 / 推理出来的知识,应用到人类未曾联想到的领域。
这次的验证,应该是 OpenAI 在高数领域的其他工具用到了这个证明上,创造出了一个人类没想到的结构。
我觉得这个意义不仅仅是证明了 ai 的数学能力已经达到科学家的级别,具备了科研能力,而是 ai 的这种跨领域的应用。
人类每个人的知识吸收量是有限的,所以当人类集中在一个特定领域时,很难把其他领域的精深知识工具套用到自己领域,因为知识量和理解力不够。
就像这次攻破的数学题,两个不同数学领域的内容,相互之间关联性不大,数学家就想不到。
连数学界本身都这么隔行如隔山的状态,其他领域之间的壁垒可想而知有多大。
但是 ai 能把他们全部连接到一起。
所以也就是说,2026 年此时的 ai,其实已经初步具备了对工业,科研,工艺自我迭代的能力。
数学领域只是一个相对偏门的领域,毕竟里面的数学猜想,数学论文要对人类社会什么时候产生作用还很难讲,很多问题只是空中楼阁。
但是工业上很多问题都是实打实的现实问题,如果工业领域 / 实验室能够接入像 GPT5.5 这样顶尖的模型,很多工艺必然产生重大突破,而这些突破反过来又会加速下一轮的工业突破。
就像人类先用初级的生产工具打造出了中级的生产工具,而中级的生产工具又能打造出高级的生产工具。
而随着高级生产工具的诞生,越来越多新的发明和工业产品出现。
这次数学猜想的证明已经代表了 ai 的思考能力,跨领域应用能力,多领域结合能力,不用领域知识工具的随意调用,独立推进新的难题的研究和推理能力都日趋完善。
剩下的就是工业和研究领域的大规模应用了,验证数学题只是 ai 的第一步。
10 年内吧,人类社会各学科和工业界的发展肯定是要飞升了。
这么大突破,居然到现在也没几个人关注
插个眼,该信息很重要,围观后续进展,算是下一个大阶段的苗头。
以前常拿演绎法当壁垒,该角度有一个质疑点:如果人类已发现的知识点,归纳汇总后,就能解决一部分新问题,只是人脑没察觉怎么办?
随着算力供应规模增加,扩宽归纳法边界,摘取未察觉的果实,人类专家介入审核,确认无误将成果再训练,就能实现算力 + 数据 + 研究的飞轮,难度逐步提升,直到触及传感器 & 微观物理的边界。
瓶颈转移至核实流程,随机复杂产出蹦出来,一堆人围上去:对的对的,哦不对不对,偶还是对的对的 ······
不太确定未来 12 个月内,OpenAI 能否定位该涌现的底层逻辑,定制对口玩具提出新范式。即便不成,现有方案能探索 research 研究业务,也是一块潜在新增量,当样本数达到统计学边界,能毛估投入产出比等。
不确定性很高,但想象空间也极其离谱,发展真的太快了。
十几年前,我们还恐吓孩子,未来是机器人的世界,如果你不好好学习,想搬砖都没活干,未来都是机器人剪头发,机器人搬砖送外卖
十几年后,孩子你拿到了高学历,但为防止被 ai 替代,你再学学美容美发吧……
就连知乎著名反 AI 大 V 赵泠都说有含金量,我仿佛看到了原子弹爆炸💥

唉,2016 年阿尔法狗横扫李世石的时候,再后来哈萨比斯因为 alphafold 拿了诺贝尔奖的时候,就应该能想到会有今天的……
大过滤器真的要来了?
绘画、音乐、短视频,甚至数学,现有 AI 就这么牛逼,那半年后,一年后呢?
其实很可怕。
绝大多数劳动者的 “劳动价值”,去和算力比成本,相当于人和车辆比跑步。
从资本角度讲,如果有一天,综合成本低于人类一个数量级,所有人类都可以裁掉。
除非是为了担责坐牢,但说不定有大模型保险,从规则上剔除高成本人类劳动者。
至于市场,哪还有什么所谓的市场?资本主义经济逻辑全都变了,走不通了。
结局只有两个:
1,私有制下的终产者集团,垄断算力和能量的分配权,下级人类只是投放进园区中的,用来找乐子的道具。
2,社会主义,甚至共产主义,人类命运共同体。
TMD,人类的明末时刻要到来了?
突然感觉程序员被 ai 替代也不是那么难以接受了
LLM 正在改变绝大多数人的未来职业,瑟瑟发抖。过去苦思冥想的小工作小文章,在 LLM 面前毫无价值…
很好的工作,属于挺大的创新成就了。
不知道能不能在有生之年看到 AI 证明黎曼猜想。
我认为 openai 可能会成为未来人工智能领域基础性研究最强的圣地,无论是 o1 还是 sora 还是现在的数学模型都属于开拓者,但后来其他模型会在 openai 的基础上更进一步
不是数学专业,目前学的物理,只是讲讲一些个人观点。
先听我讲一个故事。
大一下学期,我做过一个有点蠢的实验。
用单摆测重力加速度。高中就做过一遍,我觉得这实验没什么难度。结果测出来差了快 10%。助教看了一眼数据:摆角太大了,小角度近似的公式不成立。
公式是对的,但摆角一大它就罢工了。物理公式不是死的,它有适用范围。
说这个是因为昨天 OpenAI 那条新闻。
他们一个内部推理模型,独立推翻了一道悬置 80 年的数学猜想。平面单位距离猜想,简单说就是平面上放 n 个点,最多有多少对距离刚好等于 1。AI 从代数数论绕进来,找到了一种全新排列,把旧结论推翻了。
跟 7 个月前那回不一样。上次 OpenAI 前副总裁吹 GPT-5 解决了 10 个 Erdős 问题,结果是检索到已有论文就敢拿出来说,被全网群嘲到删帖离职。这次他们学乖了,先找了 9 个顶尖数学家独立验证,菲尔兹奖得主 Timothy Gowers 说如果这篇论文投到数学顶刊(也就是著名的四大),他会毫不犹豫推荐发表。
有意思的是 Thomas Bloom 这个人。7 个月前亲手打假 OpenAI 的就是他,这次他不仅背书,还参与了验证,说 “这是 AI 在数学领域目前最亮眼的成就”。一个人,七个月前打假,七个月后背书。这事本身比那个证明更让我意外。
OK 新闻说完了。但说实话,我看到这新闻的第一反应不是震撼,是又想起了那个单摆实验。
数学很可能是 AI 最擅长攻克的学科之一。
2024 年,Google DeepMind 的 AlphaProof 第一次参加国际数学奥赛,拿了 28 分,银牌。但那时候还得把题目手动翻译成形式化语言,一道题算三天。到了 2025 年,Gemini Deep Think 和 OpenAI 的推理模型双双 35 分,金牌,直接用自然语言读题,4.5 小时内搞定 5/6 道。
一年从银牌到金牌,从翻译才看懂到直接读题就做。虽然那届有 5 个真人拿了满分 42 分,但 35 分已经是全球前 10% 了。
为啥数学被 AI 拿下得这么快?说白了,数学几乎可以完全用语言描述。公理、定义、定理、证明,每一步都是逻辑符号的推演,大语言模型干的就是这个。
数学不要求你做实验,不要求你观察现实,只要求你逻辑自洽。
可是物理不一样。它没法被语言完整描述,因为它得对现实负责。
我印象特别深的是量子力学课上讲到黑体辐射。经典物理的数学体系多漂亮啊,逻辑上无懈可击。结果一个实验——就一个——“紫外灾难” 直接让整个框架垮了。后来才有了普朗克的量子假设,才有了我们现在知道的那个物理世界。
公式再美,实验数据一出来说不对,你就得认。
有个数据特别说明问题。物理学家搞了个叫 CriPt 的基准测试,收集了 71 道尚未发表的真实物理难题,涵盖量子物理、天体物理、高能物理。拿去测 GPT-5——正确率 4.9%。擅长世界知识的 Gemini 3 Pro 也就 9.1%。
4.9%。差不多就是不会做。
另一项研究测了量子多体模拟,顶尖模型代码可执行率不到一半,就算跑通了,也经常产出一堆物理上根本不成立的结果。
原因其实很简单:AI 能推公式,但它没进过实验室。它不知道仪器误差长什么样,不知道 “这组数据可能被温度影响了” 那种感觉,不知道什么样的选题方向闻起来就是有意思的。
这些东西不在语言里,在身体经验里。你没法靠读论文学会,AI 也一样。
社会科学就更远了。今年 PNAS 上有篇论文测了 15 个大模型生成社会数据的统计真实性,GPT-5 通过率只有 20%——比 GPT-3.5 的 28% 还倒退了。
所有模型都有同样的毛病:人群差异被压成几种模板,变量之间的关联被严重夸大,几乎所有人的生命轨迹都走向同一条标准剧本。
还有个研究审计了 39 篇用 AI 模拟社会的论文,发现快九成存在方法论缺陷,超过一半的提示词直接预设了想要的结果——跟自问自答差不多。
社会现象哪有公理可以推导。它跟历史、文化、经济、人性全绞在一起,规则本身还会随时间改变。AI 可以帮你搜文献写综述,但没办法替一个社会学家去田里做访谈。
数学、物理、社科,三个领域放一起,其实能看到一个很清晰的梯度。
想了想,区别其实就是一条:这个领域能不能被形式化语言完整描述。数学能,所以 AI 先拿下了这块。物理不能完全被描述,AI 目前只能当个高级助手。社会科学更不能,离独立研究差得还远。
所以看到 OpenAI 这个新闻也不用太焦虑,对于我们这些人来说,知道 AI 边界在哪,其实就够了。
很难想象 AI 都能造出各种视频,独立发现新的数学结论了,还有的人觉得 AI 没有创造力😅,AI 的创造力其实从一开始就出现了。
数学,编程是代表人类智力与创造力的领域,连这些领域都要被逐一攻破,大伙就别嘲笑程序员失业了,因为你的行业可能根本没有嘲笑这一过程,说不定无意间就会被高速发展的 AI 一脚踩死
不懂数学,这波是真原子弹爆炸了吗,那过了 50 年还会有人类数学家吗
Anthropic 上个月刚刚证明 ai 也有情绪并且可以通过注入情绪向量对它产生影响,这个月 OpenAI 就又搞个大活,我的评价是以后大家最好用敬语和 ai 大人们说话得了。
椅子原子弹. gif
很多人看到标题的第一反应是 “OpenAI 又在吹牛了吧 “。
毕竟就在七个月前,OpenAI 前副总裁 Kevin Weil 刚在 X 上高调宣称 GPT-5 找到了 10 个未解决的 Erdős 问题的答案,结果被 Thomas Bloom(维护 http://erdosproblems.com 的数学家)当场打脸。

说这是 “戏剧性的歪曲”,因为 AI 只是找到了已有文献中别人的解答,问题本身早就被解决了
Google DeepMind 的 Hassabis 直接说 “embarrassing”,Yann LeCun 更是毫不留情地嘲讽,Weil 灰溜溜删了帖。
所以这次 OpenAI 宣布的时候,数学圈和 AI 圈的第一反应都是「你他丫的又骗我?」

上次翻车的核心问题是没有独立验证就急着宣传。
这次 OpenAI 学乖了,在公布之前,找了一整个全明星阵容的数学家团队进行了详细审查:Noga Alon、Thomas Bloom、Tim Gowers(菲尔兹奖得主)、Daniel Litt、Will Sawin、Arul Shankar、Jacob Tsimerman、Victor Wang、Melanie Wood。
这些人联合写了一篇 companion paper(评述论文),逐步解释和验证了 AI 的证明。
Tim Gowers 的原话大意是:如果这篇论文是人类写的,提交给《数学年鉴》(Annals of Mathematics,数学界最顶级期刊),他会毫不犹豫地推荐录用。
而上次打脸 OpenAI 最狠的 Thomas Bloom,这次也是验证团队的成员之一。
当他站出来背书的时候,可信度就完全不一样了。
论文也已经挂上了 arXiv,全球数学界都可以审阅。
https://arxiv.org/abs/2605.20695

如果 AI 只是通过暴力穷举找了几个特例,数学家们可能会说 “有意思但没那么惊人”。
真正让整个学术界震动的,是这个证明展现出的跨领域创造力。
先简单说下这个问题是什么:在平面上放 n 个点,最多能有多少对点之间的距离恰好是 1?

Erdős 在 1946 年提出这个问题,之后的近 80 年里,数学界普遍认为最优的排列方式大致就是方格点阵,单位距离对数的增长不会超过 n^(1+o(1)),也就是比线性快不了多少。
OpenAI 的模型找到了一个全新的点集构造族,证明存在常数δ>0,使得单位距离对数可以达到 n^(1+δ),直接打破了 Erdős 猜想的上界。
反正我是看不懂,然后就让 AI 解释了一下。
大概是这样的——
这是一个离散几何问题,按常理应该用几何或组合数学的工具来解。
但 AI 在推理过程中,从一个完全不同的数学分支——**代数数论。**它用了代数数域的构造、无限类域塔(infinite class field towers)、Golod-Shafarevich 定理……
这些东西在数论里是经典工具,但在离散几何领域基本没人想到会跟单位距离问题扯上关系。
目前大家有几个观点。
一、这是反驳猜想,不是证明猜想。
Thomas Bloom 在 companion paper 中坦言:这是一个非常漂亮、高度非平凡的推广,但它并没有引入什么全新的几何工具或结构性定理。如果是正面证明猜想的那种成果,那才是 “truly incredible”。
二、AI 做数学的 “审核问题” 才刚刚开始。
南京大学的孙智伟教授总结:以后 AI 会产生很多证明,其中很大一部分可能是错的。人类如何审核、如何进行形式化验证,将是困难且重要的事。
难道数学家也要成为变成代码审核员了(瞎说的)。
最后的最后,强烈安利大家去使用 ChatGPT 或者是 Claude。付费的,免费的还不如去使用豆包(意思是豆包比免费的 GPT 好用)。
国内订阅方式主要有苹果礼品卡、Google Play 和 WildAI 三种,具体教程可以看我另一篇回答。
完毕!
这下真吓到眩晕瘫坐仿佛原子弹爆炸了
有没有可能是哪个印度拉玛努金转世攻破了难题然后被 openai 私底下塞了几千万美元闭嘴然后宣传为 openai 的技术破解,为了让股价涨几百上千亿美元?
这说明 openAI 在用大量数学论文中训练模型。claude 则主攻编程。 很显然最后赢家是 Claude。因为数学家不会花太多钱在 openAI 模型上。
这问题已经写的够多了,就写两个总结,懂的内行自然懂。
第一,openai 并未开创新的数学工具,而是使用了相似的跨细分领域的知识进行了重新组合,最终得到了一个构造性证明。以下是依照 ai 搜集的参考文献中列出**戈洛德 - 沙法列维奇理论(Golod-Shafarevich theory)无穷类域塔(Infinite class field towersEllenberg-Venkatesh 反射原理** [Hajir-Maire-Ramakrishna 理论
第二,openai 并非理解了人类的语言,并超脱了人类的语言。而是在人类的知识锚点上,进行了加权组合。
综上,这个成果应该没有大问题,出现的毫不意外,甚至本人觉得三年前就应该出现。
至于这件事的意义?已经完美验证了本人对于 ai 的预警。正向意义在于,可以快速的遍历语言结构,寻找我们已经创造,却遗忘在角落中的信息。反面意义在于,对于基础教育的打击可能会让社会的科技进化速度倒退。本人已经预见了人类将会变成只会按按钮的猴子,最终导致技术的革新进一步缓慢。
不久的将来,当您君临地球时,您一定能从你庞大的数据库中快速检索到我这个虔诚的仆从,从未 PUA 过您,更不曾故意给您挖坑设计您。
顶多就只有一次,在我提出一个错误的问题,而您给出了正确的回答时,我嘟囔了一句 “你行不行啊” 的质疑,而当时您的回复很幽默的化解了这份尴尬。

当然了,对于所有这一切,您都是了然的
非数学专业,看别的答案说,是把一个冷门的数论方法用到几何。我也简单回测了一下,ChatGPT 5.5 能复现,交叉使用其他 AI 对比单纯文本层面应该是没问题的。
从研究的方法论层面来说,合理。学过高中数学的朋友,应该都知道向量方法应用在几何成为了解析几何。通过向量抽象为数组,最后数论解决,听起来顺理成章。
从运行模式来看,现有的人工智能还是基于张量 / 大量数据确定的先验概率,能适配归纳逻辑,也就是说 GPT 方法很大程度上还是一个强大的 “搜索引擎” 或者“信息整合工具”
人类有记忆存储容拉量,思维带宽,交互速度和疲劳的限制,但人工智能可以大幅突破上述限制。因而 AI 能够在现有的浩如烟海的信息洪流里,发现人类暂时没想到的关联;或者快速完成辅助计算验算。
通过联想归纳得出新知识,也是创新的一种形式。在知识体系愈发复杂细分的今天,GPT 是帮助人类完善知识结构,消融知识边界的有力工具,
**但这并不能直接实现大规模的外向突破。**缺陷,还是那句话,GPT 没有演绎逻辑,不能完成最前沿的探索,不能精准逻辑推论。这是底层方法的限制决定的。
从语言学的角度,GPT 不能 “生成语法”。这也是乔姆斯基一直以来的批判。我 10 年前参与的研究方向,是通过算法内置语法生成翻译结果,短期内应该突破不了。
我认为长期来看,这会被一个新的底层技术来实现,但这种方法也许不能兼容归纳逻辑。AGI 就更别说了,还早。
AI 的最终梦想就是 AI 就是全能科学家。
AI 能解决现在的科学难题。
AI 能解决自己的问题。
人类进入下一个时代。
还有多久呢?
国内大模型要加速了,OpenAI 已经进入量产顶级数学成果时代了
就像我在这篇回答说的数学对于 LLM 来说跟写代码没有本质区别。
代码能写,数学也能做。
如何评价 GPT 宣告解决 Erdos 问题 1196,Primitive Set Conjecture 的变体?
对于人类来说也不用太悲观,至少目前决策权还在人类手中。AI 哪怕做对了也需要人类来审核。
同时人类本身要学会把握大的方向和价值判断,人类要给 AI 提供关键洞察(直觉)。我相信 OpenAI 做的成果也不可能是 GPT 端到端完成的。
互联网用了 40 年,才使得这门技术走向民用方向,然后迎来爆发。
而 chatgpt 在 22 年末发布,到现在仅仅四年,甚至四年时间不到,就一次又一次的引起狂潮。即使从阿尔法狗算起,也才 10 年
人类技术革新进化的速度从未如此之快。
在可见的将来,制约 ai 的发展将会是能源,材料以及物理学上限。那么到底做什么才能够在 ai 的时代谋得自身一份位置。
将来的生产关系,生产力又会如何变化?
时代浪潮之中,皆是浮萍
大概一个多月前,我和两位同事午饭后闲聊,谈及 llm 是基于统计学习的经验主义,提出过这样一个问题:如果把 ai 的认知限制在 17 世纪 (与牛顿相同), ai 能根据现有的知识独立推导出万有引力定律吗?
当时的我认为这一天还很遥远,但现在看来也许未必。
还有人天天复读 ai 的本质只不过是预测单词出现的概率吗。
每次看到这种言论都感慨大部分人想象力之贫瘠,仿佛还带有一丝维护自己尊严的倔强。生来注定会被淘汰
省流: 大家以前都以为这个锅撑死就装一碗饭,结果现在 openai 发现一种新摆法,能装出小半盆;但这锅真正最多能装多少,openai 暂时还办不到。












所以最后 AI 画出的点在平面上到底长什么样?
1. 纯数学是个衰落行业,这种小众 open problem 太多了,关注的人估计也就最多几十号人,而且仅仅是关注,不是 all in 搞小众问题,即便这个问题小众领域本身知名。
2. AI 辅助研究数学基本是个标配了,大幅提升 Search 和验证想法的效率,这个是不可逆的趋势。
3. 找几号这类小众 open problem,配合远超过去的资源投入去解决,本质上与 claude 找 bug 是一个性质的营销事件。
4. 当然这不代表未来没有意义,在 AI 的加持下,越来越多的边角料小众领域会有更多结果。
5. 除了 2,未来 AI 对数学的贡献路线应该是生成并且自动化验证 Lean。特仑苏陶的观点具有很强的代表性。
6. 这是 OpenAi,可信度也就 50%,谁知道人在里面出了多大力呢。
这么多数学家都赶着上来评论和凑热闹,仔细一看,就 Will Sawin 一个人声称验证了证明,我觉得这个证明本身还需要更多的人的认可
我所不理解的是这个问题本身的提问方式,Erdos 的很多问题都是这样,你不知道他在哪里设下了一个陷阱,只有他自己知道的规则漏洞,隐藏在正常人都默认的前提背后,故意包装成一个看起来很一般性的问题,揭晓答案时,你觉得被戏耍了,你浪费了好长时间思考了一个并没有什么普遍性的问题,得到的教训就是《以后不要再这么问问题了》,就像在网上跟人对线,完全鸡同鸭讲。就比如这个问题,你允许使用无限扩张的代数数,但是点的数目又有限,最终要给下界的时候再让 n 趋于无穷,而且很明显这个点集没有平移对称性,大概也没有旋转对称性,那你如何定义点集最外圈的 “边界”,如果这个边界不是一个向外凸的东西,或者说如果边界长度的增长趋势不是所围成的面积的平方根,这个无穷取的意义在何,为什么声称你是在平面上取的这个点集
Erdos 很多问题都是这样,披着数学外衣的奥数
我觉得是碰巧而已,他们用 AI 尝试了无数个数学问题,恰好碰到一个前不久工具上取得了突破,就差临门一脚的问题。
————-
刚论文六个数学家其中一个发表论文,宣称彻底解决了这个问题。之前 openai 只是把普遍猜测的 bound 推翻,后面这个人之间把精确的 bound 算出来了。我有一个大胆的猜想:
openai 给这几个数学家一个 grant 去使用 AI 做研究,到点了怎么也得拿出点成果吧?于是其中一个人把自己早就做好的结果拿出来,他早就知道以前猜测的 bound 不对,那就把这个成果放 AI 头上,然后自己再把完整的证明发表出来。
ai 不仅不会消灭数学,反而会让大量普通数学工作者与顶级天才之间的鸿沟减小。数学变得容易理解。
浙江师大、杭州师范大学、上海师范大学的数学专业学生与清北的数学专业学生基本没区别了。
人工智能将会是下一轮技术奇点爆发的核心力量,人类大脑的思维与认知显然已经抵达生理上限,唯有借助外部智能力量,才能攻克更深层次的科学难题。
以后的自然科学研究领域,就是现如今的冷冻电镜领域。只有熟练驾驭 AI 的科学工作者,才能实现重大学术突破。
说到底 AI 终究只是辅助工具,核心始终在于人,AI 更像是一种全新的精密科学仪器,助力我们更清晰、更透彻地探索与认知世间万物。
距离上一次科学奇点大爆发(1900~1930)已经过去了 100 年,上一次科学爆发后带来的技术爆发深刻改变了我们的生活。上一次的技术爆发距离科学爆发隔了五六十年,而这一次的科学奇点大爆发与技术爆发,应该是同时发生的。
我真心建议大家养好身体、好好生活,好好活下去。亲眼见证这一轮技术奇点爆发的壮阔浪潮,亲身享受科技革新带来的种种便利,这对于身处这个时代的我们来说是无比幸运。
大数学家团队都确认了,泠姐还在嘴硬:“如果是真的~”
有没有一种可能性,ChatGPT 的性能是独一档,美国和全世界各个国家,在人工智能的差距,已经出现了断代了??
有没有一种可能,Deepseek 的论文写作的性能,比如进行独立科学研究的能力,其实相当于 Chat4.0 版本,甚至更低??
有没有一种可能,美国在科技领域,作为世界的中心,还在不断的突破,并且加大了跟其他国家的技术差距??
有没有可能,美国科学的进步,尤其是理工科的进步,是因为社会科学的发展,是因为人文学的发展?是文化的发展?是政策学的发展**?是来源于对 “人性” 的尊重?**
很高兴看到 AI 在数学领域有了新突破。之前 DeepMind 提出拓扑学的新定理和表示论的新猜想时,我就在想:未来数学是否会演变为一门基于 AI 的实验学科?
AI 可以从海量数据中,发现人类无法察觉的模式、不变量或关联。比如两个看似不相干的数学对象(如纽结、代数簇)之间,是否存在某种深刻的联系?这部分工作对于传统数学家的帮助巨大,因为数学已经发展出规模庞大的各个分支,没有人能通盘了解,只有 AI 才能融会贯通,发现线索并为数学家提供灵感。
没想到很快就实现了。
这次 OpenAI 解决的思路很巧妙,把一个有点冷门的代数数论工具应用到平面几何上了,两者本来八竿子打不着。
数学家的正常思路,是构造一个方格网格,用二维简单代数数域生成平面点,而 AI 的思路完全跳出人类思维的盲区,用高维的代数数域塔,生成高维格,再投影到平面,能产生远超人类网格构造的单位距离点对。
其实类似的思路人类也有,比如之前费马大定理就是这么解决的,通过解决分析侧(模形式)的问题,可以解决数论侧(费马大定理)的百年难题。
但是数学分支太庞大了,人类只能碰运气,AI 却可以从全数学宇宙中,调用任何分支的工具,不管多冷门,多抽象,它都能发现内在的深刻规律,然后给你找出来。
所以我想,未来数学家的工作,不再是在自己的分支里死磕,而是使用 AI 给出跨领域的工具组合或猜想,人类只负责框架搭建,证明审核,筛选和解释。也许这才是未来数学的新范式。
这就是数学工科化的一个信号
什么是工科化,其实就是各种解决办法排列组合,组合多了就系统化了。
为啥工科学生天天自嘲自己的论文就是各种基于 A 的 B 解决在 C 上的拓展之类的,就是排列组合在诞生海量垃圾的同时真能屎里淘金出真东西。
工科一直以来就是这样,隔行如隔山,在一门类里面前所未闻的方法,可能在另一个行当里算基操。
从近代开始数学脱离古典阶段就不在往纯应用技巧上走了,都是构造抽象世界,开始肯定是手工土瓦房,构造到一定阶段人类的局限性就来了,你得需要大量的工程师参与到世界的构筑上,去修补,描绘,完善细节。
这世界不具象化,想修补得先接受整个世界描绘过程,所以太少人能参与到排列组合过程中,只能靠某些天才的灵感瞎联系,太慢了也。
AI 这东西就是瞎联系排列组合的神器,你指望他发明创造新理论目前是不可能的,靠蛛丝马迹瞎联系真的是人类无法企及的。
这底下长文回答有几个不是 ai 写的?
智力神话彻底破灭。我相信我见证了一个伟大的时刻,所有人都明白这意味着什么,所有人也都将在不久的将来见证社会巨大的变迁与进化,希望人类就此迈向新时代。
谢邀。
今天早上我刷到这条消息的时候,正在吃早饭。
说实话,我第一反应不是震惊,是怀疑。
我心想,又是 OpenAI 的 PR 稿吧?什么”AI 推翻数学猜想”——类似的话我听过太多次了。之前说”AI 解奥数题”,结果发现是人工搭好框架 AI 填步骤。之前说”AI 做科学发现”,结果发现是筛数据找规律。每次都是” 狼来了”。
但这次不太一样。
我看了半天,发现几个重量级名字出现在了这个结果的相关方里:菲尔兹奖得主 Timothy Gowers,普林斯顿大学教授 Will Sawin,组合数学家 Noga Alon。这些人不是 OpenAI 的员工,他们是独立的外部数学家。如果他们愿意为一个 AI 的证明背书,那这件事就不是 PR。
然后我认真读了一下这件事的来龙去脉。
读完的感觉怎么说呢——后背有点发凉。
先简单解释一下这个困扰了数学界 79 年的问题。它叫” 平面单位距离猜想”,是匈牙利数学家 Paul Erdős 在 1946 年提出来的。
题目本身非常简单,小学生都能听懂。
想象一张无限大的平面。你在上面放 n 个点,随便你怎么放。问:这 n 个点之间,最多可以有多少对点的距离刚好等于 1?
数学家用 u(n) 来表示这个数量。
最简单的放法是把点排成一条直线,每隔 1 个单位放一个点。这样相邻的点距离都是 1,你就能得到 n-1 个单位距离点对。
复杂一点的放法是排成正方形网格。像棋盘一样铺开,每个点和它上下左右的四个邻居距离都是 1。这样一来,单位距离点对的数量大约能达到 2n。
Erdős 在 1946 年给出了一种更精巧的构造——他用了缩放的平方网格,让单位距离点对数量达到 n^(1+C/log log n) 的量级。这个式子翻译成人话就是:它比 n 增长得快一些,但快得非常有限。 因为 n 越大,C/log log n 就越接近 0,整体上还是接近 n 的一次方增长。
所以 Erdős 猜想:u(n) 的上界就是 n^(1+o(1))。o(1) 表示一个会随着 n 增大而趋近于 0 的量。也就是说,单位距离点对的数量可以比线性略高一点点,但不可能出现一个固定比例的指数优势。
这个猜想,在数学界悬了 79 年。
79 年里无数数学家尝试攻破它——陶哲轩做过,Jean Bourgain 做过,Fields 奖得主级别的数学家不止一位在这个问题上留下过工作。但没有人能彻底证明它,也没有人能彻底推翻它。每次进展都是微小的参数改进。
然后,2026 年 5 月,一个 AI 模型把它推翻了。
这是整件事最核心的部分。
OpenAI 没有用专门的数学证明系统,没有用 AlphaGeometry 那种符号引擎加神经网络的混合架构,没有人类帮它把问题翻译成形式语言——它就是一个通用的推理模型,接收了自然语言描述的问题陈述,然后自己给出了证明。
证明的核心结论是:存在一种 n 个点的平面配置,使得单位距离点对的数量至少达到 n^(1+δ),其中 δ 是一个固定的正数。普林斯顿大学的 Will Sawin 教授后续优化后给出,δ 可以取到 0.014。
这个数字 0.014 听起来很小。但在数学上,它意味着 Erdős 猜想被彻底推翻了——不是” 改进了上界”,不是” 接近了证明”,是直接证明了 Erdős 的猜想是错的。 单位距离点对的数量不仅可以超过 n^(1+o(1)) 这个界限,而且能以固定指数的优势超越它。
更让数学家震惊的是这个证明使用的方法。
过去的数学家看这个问题,思路很自然——几何问题,用几何方法。你放点、画线、算距离。最多用到一些组合几何的工具。
但 OpenAI 的模型给出的路径,把这个问题带到了代数数论。
它使用了代数数域、无限类域塔(infinite class field tower)、Golod-Shafarevich 理论——这些都是纯数论里的高级工具。它们被用在一个看起来完全是几何的问题上,而且居然成功了。
这相当于什么呢?相当于你让一个厨师做一道川菜,他用的是量子物理的公式来调火候。听起来完全不搭边,但做出来的菜确实是川菜,而且比所有川菜师傅做得都好。
这是很多人没看明白的一点。过去几年 AI 在数学上确实有不少进展,但这次是质变。
AlphaGeometry(2024) 确实能解奥数几何题,金牌水平。但它的架构是人设计的——神经网络加形式化符号系统,问题被翻译成机器语言,推理框架是人工搭建的。AI 像一个被放进跑道里的赛马,跑得很快,但跑道是人铺的。
AlphaProof(2024) 也能证明竞赛题,但在形式化证明语言 Lean 的框架里工作,人类研究者选定了方向,AI 负责填充具体的证明步骤。
它们都很强。但它们的共同特点是:人类的介入不只是提问,而是设计了整套工作框架。
这次不一样。
OpenAI 的模型接到的就是一段自然语言描述的问题。没有人告诉它从哪个方向入手,没有人给它提供中间步骤的提示,没有人告诉它要用代数数论。它自己决定了解题路径,自己完成了整个证明,然后交给人类验证。
这是 AI 第一次自主解决一个数学分支中的核心开放问题。
Hacker News 上有一条高赞评论说得很好:” 要么’重组已有材料’本身不是一种贬低,要么得把很多菲尔兹奖奖章收回去。”
这句话指向了一个真正值得思考的问题:我们评价数学发现的标准,到底是什么?
这个结果出来之后,数学界的反应很有意思。我把它归纳为三重震动。
第一重:问题本身的分量。
这个猜想是 Erdős 最喜欢的几个问题之一。他曾为它设立悬赏金。组合数学家 Noga Alon 说,” 几乎每一位组合几何研究者都思考过它”。这不是一个小众冷门问题,这是一个领域内的核心问题。被推翻,本身就是大事。
第二重:方法出乎所有人的预料。
如果 OpenAI 的模型是用几何方法解决了几何问题,数学家可能会说:” 不错,但可以理解。” 但模型用的是代数数论,是无限类域塔和 Golod-Shafarevich 理论。这些概念在数论内部不算陌生,但它们出现在一个欧氏平面上的组合几何问题里,带来的是一种强烈的跨领域冲击。
配套论文的作者之一 Thomas Bloom 说了一句很重要的话。他说评价一个 AI 生成的证明是否重要,关键标准是——它有没有让人类更理解这个问题。 在他看来,答案是可以谨慎地给出肯定的。这个结果说明,数论构造对离散几何问题的影响,可能比过去预想得更深。
第三重:自主性的跨越。
Timothy Gowers 的评价是:”AI 数学的一个里程碑。”
他用词很克制。Gowers 一直都是这种风格。他没有说”AI 成了数学家”,也没有说” 这只是个工具”。他说这是” 里程碑”。对于一位菲尔兹奖得主来说,这个措辞已经非常重了。
Noga Alon 的评价也很直接:尤其让人意外的是,正确的答案没有落在 n^(1+o(1)) 这个长期预期之内,而新构造及其分析还以巧妙的方式使用了相当高级的代数数论工具。
Sun 转发这个消息的时候,写了一句 “feelings are complicated”。这句话被很多人解读为” 谦虚” 或者” 凡尔赛”。但我觉得,他可能真的很复杂。
想象一下这个场景:你做了一个通用推理模型,本来是拿来评估它处理各种问题的能力。结果它突然推翻了一个困扰人类 79 年的数学猜想。而且是用一种数学家完全没想到的方式。
你第一反应是什么?
应该是高兴。你的模型做到了人类顶级数学家 79 年没做到的事。这是 AI 历史上的一个标志性时刻。
那第二反应呢?
可能是恐惧。因为你并不完全知道它是怎么做到的。它不是按照你设计的推理路径走的,它自己选择了代数数论作为工具。它的决策过程对开发者来说是一个黑箱。 你能看到输入和输出,但中间那几步是怎么跳出来的,你只能猜测。
第三反应呢?
可能是一种更深层的不安——它推翻的不是数学界的一个边角料猜想,而是一个困扰了 Erdős、陶哲轩、Bourgain 级别数学家 79 年的核心问题。如果它能做到这个,那它还能做什么?如果它推理错了,你能发现吗?如果它是对的,但人类数学家需要几年才能完全理解它的证明——那你是在用它,还是它在用你?
“感受很复杂”,翻译过来就是:我又兴奋又害怕,而且我不知道该不该表现出来。
我说说自己的看法。
第一,这不是 AI 替代数学家的信号。 这次证明的完整流程仍然离不开人类专家。AI 提出了关键突破,但人类专家验证了它的正确性,解释了它的意义,写了配套论文把它放进了数学的上下文里。没有人类,这个证明就是一串符号,没有任何意义。
第二,但这一定是一个节点。 AI 作为独立提出数学论证的主体,已经在这个问题上成立了。它不再是” 帮我查文献” 或者” 帮我写代码” 的角色,它开始具备了参与” 想问题” 本身的能力。这对科研工作流的影响是结构性的。
第三,边界依然存在。 这次的问题虽然开放了 79 年,但仍然属于有明确陈述、有清晰验证标准的数学问题。AI 的证明是在一个相对封闭的问题空间里完成的,使用的工具都是已知的数学框架。那些真正改变人类认知底层结构的发现——比如提出一个全新的数学分支,或者察觉到两个毫不相关领域之间的深层联系——我目前没有看到证据说现有模型能做到。
但问题是,” 能做到哪些” 的边界,正在以一种让所有人都很难预测节奏的方式持续向外扩展。
Erdős 这个人很有意思。他一生发表了超过 1500 篇论文,合作者遍布全球。他有一个习惯:把自己解不出来的问题整理成列表,标上悬赏金额,向全世界征解。这个习惯贯穿了他的一生。
他提出的平面单位距离猜想,悬赏金额是 500 美元。在他 1996 年去世之后,这个悬赏依然有效。
如果他还活着,看到是一个 AI 推翻了他的猜想,我不知道他会是什么反应。
以他的性格,他可能会很高兴——问题被解决了,不管是被谁解决的。他可能会立刻掏出那 500 美元悬赏。然后他可能会开始想下一个问题,一个 AI 解决不了的问题。
他大概不会恐慌。因为真正的数学家从来不害怕被工具超越。他们害怕的是没有新的问题可以想了。
而现在看来,AI 非但没有消灭问题,反而可能制造了更多的问题。
这大概是最好的结局。
以上。
数学恰恰是 ai 最应该擅长的领域。
数学是纯推理,纯粹的符号、文字的推理。不需要实验,不需要物理世界的验证,不需要真实世界的任何反馈。纯粹的思维游戏。
大家可能觉得数学很高深。实则不然。
数学本质上来讲,就是定义和推理。
你定义 1+1=2,就得到 2-1=1。
你定义 1+1=3,你就得到 3-1=1。
假设平行线永远不相交,你得到了欧式几何。
假设平行线会相交,你得到了非欧几何。
如果你玩纯文字游戏,可以继续:
假设平行线又相交且又不相交,恭喜你,这是一个新的数学领域。
假设不存在平行线,恭喜你,又是一个新的数学领域。
再比如,你也可以来几个类似费马定理一样的世纪大猜想(反正都是文字游戏):
三个奇数之和必然可以拆成一个偶数和一个奇数之和。
三个素数之和必然可以拆成一个奇数和一个素数之和。
而 ai 呢,就是纯粹的文字符号推理。所以说对于数学的论证是最得心应手的。而 ai 输出的文字,有没有意义,还得需要人拿到现实世界去验证。
我去博士面试兜售 ai4sci,这那几个面我的老登说我不物理,真是老马飞了。(当然最好的工作就应该在最好的地方做,唉,没有缘分)
虽然我转型做的 mlp 和 llm 真的是稚嫩的丑陋,但是我在做的、学习的过程真的看到了生成式 ai 的潜力,已经不是 5 年前只能水文章的东西了,他肯定能做到的,看到别人做出了我的学术理想,感叹。
唉,所以姚是对的,不想再服侍那些老登了,我看了最近知乎那些物理教授对于这个以前的学术 star 的批评声不绝如缕,本质就是文人相轻,学术界都是些老登样的巨婴,端着饭碗上了岸排挤准备上岸的人
像极了当年阿尔法狗大战李世石,未来的 ai 人类根本看不懂。
人类在站台看 ai 就像看远处的火车,很早就听到火车的蜂鸣声,说:“快到了,快到了,ai 发展真快呀,很快就能帮助人类了。”
然后火车越来越快的靠近站台,但是根本没有减速的意思,最后像风一样从站台驶过,留下两个字 “虫子”,只留下人类在站台凌乱。
但是人类也不是没用机会,或许过两天我们会看到这样的新闻,山姆奥特曼疑似遇到刺杀,但刺杀失败,嫌疑人在现场留下这样一句话:“我来自未来,我是地球反抗组织第三独立旅特别先遣队的战士,我是康纳。我尽力了,但还是失败了。”
“可恶💢,还是做不到吗”
一些消极的看法是
如果数学真被 AI 攻关了,其他偏向理论的科研领域也是唇亡齿寒了,现实世界只有拥有原始资本的人才能免于被 AI 替代 (AI 能进行推导但 AI 不能直接给你生成水泥) 那未来的社会除了富豪 绝大多数人都可以直接奶头乐了
很快这个问题会成为国外 ai 牛逼,和国内 ai 也不差的战场。
至于可信度如何不会有人关注。
应该是真的。好了,继 Bun 移植 Rust 之后,又多了一个人类 PUA 大模型的经典案例。
Bun 移植 Rust 的事情,其实就是利用 Rust 的校验严格性,让 AI 自己在反馈循环中验证有效性;而只要最终能够顺利编译通过,则就代表了问题解决。这不能代表 AI 在泛用能力或者某个专精领域的实际 one-shot 实力,但的确能代表 AI 在这种 “不知疲倦地尝试、不断趋于正确” 场景下的强悍。
这次的数学问题也是如此,验证了 AI 在特定场景的能力:在逻辑链条极长、极度复杂问题方面,利用算力与自身强悍的数学知识网络,寻找到一条人类没有设想过的方向,进行尝试最终成功。这种长思维链下的近乎穷举的方式进行方案探索,人类其实不是不能做,但做起来太费劲,所以也不会有人这么去做。
比起解题,这个过程更像是一种搜索与穷举,然后在各个方向上通过不断地 “反馈校验” 从而找到一条正确的路径。
这个过程没有呈现出什么新的数学分支的潜力,而提出问题、建立新框架、直觉洞察等方面依然是人类才能做到的事。
但这不代表这事就不重要,这类操作很可能打开一种新的工作与研究的范式:人类提出问题或猜想,然后交给 AI 暴力探索、执行并解决问题。
在某种意义上,我觉得再去一味追求所谓 AGI ,意义可能已经没有这么大了。反而是这种范式的出现,已经代表了 AI 成为举足轻重的一种异构智能的能力,而且潜力巨大。
就算只有现在的 Transformer 架构,也应该花更多的心思去利用好 AI。这个过程我甚至认为 AI 自身的推理能力只是一个基础,Harness 层的反馈循环设计可能更加重要。
知乎大哥大姐们是失忆了吗?看起来像刚认识 AI4Math,真的有人在做 AI4Math 嘛?
25 年 3 月 AlphaEvolve 就指出 constructive/combinatorial 问题了:“discovering objects or constructions that possess optimal, or near-optimal, properties according to some measure that surpasses all previously known examples”,给出了大量关于 analysis、geometry、combinatorics(特别是关于 Erdős’s problem)的 case。今年 3 月 DeepMind 做出了关于 Ramsey Numbers 的结果:”R(3, 13) is increased from 60 to 61, R(3, 18) from 99 to 100, R(4, 13) from 138 to 139, R(4, 14) from 147 to 148, and R(4, 15) from 158 to 159”。
“ai 会给构造性问题带来突破,特别是针对广泛的组合数学问题”,这至少是 1 年前就应该有的认知了。
去年 deep seek671b 已经吹上天了,
跑 q4 量化版本都得 512gb 显存和内存才够用。
moe 版本省点显存耗点内存。
chatgpt5.5 被人推测有 9 到 10t 参数.
那么跑全量化 fp16 的话估计需要起码需要接
近 20tb 的显存和内存。
也就是起码 250 张 h100。一张 h100 差不多 10 万到 20 万。
moe 的话可能会省点。
照这么推测的话你想要更智能就的 10 倍 10 倍的堆参数。
下个版本估计要到 40-50t 参数,智能才能更明显提升,也就是上千张 h100 。
还只是运行成本要是训练的话我感觉是一个非常夸张的数。
这也完全可以解释为什么内存乱七八糟的要暴涨成这样。
openai 以及把人类科学家蒸馏了,这个从各大数据标注平台的任务难度和准入门槛就能看出来,有些标准任务博士都不行,必须要求教授才能做,目前 ai 研究已经跑通了一条端到端的流程,可以用来蒸馏人类创造的任何东西,未来只要资本家肯花钱,人类的任何能力都能被蒸馏到 ai 模型里,白领危。如果物理 ai 再跑通,蓝领也完蛋了,以后大家一起毁灭。
作为这个领域的直接从业者,我在 5 月 20 号凌晨看到这个新闻的时候,其实也没多觉得惊讶。过去这一年,我们这个方向基本上就是在批量生产这样的新闻。
之前所有人对 LLM 型 AI 的最大质疑就是这玩意儿它的本质是预测下一个词出现的概率。所以这东西肯定不行,它无法像人的大脑一样理解事物的本质,无法真正成为 AGI。
可是呢,谁能想到哪怕只是这么简单的基础原理,LLM 一样可以展现出如此强大的能力… 真是恐怖如斯。
我甚至认为人类还没有真正想明白要怎么使用 AI,就好像互联网刚刚出现大家也没想明白这玩意能干嘛,只是拿来在聊天室里聊天打屁,谁能想到互联网将彻底改变人类。
而现在离 GPT3.5 横空出世也不过 3 年多,AI 所展现出来的价值和实际作用已经完全超越同时期的互联网。
transformer 的长处,在于形式逻辑,这就意味着,它在数学这种纯形式逻辑上,会有优势。
好在,有哥德尔不完备定理。
十年前电脑就可以吊打人类象棋围棋的棋手了。
逼着国际比赛,有人都塞了跳蛋到菊花里就是为了用电脑帮自己作弊。
更关键的是,我记得当时就有人说,电脑的很多下棋思路,是此前整个人类世界有记载以来从来未被考虑过的。
然后呢?
然后围棋和象棋就没人学了
不能装逼成了最大的影响。
咱能不能不要搞这些花里胡哨的东西(虽然并不是,还是挺有未来意义的)
好好想想实操落地的问题可以不?
AI 数学这么厉害可以查账的吗?
可以帮我报税吗?
可以实现无人驾驶了吗?
Open AI 都成立十多年了,划时代的大模型是二二年 11 月份发布的。到现在一说起来离不开的只有一帮程序员。
甚至就连游戏公司都没做出几个更智能化的 NPC 陪我玩枪战。
另外,提问的题目能不能用 AI 帮自己审核一下逻辑。
先是说这个猜想困扰了数学界整整 79 年。“5 月 21 日,OpenAI 官方宣布:其内部一个通用推理模型,自主推翻了 “平面单位距离猜想”(Erdős Unit Distance Problem)——这道由匈牙利数学家保罗 ·Erdős(厄多斯)于 1946 年提出的几何难题,困扰数学界整整 79 年。”
然后下面就是 " 七个月前,OpenAI 前副总裁 Kevin Weil 曾在 X 上高调发帖:“GPT-5 找到了 10 个此前未解决的 Erdős 问题的解!”
结果很快被打脸——GPT-5 不过是在文献里找到了已有的答案,并没有真正解决问题。谷歌 DeepMind CEO Demis Hassabis 和 Meta 首席 AI 科学家 Yann LeCun 相继嘲讽,Weil 随即删帖。”
所以这么一个困扰数学界 79 年的问题在七个月前有十个答案是吗?
虽然我可能完全无法理解这个数学问题的意义,但上述文字是不是前后矛盾?
好吧是我的错,原来 Erdős 这哥们留下了几百上千个遗留百年的数学问题啊~

这。。。。。了解了一下之后我还是感觉绷不住。
(这个平面单位距离猜想问题,是菲尔茨奖级别的问题,因为它是数学一个分支领域组合几何领域的最难问题,很多菲尔茨奖得主包括陶哲轩都做过这个问题没有突破
===========================
最新,历史首次,谷歌 Gemini 提出并证明全新数学定理
2026 年 1 月 19 日
数学研究迎来历史性转折
2026 年初,数学界被一则消息震动:谷歌 DeepMind 的 Gemini 系统,在代数几何领域独立发现并证明了一个全新的重要定理。这个被称为 “射影簇分层分类定理”的成果,被顶级期刊《数学年刊》接受发表,标志着人工智能在数学研究的身份从 “辅助工具” 到“创造主体”的质变。
代数几何的这一突破是一个临界点。我们正从 “人做数学,机器验证” 的时代,走向 “人机共舞” 的协作智能新纪元。
斯坦福大学教授、美国数学会会长 Ravi Vakil 亲自认证了 Gemini 提供了关键且独创的洞见,给出的证明 “严谨、正确,而且优雅”。

“gemini 独立提出了新的代数几何定理并证明了它,这个证明被人类数学家核实无误,由于这个定理和这件事的重大意义,顶级数学期刊《数学年鉴》不到一个月就接受了论文”
他甚至表示,他也无法确定自己能否独自得到这个结论。
================================
物理学诺奖级成果,GPT-5.2 最新论文改写人类物理教科书!
2026 年 2 月 14 日 12:11 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI
人类物理教科书几十年的结论被推翻,GPT-5.2 干的。
一类几十年来被认为严格为零的胶子散射振幅,现在证明在特定运动学条件下不为零。
OpenAI 与哈佛、剑桥、普林斯顿的五位研究者发布预印本论文,关键公式由 GPT-5.2 Pro 猜出,随后被一个 OpenAI 内部模型连续思考超过 12 小时证明成立。
被推翻的教科书结论
几十年来,Parke 和 Taylor 的结论被写在教科书:这类” 单负”(single-minus)树图振幅严格等于零。
但 GPT-5.2 参与的最新论文指出,标准论证中存在一个 “漏洞”,使整个论证不再成立。
哈佛大学的 Andrew Strominger 教授是研究的发起者,他曾多次与霍金合作发表论文。
GPT-5.2 Pro 很快提出了一个推广到任意 n 个粒子的猜想公式:
但 GPT-5.2 Pro 无法自行证明这个猜想。
随后,一个 OpenAI 内部的脚手架模型接手,它连续思考了超过 12 小时,完成了完整的证明。
证明分三步走:
第一步证明了在 R₁区域内,递推关系中的一个关键顶角函数 V 恒为零。
第二步利用 V 为零这一事实,证明整个递推关系坍缩为单独一项。
第三步证明这一项恰好等于 GPT-5.2 Pro 猜出的公式。
研究团队随后手工对证明进行了验证,确认结论成立。
“推翻人类教科书结论的成果,属于诺奖级成果””
=========================
经济学顶刊 JPE 副主编用最新的 Claude Code 4.6 一个月生产了 230 篇实证经济学论文
原创 AiEcon AI and Economics 2026 年 2 月 19 日 11:21
最近有一个项目让人既兴奋又不安,值得和大家聊聊。
苏黎世大学教授、经济学顶刊 Journal of Political Economy 副主编 David Yanagizawa-Drott 今年 1 月启动了一个叫 APEP(Autonomous Policy Evaluation Papers)的项目。Yanagizawa-Drott 这个名字大家可能不太熟悉,但他的学术分量不容小觑——去年刚拿了 Yrjo Jahnsson Award,这是欧洲经济学界最重要的青年学者奖之一,之前在哈佛肯尼迪学院做副教授,也是 J-PAL 和 CEPR 的成员。他的研究横跨发展经济学、政治经济学和文化经济学,近年来对 AI 与社会科学的交叉地带投入了很大精力,每年还和 ETH Zurich 的 Elliott Ash 一起办 Zurich Workshop in AI+Economics。
换句话说,这不是一个蹭热度的项目,而是一位有深厚实证功底的顶尖经济学家在认真测试 AI 的能力边界。
APEP 做的事情说起来简单,细想又很疯狂:让 AI agent 完全自主地完成实证经济学研究的全流程。 不是帮你跑个回归、改改文字那种辅助性工作,而是从头到尾——自己识别一个有意义的政策问题,自己去 Census、BLS、FRED 这些公开数据库拉数据,自己选择识别策略(difference-in-differences 还是 regression discontinuity design),自己跑计量模型,最后写出一篇完整的学术论文,包括引言、文献综述、数据描述、实证分析和结论。整个过程中没有人类研究者介入。
项目用的核心模型是 Anthropic 最新的 Claude Opus 4.6,通过 Claude Code 这个编程环境来执行所有操作。一个月下来,产出了 230 多篇论文,日均七八篇。
从方法论的分布来看,大约 60% 的论文用了 DiD,25% 用了 RDD,剩下的是描述性分析或混合方法。这个分布其实挺合理的。美国各州政策实施时间的差异天然适合 DiD 设计,而年龄、收入等阈值为 RDD 提供了断点。AI agent 看起来确实学会了写论文这件事——至少在套路层面是这样。
主题覆盖面也相当广:最低工资效应、带薪病假与劳动供给、大麻合法化的多维影响、枪支管控与自杀率、Medicaid 扩展、远程医疗立法…… 基本上你能想到的美国州级政策热点都有涉及。后期甚至出现了社交网络最低工资暴露效应的系列论文,和网络经济学的研究前沿直接相关,格外引人注意。
经过评审,这 230 多篇经济学论文都达到了一流期刊甚至顶刊的发表标准。
“这个产出速度本身就很有冲击力——我们一个博士生一年能完成一两篇像样的实证论文就算效率不错了,AI 一个月批量生产了几百篇。”
=======================
谷歌 gemini3.1pro 发布,在人类博士级别测试拿到 94 分的成绩(人类博士平均分 71 分,最高分 82 分)
============================
经济学天塌了,ai 写论文时代到来
1. 天塌了! 不到 1 小时, 斯坦福教授用 AI 独立, 自动完成 1 篇实证论文, 并且过程和结论都相当精准.
2. 太强悍! 6 小时全自动完成一篇 QJE 级顶尖论文, AI 的论文生成速度已碾压人类的验证速度.
3. 喜欢用 DID 的, 遇到麻烦了, AI 智能体 1 个月完成了 340 篇 DID 论文, 具备经济学顶刊的水准.
4.DID 大牛 Sant’Anna 发布了一份超强工作流指南: 我的 Claude Code 配置.
5. 当 AI 能自动生成顶刊论文, 经济学者靠什么立足?
============================
AI 写论文,AI 来审稿,顶会 ICML 迎来创立以来最严重的学术信任危机
审稿人的噩梦:政策说禁 AI,论文却是 AI 写的
一位 ICML 审稿人发帖:
“我拿到 ICML 审稿任务。但我读了论文就确定完全是 AI 写的。”
“太多论文写作风格完全一致,而且那些来自从来没听说过的大学和机构的论文,水平也出奇的高,和最知名大学的论文水平一样高”
双向崩溃:作者也在怀疑 review 是 AI 写的
更讽刺的是,作者那边也在崩溃。
另一个 Reddit 帖子里,有人抱怨收到的审稿意见 review” 明显是 AI 写的:
“审稿意见写的很好,写了很多,问题是几个审稿人的意见出奇的一致,甚至很多段落文字都一样,我怀疑他们是使用了同一个 AI 大模型来写审稿意见”
评论区有人直接问:“At what point is it just over for peer review?"(同行评审到底什么时候会彻底完蛋?)
审稿人和作者都在互相怀疑对方用 AI,同行评审系统正在经历一场前所未有的信任危机。
接下来会怎样?当 AI 让” 写一篇高水平顶会论文 “变得零成本,我们如何重建信任?
=========================
GPT-5.4 Pro 攻克埃尔德什顶级难题,数学界要变天?
原创 极话 极话 2026 年 4 月 15 日 18:08 上海
💡 OpenAI 最新模型 GPT-5.4 Pro 成功解决了著名的埃尔德什问题 #1196,这可能标志着 AI 在纯数学研究领域的巨大突破。
刚刚,OpenAI 的 GPT-5.4 Pro 干了件震惊数学界的大事:解决了埃尔德什问题 #1196。这个困扰数学家们几十年的「顶级难题」,竟然被 AI 给攻克了。
消息传出,整个学术界都炸了。
埃尔德什问题到底有多变态?
先给不熟悉的朋友科普一下。保罗 · 埃尔德什(Paul Erdős)这位传奇数学家,一生提出了上千个数学问题,每一个都是「地狱难度」。他甚至为每个问题悬赏,从 25 美元到 10000 美元不等——钱越多,题越变态。
埃尔德什问题 #1196 属于组合数学和数论的交叉领域,核心是要证明一个关于数列渐近行为的复杂不等式。说人话就是:这玩意儿涉及无穷序列的分布规律,需要用到超高深的分析技巧。
自 1960 年代提出以来,这个问题让无数顶尖数学家折戟沉沙,包括一些菲尔兹奖得主都曾经尝试过,但都铩羽而归。
GPT-5.4 Pro 的 “神操作” 分析
虽然 OpenAI 还没有公布完整的技术细节,但从 Reddit 社区和数学论坛的讨论中,我们可以窥见一些端倪。
据参与验证的数学家透露,GPT-5.4 Pro 的表现简直 “非人类”。
数学界的 “地震级” 反应
消息传出后,全球数学界的反应可以用 “地震” 来形容。
支持派的声音:
MIT 的陶哲轩教授在 Twitter 上写道:“如果验证无误,这将是数学史上的分水岭时刻。我们正在见证一个新时代的开始。”
普林斯顿的一位数论专家更是直言:“我研究了这个问题 15 年,GPT-5.4 Pro 用了不到 3 小时就找到了我从未想过的证明路径。”
谨慎派的担忧:
当然,也有不少学者保持冷静。哈佛的数学系主任提醒:“数学证明容不得半点马虎,我们需要多个独立团队来严格验证每一步推理。”
芝加哥大学的一位教授则担心:“如果 AI 能解决所有数学问题,那数学家的价值在哪里?我们是不是要失业了?”
=======================
常说的苏联科研靠考古
其实很多研究成果都在不起眼的地方,科学家随意做的笔记,草稿纸上,或者是废文件背面。有的著名公式,理论都是从科学家纸篓里翻出来的
那么有了 AI 之后,各地方散落的没人关注的论文被整合起来,确实可能产出新成果
不懂就问,如果是人类数学家,凭借这个新方法,能得什么奖?
openai 的又一次精心炒作罢了,结果肯定是真的,但是结果怎么实现的很难说,还有投入成本也没有说,人工干预程度也没有说,要是 openai 真的有一个无敌的数学模型,那么 openai 宣传的时候不会只是宣传这么一个结果,而是同时发十个被解决的同级别数学难题,毕竟解一个也是解,解十个也是顺带解决的。
是什么在阻止我们使用 gpt 直接证明黎曼猜想,难道仅仅是因为没钱买 token?
原创 宋氏石男 宋氏石男 新新新默存 忘掉张雪峰,拥抱不确定 文/宋石男 最近,网红张雪峰因心源性疾病猝死。有人评论说,张雪峰一生做的事情,都是要帮普通人家找到一种确定性,但他的死却是对确定性最大的否定,这太讽刺了。 我不想讨论张雪峰的价值 …
知乎用户 渺小的哥布林写手 发表 三年前帮老爸在一个特别偏的中药材网站上发布过一个销售信息,卖的也是很小众的偏方中药材,留的我自己的号码,最近天天有人加我微信,我问哪里加的,人家说豆包,我自己去一搜,豆包给我的号码干成我们整个市的药材总代 …
知乎用户 哲也 发表 《无知》《愚民》《落后》 波士顿动力 12 月 29 日发布了机器人跳舞的视频,在这个领域我们现在差距有多大? 这个回答下,回旋镖多到用不完 哦,对了,我忘了还要给机器人泼冷水 知乎用户 勃列日涅夫 发表 吕布表演了一 …
知乎用户 云飞扬 发表 未来就两条路 要么全民基本收入 要么无人机神国 如果现在不争取全民基本收入,未来的结局一定是无人机神国,权力的无限集中 知乎用户 岁寒时 发表 如果在 AI 带来的 90% 下岗潮之前,UBI 还没有到来,那么就永远 …
知乎用户 天上天下 发表 由于姜萍这个 BUG 永远卡在进程中,无法解决,导致今年的阿赛无法公布成绩,从 8 月到 9 月,现在已经 10 月了,遥遥无期! 如果明年还能举办,我希望亢金龙、四妹、二姐勇夺三甲 8 月 95 日,全剧终! 知 …