大模型批量攻克数学难题

访客 2026-01-15 17:05:10 35934 抢沙发

默认

大模型开始批量解决数学难题，通过强大的计算能力和深度学习技术，攻克了一系列复杂的数学问题，这些模型的应用，不仅推动了数学领域的进步，也为其他领域提供了强有力的支持，通过不断学习和优化，大模型在数学难题的解决上展现出前所未有的效率和准确性，为数学研究和应用带来了革命性的突破。

人工智能在数学领域的突破正在加速。自圣诞节以来，著名数学家保罗·埃尔德什遗留的1000多道未解难题中，已有15道从"未解决"状态转为"已解决"，其中11道明确标注AI模型参与了求解过程。这一进展标志着大语言模型在推进人类知识前沿方面展现出前所未有的能力。

据TechCrunch周四报道，OpenAI最新发布的GPT 5.2模型在数学推理能力上实现显著提升。软件工程师、前量化研究员Neel Somani在测试中发现，该模型能够在15分钟内给出完整的数学证明，并通过形式化工具Harmonic验证无误。这一表现远超此前版本，使AI工具从辅助角色转向能够独立攻克高难度数学问题的新阶段。

菲尔兹奖得主陶哲轩在其GitHub页面上统计，AI模型已在8道不同的埃尔德什问题上取得实质性自主进展，另有6例通过定位和扩展先前研究实现突破。尽管距离完全自主的数学研究仍有距离，但大模型在数学领域的作用已不容忽视。

这一进展对数学研究生态和AI应用市场均产生直接影响。形式化工具如微软研究院开发的开源证明助手Lean，以及Harmonic公司的Aristotle等AI工具，正在被顶尖数学家和计算机科学教授广泛采用，预示着学术研究工作流程的深刻变革。

从意外发现到系统性突破

Somani的发现始于一次常规测试。他将一道数学难题输入ChatGPT，让模型思考15分钟后，返回了一个完整解答。该证明引用了勒让德公式、伯特兰假设和大卫之星定理等数学公理，最终找到了哈佛大学数学家Noam Elkies在2013年Math Overflow论坛上发布的类似问题的优雅解法。但ChatGPT的最终证明在关键方面与Elkies的工作有所不同，并给出了埃尔德什问题某个版本的更完整解答。

"我想建立一个基准，了解大语言模型何时能够有效解决开放数学问题，以及它们在哪些方面仍有困难，"Somani表示。令人意外的是，使用最新模型后，这一前沿界限开始向前推进。

埃尔德什问题集包含超过1000个猜想，由这位匈牙利数学家提出并在线维护。这些问题在主题和难度上差异显著，已成为AI驱动数学研究的诱人目标。首批自主解决方案于去年11月由Gemini驱动的AlphaEvolve模型产生，但最近GPT 5.2在高级数学方面表现得更为出色。Somani将其描述为"在数学推理方面比以前的版本更熟练"。

顶尖数学家的审慎评估

陶哲轩对这一进展持更为细致的看法。他在Mastodon上推测，AI系统的可扩展性使其“更适合系统性地应用于那些不为人知的埃尔德什问题的'长尾'，其中许多实际上有直接的解决方案”。

"因此，许多较简单的埃尔德什问题现在更有可能通过纯AI方法解决，而非人类或混合方式，"陶哲轩补充道。

这一评估揭示了AI在数学研究中的定位：并非取代人类数学家处理最前沿的复杂问题，而是高效处理大量中等难度、但因人力有限而长期未被关注的问题。这种分工可能重塑数学研究的资源配置。

形式化工具推动应用落地

另一个关键驱动因素是数学界近期向形式化的转变。形式化是一项劳动密集型任务，能使数学推理更易于验证和扩展。虽然形式化不必依赖AI或计算机，但新一代自动化工具大幅降低了工作难度。

微软研究院2013年开发的开源"证明助手"Lean已在该领域广泛使用，而Harmonic公司的Aristotle等AI工具承诺将形式化工作的大部分自动化。

Harmonic创始人Tudor Achim认为，埃尔德什问题解决数量的突然增加不如顶尖数学家开始认真对待这些工具更重要。“我更关心数学和计算机科学教授正在使用这些AI工具，”Achim表示，“这些人需要保护自己的声誉，所以当他们说使用Aristotle或ChatGPT时，这是真实的证据。”

这一趋势表明，AI工具已从实验阶段进入学术界的主流应用，可能为相关技术公司开辟新的商业机会，同时也对传统数学研究方法论提出挑战。

标签：数学这一