DeepMind’s New AI Found A Strange New Way To Think

突破与质疑：AlphaProof Nexus 的惊人表现

DeepMind 推出的新 AI 系统 AlphaProof Nexus 在解决数学难题方面取得了令人瞩目的进展，但也引发了关于其实际能力的讨论。该系统尝试解决传奇数学家 Paul Erdős 留下的 1200 多个开放问题中的约 350 个。尽管其失败率高达 95.7%，但它成功解决了 9 个问题，且每个问题的解决成本仅为几百美元。对于人类数学家而言，这些问题已经困扰了数十年甚至更久，因此这一成果被博主评价为“极其超级好”。这种成功不仅体现在结果上，更体现在其低成本和高效率上，证明了 AI 在特定领域具备超越人类长期积累的潜力。

"DeepMind's new AI called AlphaProof Nexus tried to solve about 350 of them and came up with a 95.7% failure rate. Basically, it solved nine, and it only cost a couple hundred dollars per problem."

与此同时，外界存在一种批评声音，认为该系统并没有做出“根本性的新事物”。然而，博主通过回顾 AI 发展的历史时间线反驳了这一观点。他指出，AI 的能力提升是渐进且显著的：四年前，GPT-3 甚至无法可靠地执行加法运算；两年前，它无法可靠地解决高中竞赛题；一年前，它无法可靠地获得数学奥林匹克金牌；而今天，它开始尝试解决 50 年未解的开放问题。这一趋势表明，不应仅关注当前的局限，而应关注未来的演进方向。博主引用“论文第一定律”强调，“不要看我们在哪里，要看我们两篇论文之后在哪里”，以此论证当前成果的非凡意义。

技术核心：形式化语言与防幻觉机制

为了解决 AI 在数学证明中常见的“幻觉”（即编造错误内容）问题，AlphaProof Nexus 采用了一种基于Lean 形式化数学语言的架构。Lean 是一种允许计算机严格验证证明正确性的编程语言。在这一流程中，数学家首先将问题和证明框架输入 Lean，但证明过程留白。随后，AI 代理尝试填充这些空白。由于问题极其困难，AI 通常会失败。此时，系统引入另一个 AI 作为“检查者”，它不仅指出当前方案的不佳之处，还解释原因，从而为后续迭代提供反馈。

"To avoid that, they make it use Lean, a formalized mathematical language where it's easy to check whether your proofs are correct."

这一方法并非全新概念，目前业界普遍采用形式化验证来确保 AI 输出的可靠性。然而，AlphaProof Nexus 的创新在于其迭代机制的设计。传统的 AI 辅助证明往往依赖单一模型的直接输出，容易陷入局部最优或错误循环。而该系统通过多轮次的自我修正和外部验证，逐步逼近正确答案。这种机制的核心在于将不可靠的 AI 组件转化为可靠的系统，通过严格的逻辑检查过滤掉错误的推理路径，确保最终输出的证明在数学上是严谨且可验证的。

创新机制：ELO 评分与锦标赛式迭代

AlphaProof Nexus 最核心的创新在于其“锦标赛”式的迭代策略，这一策略借鉴了国际象棋中的 ELO 评分系统（以匈牙利数学家 Arpad Elo 命名）。在该系统中，每一个生成的证明方案都被视为一名“选手”，并拥有一个动态更新的 ELO 分数。系统不仅依赖 AI 生成方案，还允许人类数学家提供解决方案作为基准或参考。每个证明方案都会根据其在验证过程中的表现获得评分，从而形成一个竞争性的生态系统。

"This is a cheaper judge AI that reads two previous solutions and picks a winner. Both solutions can be wrong, but it picks the one that is a bit better."

迭代过程并非从零开始，而是从得分最高的“坏方案”出发。这意味着系统会保留那些虽然最终证明失败，但在逻辑推理上表现较好的中间步骤。通过不断运行这种锦标赛，系统逐步优化证明路径，直到验证器（Validator）确认证明无误。这种机制的精妙之处在于，它允许 AI 在“撒谎”（生成错误推理）的同时，通过一个“无法撒谎的裁判”（形式化验证器）进行筛选。最终，系统从大量不可靠的尝试中提炼出可靠的证明，实现了“由不可靠部分构建可靠系统”的目标。

范式转变：从提升模型智能到收紧控制环

AlphaProof Nexus 的成功标志着 AI 发展范式的重大转变。过去，AI 的发展主要依赖于提升模型本身的智能水平，即通过增加参数量和训练数据来增强模型能力。然而，该系统表明，“我们不需要让它更聪明，我们需要收紧围绕它的控制环”。关键在于提供一个优秀的评判者（Judge），让 AI 进行成千上万次的尝试，从而逐步推导出复杂问题的正确答案。这种模式下，智能不仅仅存在于模型内部，更存在于围绕模型的循环机制中。

"The story of AI so far has been that we make it smarter. Now, the story has changed. We don't need to make it smarter, we need to make the harness around it tighter."

这一观点强调了系统架构设计的重要性。通过设计高效的反馈循环和验证机制，即使是相对简单的模型，也能在复杂的任务中表现出色。目前，业界正在积极探索各种类型的循环机制（Loops），包括自我反思、多智能体协作等。博主指出，这种“模型+循环”的组合正在成为 AI 研究的新热点，它不仅提高了 AI 的可靠性，还降低了开发复杂应用的技术门槛。这种转变使得 AI 从单纯的“预测工具”进化为能够进行深度推理和验证的“思考伙伴”。

局限性与争议：选择偏差与模型规模

尽管 AlphaProof Nexus 取得了显著成果，但其局限性也不容忽视。首先，测试集存在选择偏差。Erdős 留下的 1200 多个问题中，系统仅测试了约 350 个。博主推测，这可能是由于这些问题的形式化难度较低，更容易被转化为 Lean 语言。虽然这引发了关于测试代表性的质疑，但博主认为，“必须从某处开始”，这一成果依然具有里程碑意义，不应因未能解决所有问题而否定其价值。

"One, why not test on the full 1200 Erdős problems? Well, there is a little selection bias here. I think they took a subset of 350 that was easier to formalize."

其次，实验数据显示，较小的模型在零轮次中解决了零个问题。这表明，尽管循环机制至关重要，但核心模型仍需具备足够的算力基础。这一发现反驳了当前部分观点，即“快速廉价的小模型已接近前沿模型性能”。在实际复杂推理任务中，大模型的基础能力依然不可或缺。此外，博主提出了一个有趣的权衡问题：在成本相同的情况下，是使用“大模型+少轮次”还是“小模型+多轮次”？目前尚无定论，但这为未来的研究提供了重要的思考方向。

总结与展望：AI 推理的新纪元

AlphaProof Nexus 的成就不仅在于解决了 9 个困扰人类 56 年的数学难题，更在于其低成本（每个问题几百美元）和高可靠性。通过让不可靠的 AI 在无法撒谎的裁判面前进行数千次失败尝试，系统最终输出了严谨的证明。这一过程展示了 AI 从“加法运算”到“解决世纪难题”的惊人跨越，仅用了四年时间。博主强调，“限制条件依然存在”，但这一成果证明了“控制环”在 AI 推理中的核心地位。

"An AI just solved nine math problems that no human could crack in 56 years for a couple of hundred dollars each, and they did it by letting an unreliable AI fail thousands of times against a judge that cannot lie."

随着研究的深入，AI 的发展重心正从单纯的模型规模竞赛转向系统架构的创新。通过优化循环机制和验证流程，AI 有望在更多复杂领域取得突破。博主感谢 DeepMind 团队开源研究成果，并呼吁观众关注这一领域的发展。最后，博主介绍了 Weights & Biases 的 Weave 工具，该工具旨在帮助开发者更高效地迭代 LLM 应用，通过追踪数据流和评估模型表现，提升开发效率。这一工具的推出，进一步推动了 AI 应用开发的标准化和专业化。

关键数据与对比总结

为了更清晰地展示 AlphaProof Nexus 的性能表现及相关对比，以下是关键数据的汇总：

指标/对比项	数值/描述	备注
尝试解决的问题总数	350 个	源自 Erdős 的 1200+ 开放问题子集
成功解决的问题数	9 个	均为数十年未解的数学难题
失败率	95.7%	尽管失败率高，但成功解决关键问题
单个问题解决成本	几百美元	相比传统人类研究，成本极低
小模型解决数	0 个	表明核心模型规模至关重要
测试集选择偏差	存在	选取了较易形式化的 350 个问题
时间跨度	4 年	从 GPT-3 加法能力到解决世纪难题

此外，AI 能力演进的时间线对比如下：

时间节点	AI 能力里程碑	公众/专家评价
4 年前	GPT-3 无法可靠执行加法	“连数字都加不对”
2 年前	无法可靠解决高中竞赛题	“连高中题都解不出”
1 年前	无法可靠获得数学奥赛金牌	“连奥赛金牌都拿不到”
今天	解决 50 年未解的开放问题	“连 50 年难题都解不开”（质疑声）

这一对比清晰地展示了 AI 在数学推理领域的指数级进步，尽管每次进步都伴随着质疑，但实际能力已远超预期。