数学正式进入证明过剩时代 | 陶哲轩 | 证明消化难题 | 隐式目标 | 学术激励缺口 | Talk指标 | 高速公路和步行街 | 方程理论项目 | 数学教育的改革

大家好，这里是最佳拍档，我是大飞当AI能比人类更快、更准地证明数学定理我们的数学研究甚至整个数学体系，到底该往哪走？可能很多朋友觉得，数学离我们很远但是这件事的本质是AI正在挑战人类最核心的知识生产与传承的逻辑几天前陶哲轩在未来数学研讨会（Future of Mathematics

Symposium）上做了一场 keynote 演讲核心内容直指当下AI辅助数学研究的核心矛盾而这场分享也让我们第一次清晰看到数学这个几千年来几乎没怎么变过的学科正站在一场不得不改的变革前夜先从一个核心的判断说起陶哲轩认为数学正在从证明稀缺时代全面进入证明过剩的时代

这句话怎么理解呢？

在过去几千年里数学家们的核心工作是找证明一个猜想、一个问题可能耗费几代人的心血才能找到一个可行的证明路径比如费马大定理从提出到证明用了300多年但是现在

AI驱动的定理证明工具、大语言模型的出现让生成证明和验证证明的速度呈指数级提升 AI能在短时间内处理海量的数学问题生成技术上符合逻辑的证明甚至能用Lean这样的形式化验证工具来确认这些证明的正确性但是问题来了，这些正确的证明对数学界来说，真的有价值吗？陶哲轩给出的答案是，未必

因为传统的数学研究从来不是找到证明就结束了它有三个核心阶段生成证明、验证证明、消化证明前两个阶段，AI已经做得比人类好了但是第三个证明消化（Proof Digestion）的阶段 AI几乎完全缺位而这恰恰是数学进步的核心什么是证明消化？

不是简单看懂每一步推导而是把证明放进整个数学体系里梳理它的叙事逻辑找到关键的创新点关联过往的研究文献指出它能解决的新问题甚至把它转化成能教给下一代的内容举个例子，一个AI生成的证明可能严格符合逻辑却不引用任何相关研究

也不解释为什么某一步是关键更没法回答其他数学家的提问陶哲轩把这种证明叫做三分之二的解决方案因为它只完成了技术层面的目标却没真正推动整个领域的进步而现在的现状是 AI生成的这类半成品证明越来越多人类根本来不及消化最终形成了证明消化不良的危机我们有一堆技术上正确的证明却没有任何人能把它讲清楚、教出去更没法基于它做后续研究为什么会出现这种情况呢？

核心是AI和人类研究的目标维度完全不同陶哲轩把数学研究的目标分成了显式目标和隐式目标显式目标是技术层面的比如证明某个猜想解出某个方程这是我们明确告诉AI要做的事而隐式目标是人类在研究过程中自然完成的那些事比如梳理证明的叙事线找到和过往文献的关联标记出研究中的难点

甚至通过研究过程培养自己的问题解决能力也让读者能从中学到方法人类做研究时显式目标和隐式目标是同步完成的比如一个数学家花几年攻克一个猜想

在这个过程中他会自然去查文献、和同行讨论、反思自己的思路哪怕最终没证明出来这个过程也会让他以及参与讨论的人提升能力也会为后续研究留下线索但是AI不一样它就像一个字面意义上的精灵你让它证明猜想，它就只做这件事完全忽略那些隐式目标陶哲轩举了个很形象的例子

AI生成的证明可能通篇都是繁琐的常规推导真正的创新点却被藏在某个小节里既不标注，也不解释其价值甚至有的证明会照搬其他论文的思路却完全不引用导致整个研究失去了上下文而没有上下文的证明，就算正确也只是一个孤立的数据点没法融入数学的知识体系这种目标脱节还引发了另一个严重问题

那就是学术体系的激励缺口我们现在的数学界核心奖励机制是谁第一个证明了问题不管是人类和AI合作，还是纯AI完成只要是首次证明相关研究者就能获得学术声誉、奖项、职称晋升等核心激励但是问题在于，首次证明之后的工作比如把证明简化、优化

解释清楚核心思路，验证每一个细节甚至把它写成能教学的内容这些工作既繁琐又没有首次突破的光环几乎没人愿意做陶哲轩把这称为悖论我们越擅长用AI完成首次证明这个显式目标就越难以推进消化证明这个系统层面的隐式目标举个实际的例子如果一个AI团队用三个月证明了一个悬而未决的猜想拿到了所有的学术奖励那谁会愿意再花半年时间去整理这个证明把它讲清楚呢？

没人愿意，最终的结果就是这个突破只停留在有一个正确证明的层面却没法被整个领域吸收这不是推动进步而是制造了一堆知识垃圾那该怎么衡量一个数学问题是不是真的被解决了呢？陶哲轩提出了一个很有意思的指标他叫它Talk指标这个指标很简单能不能有一个人类站在讲台上把这个证明讲清楚并且能回答台下同行的所有问题呢？

如果做不到那这个证明就算被验证了也不算真正解决因为数学的进步从来不是靠一个孤立的证明

而是靠人类对这个证明的理解、传播和再创造比如那些历史上的经典证明从欧拉的公式到黎曼猜想的部分进展之所以能推动学科发展不是因为它们正确而是因为一代代数学家能理解它、讲解它、基于它做新的研究既然核心矛盾是AI的高效率和人类体系的低适配那该怎么解决呢？陶哲轩的核心建议是

重构数学研究的基础设施而不是只优化AI工具本身他用了一个很贴切的类比 AI就像汽车而我们现在的数学体系比如期刊、评审制度、课堂教学、教材编写还停留在19世纪的马车时代没有高速公路，没有步行街所有交通都挤在狭窄的街道上就算汽车跑得再快，最终也只会堵死所以他提出

数学研究需要像城市规划一样明确划分高速公路和步行街高速公路区域针对那些可以标准化、高通量的数学任务比如方程理论项目（Equational Theories Project）里的海量微定理证明或者解析数论里的显式计算任务

这些任务不需要深度的人类思考 AI能以极高的效率完成我们可以完全交给自动化定理证明工具和AI 追求规模和速度就够了步行街区域针对那些需要深度概念思考、人类协作的研究比如全新的数学范式探索、核心猜想的思路突破这些领域要屏蔽AI的噪音让数学家能专注于慢思考、深交流

就像我们不会在步行街开汽车一样这里要优先保证人类的深度理解和协作而不是效率陶哲轩还提到了一个很有参考价值的实践案例正是他主导的方程理论项目（Equational Theories Project）这个项目的目标是自动证明通用代数中的2200万个微定理而它的成功关键

就是模块化设计+清晰基准+去中心化协作团队把大问题拆成无数个小的、可验证的微任务用自动化定理证明工具处理那些低垂的果实把人类专家和顶尖AI模型留给最难的、经过筛选的问题这个项目证明只要基础设施设计得当

AI和人类协作能解决单个数学家、甚至小团队根本没法完成的海量任务而更早的多项式项目（Polymath Projects）则给了另一个维度的经验这个项目是早期的在线众包数学研究尝试最多有几十位不同领域的数学家在线协作它的优势是广度能够整合不同领域的知识找到单一团队想不到的思路

但是它的局限也很明显受限于早期的互联网技术协作的效率非常低最终往往会从海量协作收敛成3-4人的传统小团队不过这个项目也验证了一点众包模式在数学研究中是可行的关键是要适配现代工具同时解决激励的问题除了研究体系陶哲轩还重点谈了数学教育的改革他认为

既然AI能轻松解决大部分本科阶段的数学问题那再用能不能算出正确答案来考核学生已经完全没有意义了比如现在的数学作业、期末考试 AI只要输入题目就能给出标准答案那我们教学生怎么算对本质上是在教一个AI已经做得更好的技能所以未来的数学教育

核心要转向这几个能力第一，AI的编排能力知道怎么把一个复杂问题拆成AI能处理的步骤怎么协调不同的AI工具完成任务第二，提示工程能力能够设计精准的提示词让AI输出有用、可验证的结果而不是字面正确却没用的答案第三，批判性评估能力能判断AI输出的对错识别其中的逻辑漏洞

筛选出有价值的内容陶哲轩还提到了一个有趣的实验让学生组队用提示工程让AI解决期末考试题这个过程中学生必须理解问题的结构评估AI输出的合理性，还要整理结果这比单纯算出答案更能锻炼真正的数学思维也更贴合未来数学研究的实际需求不过，也有人提出

能不能用人类反馈强化学习（RLHF）来解决证明消化的问题呢？

比如给AI设定评分标准让它生成带文献引用、有叙事逻辑的证明但是陶哲轩明确反对这种思路他认为这会引发Reward Hacking AI会为了满足评分标准生成看起来专业、符合格式的证明

但是实际上并没有真正的洞察比如AI会堆砌文献引用却不解释引用的意义或者会按格式划分关键步骤却没抓住真正的核心而真正的证明消化，需要时间沉淀历史上很多里程碑式的论文都是发表几年后才被认可是突破因为它们的价值需要和其他领域的研究结合后才显现这种长期价值根本没法用短期的评分标准来优化为什么数学领域的变革这么难呢？

陶哲轩解释说数学和其他科学的核心差异在于信任体系其他科学，比如物理、生物是大科学的模式一篇论文可能有50多个作者就算其中一个数据点出了问题整个结论也不会完全崩塌体系有足够的韧性但是纯数学不一样证明的可靠性依赖最薄弱的环节一个错误的步骤就能让整个证明失效

所以数学研究历来依赖高信任度的小团队协作每个合作者都是博士级的专家会逐行检查对方的工作这种体系保证了严谨性但也让数学很难像其他科学一样拥抱大协作和自动化工具变得格外保守最后

陶哲轩还谈了形式化验证工具的角色他认为，Lean这类工具是必要的但不是充分的 Lean能帮我们过滤掉错误的证明减轻人类评审的负担毕竟逐行检查证明的正确性是件极其繁琐的事交给机器做效率高得多但是Lean只能保证证明正确没法保证证明可理解、证明有价值

现在已经出现了很多Lean验证通过的证明但是这些证明像意大利面代码一样混乱没人愿意读，也没人愿意维护最终还是没法融入数学体系总结一下陶哲轩的核心观点 AI给数学带来的，不是取代数学家而是重构数学体系我们不能只盯着让AI更快证明定理而要思考怎么设计适配AI的研究体系、激励机制和教育模式

数学的进步，从来不是靠更多的证明而是靠能被理解、能被传承的证明如果我们只追求证明的数量最终只会让数学变成一个堆满正确却无用的证明的仓库只有把AI的效率和人类的深度理解结合起来才能让数学真正往前走其实这个逻辑

也适用于所有被AI冲击的领域工具的进步，最终需要体系的适配就像汽车的发明不仅需要更好的发动机还需要高速公路、交通规则、停车场没有这些，再快的汽车也只是添乱数学的未来不在更快的AI证明工具里而在能让AI和人类各尽其长的体系里感谢收看本期视频，我们下期再见

数学正式进入证明过剩时代 | 陶哲轩 | 证明消化难题 | 隐式目标 | 学术激励缺口 | Talk指标 | 高速公路和步行街 | 方程理论项目 | 数学教育的改革 | 形式化验证工具 · 全文文字稿