数学正式进入证明过剩时代 | 陶哲轩 | 证明消化难题 | 隐式目标 | 学术激励缺口 | Talk指标 | 高速公路和步行街 | 方程理论项目 | 数学教育的改革

证明过剩时代的到来与核心矛盾

陶哲轩在未来数学研讨会上指出，数学研究正从证明稀缺时代全面进入证明过剩时代。在过去几千年中，数学家的核心工作是寻找证明，一个猜想或问题往往耗费几代人心血才能找到可行的证明路径，例如费马大定理从提出到证明用了300多年。然而，随着AI驱动的定理证明工具和大语言模型的出现，生成和验证证明的速度呈指数级提升。AI能在短时间内处理海量数学问题，生成技术上符合逻辑的证明，甚至利用Lean等形式化验证工具确认其正确性。但陶哲轩强调，这些正确的证明对数学界而言未必有价值，因为传统数学研究包含三个核心阶段：生成证明、验证证明、消化证明。前两个阶段AI已超越人类，但第三个阶段证明消化（Proof Digestion）几乎完全缺位，而这恰恰是数学进步的核心。

“数学正在从证明稀缺时代全面进入证明过剩的时代。”

证明消化的缺失与“三分之二解决方案”

证明消化并非简单看懂每一步推导，而是将证明融入整个数学体系，梳理叙事逻辑，找到关键创新点，关联过往文献，指出其能解决的新问题，并转化为可教学的内容。AI生成的证明往往严格符合逻辑，但不引用相关研究，不解释关键步骤的价值，也无法回答其他数学家的提问。陶哲轩将这种证明称为“三分之二的解决方案”，因为它仅完成了技术层面的目标，却未推动领域进步。当前，AI生成的半成品证明越来越多，人类来不及消化，导致证明消化不良危机。我们拥有一堆技术上正确的证明，却无人能讲清楚、教出去，更无法基于此进行后续研究，最终形成知识垃圾。

“陶哲轩把这种证明叫做三分之二的解决方案，因为它只完成了技术层面的目标，却没真正推动整个领域的进步。”

显式目标与隐式目标的目标脱节

AI与人类研究的目标维度存在根本差异。陶哲轩将数学研究目标分为显式目标和隐式目标。显式目标是技术层面的，如证明猜想或解方程，这是明确告诉AI的任务；隐式目标则是人类在研究中自然完成的事，如梳理叙事线、关联文献、标记难点、培养问题解决能力，并让读者从中学习方法。人类研究时，显式与隐式目标同步完成，例如数学家花几年攻克猜想，期间查文献、讨论、反思，即使未证明成功，也能提升能力并留下线索。而AI像字面意义上的精灵，只完成显式目标，忽略隐式目标。AI生成的证明可能通篇繁琐推导，将创新点藏在角落，不标注也不解释，甚至照搬思路却不引用，导致研究失去上下文。

“人类做研究时，显式目标和隐式目标是同步完成的……但是AI不一样，它就像一个字面意义上的精灵，你让它证明猜想，它就只做这件事，完全忽略那些隐式目标。”

学术激励缺口与证明悖论

目标脱节引发了严重的学术激励缺口。当前数学界的核心奖励机制是“谁第一个证明了问题”，无论是人机合作还是纯AI完成，首次证明者即可获得声誉、奖项和晋升。然而，首次证明后的工作——如简化、优化、解释核心思路、验证细节、编写教学内容——既繁琐又无光环，几乎无人愿意做。陶哲轩称此为悖论：我们越擅长用AI完成首次证明，就越难以推进消化证明这一系统层面的隐式目标。例如，若AI团队用三个月证明猜想并拿走所有奖励，无人愿再花半年整理证明。结果，突破仅停留在“有正确证明”层面，无法被领域吸收，阻碍了真正的进步。

“我们越擅长用AI完成首次证明这个显式目标，就越难以推进消化证明这个系统层面的隐式目标。”

Talk指标：衡量问题是否真正解决

陶哲轩提出Talk指标来衡量数学问题是否真正被解决：能否有一个人类站在讲台上，把证明讲清楚，并回答台下同行的所有问题？若做不到，即使证明被验证，也不算真正解决。数学进步依赖人类对证明的理解、传播和再创造。历史上的经典证明，如欧拉公式或黎曼猜想的部分进展，之所以推动学科发展，不是因为它们正确，而是因为一代代数学家能理解、讲解并基于此做新研究。这一指标强调了人类深度参与在数学传承中的不可替代性，孤立的数据点无法融入知识体系。

“能不能有一个人类站在讲台上，把这个证明讲清楚，并且能回答台下同行的所有问题呢？如果做不到，那这个证明就算被验证了，也不算真正解决。”

重构基础设施：高速公路与步行街

为解决AI高效率与人类体系低适配的矛盾，陶哲轩建议重构数学研究的基础设施，而非仅优化AI工具。他用汽车与马车类比：AI是汽车，而期刊、评审、教学等体系仍停留在19世纪马车时代，缺乏高速公路和步行街，导致拥堵。他提出划分高速公路和步行街区域。高速公路针对可标准化、高通量的任务，如方程理论项目（Equational Theories Project）中的海量微定理证明或解析数论显式计算，这些任务无需深度人类思考，可完全交给AI，追求规模和速度。步行街针对需深度概念思考、人类协作的研究，如新范式探索或核心猜想突破，需屏蔽AI噪音，让数学家专注慢思考和深交流，优先保证深度理解而非效率。

“AI就像汽车，而我们现在的数学体系……还停留在19世纪的马车时代，没有高速公路，没有步行街，所有交通都挤在狭窄的街道上。”

方程理论项目与多项式项目的实践启示

陶哲轩分享了方程理论项目的成功案例，该项目旨在自动证明通用代数中的2200万个微定理。其成功关键在于模块化设计、清晰基准和去中心化协作。团队将大问题拆分为无数可验证的微任务，用自动化工具处理低垂果实，将人类专家和顶尖AI留给最难问题。这证明，得当的基础设施设计能让AI与人类协作解决单人或小团队无法完成的海量任务。此外，早期的多项式项目（Polymath Projects）作为在线众包数学研究尝试，最多有几十位数学家协作，优势在于整合不同领域知识，找到单一团队想不到的思路。但其局限在于早期互联网技术导致协作效率低，最终收敛为3-4人的小团队。不过，它验证了众包模式在数学研究中的可行性，关键在于适配现代工具并解决激励问题。

“这个项目证明，只要基础设施设计得当，AI和人类协作能解决单个数学家、甚至小团队根本没法完成的海量任务。”

数学教育的改革方向

陶哲轩强调，既然AI能轻松解决大部分本科数学问题，以算出正确答案考核学生已无意义。未来的数学教育应转向三种核心能力：第一，AI的编排能力，即把复杂问题拆分为AI可处理步骤，协调不同工具完成任务；第二，提示工程能力，设计精准提示词，让AI输出有用、可验证的结果，而非字面正确但无用的答案；第三，批判性评估能力，判断AI输出对错，识别逻辑漏洞，筛选有价值内容。他提到一个实验：让学生组队用提示工程解决期末考试题，过程中学生必须理解问题结构、评估AI输出合理性并整理结果。这比单纯算答案更能锻炼真正的数学思维，贴合未来研究需求。

“未来的数学教育核心要转向这几个能力：第一，AI的编排能力……第二，提示工程能力……第三，批判性评估能力。”

反对RLHF解决证明消化及数学信任体系

针对用人类反馈强化学习（RLHF）解决证明消化的提议，陶哲轩明确反对。他认为这会引发Reward Hacking，AI为满足评分标准，生成看似专业、符合格式但无真正洞察的证明，如堆砌文献引用却不解释意义，或按格式划分步骤却未抓住核心。真正的证明消化需要时间沉淀，许多里程碑论文发表几年后才被认可，因其价值需与其他领域结合后显现，这种长期价值无法用短期评分标准优化。此外，数学变革难的核心在于信任体系差异。物理、生物等大科学模式容忍数据点错误，而纯数学依赖最薄弱环节，一个错误步骤即导致证明失效。因此，数学历来依赖高信任度的小团队协作，每位合作者逐行检查工作，保证严谨性，但也使其难以拥抱大协作和自动化工具，显得保守。

“陶哲轩明确反对这种思路，他认为这会引发Reward Hacking，AI会为了满足评分标准，生成看起来专业、符合格式的证明，但是实际上并没有真正的洞察。”

Lean工具的角色与总结

陶哲轩认为，Lean等形化验证工具是必要的，但不是充分的。Lean能过滤错误证明，减轻人类评审负担，因逐行检查极其繁琐，机器效率更高。但Lean只能保证证明正确，无法保证证明可理解或有价值。目前已有许多Lean验证通过的证明，但像意大利面代码一样混乱，无人愿读或维护，无法融入数学体系。总结而言，AI给数学带来的不是取代数学家，而是重构数学体系。我们不应只关注让AI更快证明定理，而应思考如何设计适配AI的研究体系、激励机制和教育模式。数学进步依赖能被理解、能被传承的证明，而非数量堆砌。只有结合AI效率与人类深度理解，数学才能真正前进。这一逻辑也适用于所有被AI冲击的领域：工具进步需体系适配，如汽车需高速公路和交通规则，否则再快的汽车也只是添乱。数学的未来不在更快的AI工具，而在让AI和人类各尽其长的体系。

“数学的进步，从来不是靠更多的证明，而是靠能被理解、能被传承的证明。”

数学正式进入证明过剩时代 | 陶哲轩 | 证明消化难题 | 隐式目标 | 学术激励缺口 | Talk指标 | 高速公路和步行街 | 方程理论项目 | 数学教育的改革 | 形式化验证工具