科学研究的范式革命:从理论驱动到数据验证

陶哲轩指出,科学研究正在经历一场根本性的范式转变。通过回顾开普勒发现行星运动定律的历史,我们可以看到科学进步的本质:开普勒并非仅仅依靠灵光乍现,而是建立在第谷·布拉赫提供的高精度观测数据之上。第谷的数据精度比此前高出十倍,正是这额外的一位有效数字,让开普勒能够通过数据证伪原本完美的“圆形轨道”假说,最终推导出椭圆轨道定律。

在 AI 时代,这种逻辑被进一步放大。AI 已经把思想生成的成本压低到几乎为零。过去,科学研究依赖于“理论驱动”或“实验验证”;而现在,随着机器学习和统计学的进步,科研正转向“先有海量数据,再从中挖掘规律”的模式。开普勒可以被视为最早的数据科学家之一,而现代 AI 则让这种从数据到定律的推导变得规模化。

信号与噪声:AI 时代的筛选难题

随着 AI 生成理论的能力增强,科学发现的瓶颈已不再是“提出想法”,而是如何验证、评估和筛选这些理论。AI 可以瞬间生成数千种理论,其中既有极具价值的洞见,也夹杂着大量错误的“幻觉”内容。传统的同行评审体系在面对海量 AI 生成的论文时已显得力不从心。

陶哲轩通过“波得定律”的案例警示了数据拟合的陷阱:波得定律曾通过六颗行星的数据拟合出了看似完美的规律,甚至预测了天王星的存在,但由于它仅仅是数字上的巧合,在海王星被发现后便被证明是错误的。这说明,在 AI 大规模生成理论的同时,如何区分真正的科学规律与数字巧合,已成为当前科研的核心挑战。

科学的社会属性:人类不可替代的叙事能力

科学不仅是逻辑与数据的组合,还具有深刻的社会属性。陶哲轩对比了牛顿与达尔文的传播方式:牛顿使用拉丁文写作,其理论的传播依赖于复杂的数学工具;而达尔文则是一位卓越的科学传播者,他通过自然语言和叙事技巧,将零散的事实综合成一个易于理解的故事,从而说服了大众。

这种关于“空白”的叙事能力——即通过构建逻辑框架,让人们相信在现有数据之外存在着未知的机制(如进化论中的遗传机制)——是 AI 目前无法复制的。此外,科学价值往往具有语境依赖性,无法像局部数学问题那样通过强化学习来量化。因此,判断一个想法是否具有开创性,仍需要人类结合历史与社会语境进行判断。

数学的实验时代:广度与深度的协同进化

数学作为最纯粹的理论学科,正迎来其“实验时代”。AI 在数学研究中的应用正从辅助工具转向规模化的探索。以埃尔德什问题集为例,AI 程序已经解决了其中约 1100 个问题里的 50 个。虽然目前的 AI 更多是在解决那些“低垂的果实”(即结合冷门技术与现有文献的简单问题),但它展示了强大的广度优势

陶哲轩提出了一个互补的未来图景:AI 擅长广度,人类擅长深度。人类数学家应从单纯追求单个难题的突破,转向构建宽泛的问题集,利用 AI 进行大规模的观察与初步探索,从而识别出真正困难的“孤岛”,再由人类专家集中精力攻克。数学研究的重心将从单纯的“解题”转向构建规模化的工作流程,通过大规模收集“何种方法有效”的数据,实现对数学学科底层的重构。