AlphaGo 十年回顾：从围棋棋盘到科学发现的范式革命

一、围棋：人工智能的终极挑战与技术内核

围棋之所以被视为 AI 的“最后圣杯”，在于其极高的复杂性与推理深度。围棋棋盘拥有 361 个交叉点，其可能的状态空间高达 10 的 170 次方，这一数字远超目前人类可观测宇宙中的原子总数，使得传统的暴力搜索算法完全失效。此外，围棋要求 AI 具备极强的长程推理能力，必须在数百步的博弈中保持全局战略的一致性。

为了攻克这一难题，DeepMind 借鉴了人类“快思与慢想”的认知模式，开发了结合深度神经网络与蒙特卡洛树搜索（MCTS）的架构： * 策略网络（负责“快思”）：通过监督学习人类棋谱，快速缩小搜索范围，输出每个落子位置的概率分布。 * 价值网络（负责“慢想”的一部分）：负责局面评估，计算胜负概率，从而砍掉无意义的推演分支。 * 蒙特卡洛树搜索（负责“慢想”的核心）：通过数百万次模拟对弈，在探索（尝试新下法）与利用（选择高胜率下法）之间取得平衡，实现高效导航。

二、从模仿到进化：AlphaGo 到 AlphaZero 的跨越

AlphaGo 的发展经历了从模仿人类到自主探索的进化。早期的 AlphaGo 依赖于数百万局人类棋谱进行监督学习，而 AlphaZero 则实现了真正的自我进化。AlphaZero 在训练之初仅掌握基本规则，完全脱离了人类的先验知识，通过纯粹的自我对弈进行学习。

这种进化带来了两个层面的突破：首先，AlphaZero 能够重新发现人类数千年来积累的经典定式；其次，它能够抛弃人类的传统经验，走出了许多看似随意、难以理解、但在长远视角下更为高效的下法。更重要的是，AlphaZero 证明了算法的通用性，同一套框架只需改变规则输入，即可在围棋、国际象棋和将棋中均达到顶级水平。

三、范式迁移：将“直觉+搜索”应用于科学探索

AlphaGo 最宝贵的遗产是将“直觉网络 + 搜索”的范式应用于解决复杂的科学问题。DeepMind 将这一逻辑从棋盘延伸到了生物学、计算机科学等领域： * AlphaFold：将氨基酸序列视为“棋盘”，将构象变化视为“落子”，成功解决了困扰生物学 50 年的蛋白质折叠难题。其成果已助力全球超过 300 万名研究人员，并因此获得 2024 年诺贝尔化学奖。 * AlphaTensor：将矩阵乘法算法的寻找过程转化为游戏，在巨大的搜索空间中发现了比 1969 年斯特拉森算法更优的矩阵乘法方案，打破了基础计算领域的长期停滞。 * AlphaEvolve：将该范式推向更广阔的领域，在数据中心调度、物流路径规划等需要在巨大搜索空间寻找最优解的问题中发挥作用。

四、未来图景：人机协作与知识边界的突破

随着 AI 进入科学领域，如何区分“AI 的创新”与“AI 的幻觉”成为了核心挑战。目前的解决方案是将生成与验证彻底分离：AI 负责提供无限的假设，而通过代码测试、数学证明或物理实验等严格的验证机制进行筛选。

未来的 AI 发展趋势是强化学习与大语言模型（LLM）的深度融合：利用 LLM 吸收人类海量的结晶化知识，再通过强化学习进行后训练，实现对人类知识边界的自主探索。在这种模式下，人类的角色将从“解题者”转变为“问题的提出者”与“结论的转化者”，共同构建人机协作的新范式。

AlphaGo十年回顾 | DeepMind播客 | 为何选择围棋 | 快思与慢想 | 李世石 | 第37手 | 神之一手 | AlphaZero | 直觉+搜索 | 哈萨比斯 | AlphaFold

AlphaGo 十年回顾：从围棋棋盘到科学发现的范式革命

一、围棋：人工智能的终极挑战与技术内核

二、从模仿到进化：AlphaGo 到 AlphaZero 的跨越

三、范式迁移：将“直觉+搜索”应用于科学探索

四、未来图景：人机协作与知识边界的突破

关键引用

AlphaGo十年回顾 | DeepMind播客 | 为何选择围棋 | 快思与慢想 | 李世石 | 第37手 | 神之一手 | AlphaZero | 直觉+搜索 | 哈萨比斯 | AlphaFold

AlphaGo 十年回顾：从围棋棋盘到科学发现的范式革命

一、 围棋：人工智能的终极挑战与技术内核

二、 从模仿到进化：AlphaGo 到 AlphaZero 的跨越

三、 范式迁移：将“直觉+搜索”应用于科学探索

四、 未来图景：人机协作与知识边界的突破

关键引用

一、围棋：人工智能的终极挑战与技术内核

二、从模仿到进化：AlphaGo 到 AlphaZero 的跨越

三、范式迁移：将“直觉+搜索”应用于科学探索

四、未来图景：人机协作与知识边界的突破