AlphaGo 十年回顾:从围棋棋盘到科学发现的范式革命

一、 围棋:人工智能的终极挑战与技术内核

围棋之所以被视为 AI 的“最后圣杯”,在于其极高的复杂性与推理深度。围棋棋盘拥有 361 个交叉点,其可能的状态空间高达 10 的 170 次方,这一数字远超目前人类可观测宇宙中的原子总数,使得传统的暴力搜索算法完全失效。此外,围棋要求 AI 具备极强的长程推理能力,必须在数百步的博弈中保持全局战略的一致性。

为了攻克这一难题,DeepMind 借鉴了人类“快思与慢想”的认知模式,开发了结合深度神经网络与蒙特卡洛树搜索(MCTS)的架构: * 策略网络(负责“快思”):通过监督学习人类棋谱,快速缩小搜索范围,输出每个落子位置的概率分布。 * 价值网络(负责“慢想”的一部分):负责局面评估,计算胜负概率,从而砍掉无意义的推演分支。 * 蒙特卡洛树搜索(负责“慢想”的核心):通过数百万次模拟对弈,在探索(尝试新下法)利用(选择高胜率下法)之间取得平衡,实现高效导航。

二、 从模仿到进化:AlphaGo 到 AlphaZero 的跨越

AlphaGo 的发展经历了从模仿人类到自主探索的进化。早期的 AlphaGo 依赖于数百万局人类棋谱进行监督学习,而 AlphaZero 则实现了真正的自我进化。AlphaZero 在训练之初仅掌握基本规则,完全脱离了人类的先验知识,通过纯粹的自我对弈进行学习。

这种进化带来了两个层面的突破:首先,AlphaZero 能够重新发现人类数千年来积累的经典定式;其次,它能够抛弃人类的传统经验,走出了许多看似随意、难以理解、但在长远视角下更为高效的下法。更重要的是,AlphaZero 证明了算法的通用性,同一套框架只需改变规则输入,即可在围棋、国际象棋和将棋中均达到顶级水平。

三、 范式迁移:将“直觉+搜索”应用于科学探索

AlphaGo 最宝贵的遗产是将“直觉网络 + 搜索”的范式应用于解决复杂的科学问题。DeepMind 将这一逻辑从棋盘延伸到了生物学、计算机科学等领域: * AlphaFold:将氨基酸序列视为“棋盘”,将构象变化视为“落子”,成功解决了困扰生物学 50 年的蛋白质折叠难题。其成果已助力全球超过 300 万名研究人员,并因此获得 2024 年诺贝尔化学奖。 * AlphaTensor:将矩阵乘法算法的寻找过程转化为游戏,在巨大的搜索空间中发现了比 1969 年斯特拉森算法更优的矩阵乘法方案,打破了基础计算领域的长期停滞。 * AlphaEvolve:将该范式推向更广阔的领域,在数据中心调度、物流路径规划等需要在巨大搜索空间寻找最优解的问题中发挥作用。

四、 未来图景:人机协作与知识边界的突破

随着 AI 进入科学领域,如何区分“AI 的创新”与“AI 的幻觉”成为了核心挑战。目前的解决方案是将生成与验证彻底分离:AI 负责提供无限的假设,而通过代码测试、数学证明或物理实验等严格的验证机制进行筛选。

未来的 AI 发展趋势是强化学习与大语言模型(LLM)的深度融合:利用 LLM 吸收人类海量的结晶化知识,再通过强化学习进行后训练,实现对人类知识边界的自主探索。在这种模式下,人类的角色将从“解题者”转变为“问题的提出者”与“结论的转化者”,共同构建人机协作的新范式。