Building AlphaGo from scratch – Eric Jang

回溯AlphaGo：智能原语的纯净样本

Eric Jang 通过现代 AI 工具从头构建了 AlphaGo，这一过程不仅是对技术的复现，更是一次对智能本质的深度回溯。尽管 AlphaGo 发布于 2017 年，但它依然是展示智能核心原语（primitives）最清晰的工作示例：搜索、从经验中学习以及自我对弈。通过回顾这一经典案例，我们可以更深刻地理解未来更通用的人工智能（AGI）可能具备的学习机制。这种“向后一步”的视角，有助于我们洞察那些尚未完全实现的通用 AI 的学习路径。

"Sometimes you understand the future better by stepping backward. AlphaGo is still the cleanest worked example of the primitives of intelligence: search, learning from experience, and self-play."

在讨论中，Eric 进一步将 AlphaGo 的原理与现代大语言模型（LLM）中的强化学习（RL）进行了对比。他指出，AlphaGo 的蒙特卡洛树搜索（MCTS）为每一步都提供了严格更优的行动建议，从而生成一个能够绕过“信用分配问题”（credit assignment problem）的训练目标。相比之下，LLM 中朴素的政策梯度强化学习面临巨大挑战：它必须在包含 10 万多个 token 的轨迹中，艰难地判断究竟是哪一部分导致了正确答案。人类的学习方式显然更接近于 AlphaGo 的模式，即通过明确的每一步优化来积累经验，而非在漫长的序列中模糊地归因。

蒙特卡洛树搜索（MCTS）的核心机制

视频深入解析了 AlphaGo 的核心组件之一：蒙特卡洛树搜索（MCTS）。MCTS 是一种在巨大搜索空间中寻找最优解的算法，它通过模拟大量随机对局来评估当前局势。在 AlphaGo 中，MCTS 与神经网络结合使用，神经网络负责指导搜索的方向，而 MCTS 负责验证和细化这些方向。这种结合使得 AlphaGo 能够在围棋这种复杂度极高的游戏中，超越人类直觉和传统算法。

MCTS 的过程包括四个主要步骤：选择（Selection）、扩展（Expansion）、模拟（Simulation）和回溯（Backpropagation）。在选择阶段，算法沿着树向下遍历，选择最具潜力的节点；在扩展阶段，添加新的子节点；在模拟阶段，进行随机对局直到结束；最后，在回溯阶段，将结果更新回树根。这一过程不断迭代，使得搜索树逐渐收敛到最优解。Eric 强调，MCTS 的关键优势在于它能够在每一步都提供一个明确的、基于模拟结果的行动建议，这为后续的策略优化提供了高质量的训练数据。

神经网络的职能：策略与价值评估

在 AlphaGo 的架构中，神经网络扮演着双重角色：策略网络（Policy Network）和价值网络（Value Network）。策略网络负责预测下一步的最佳落子位置，即输出一个概率分布，指示在棋盘上每个位置落子的可能性。价值网络则负责评估当前局面的胜率，即预测当前玩家从该局面出发最终获胜的概率。这两个网络共同协作，指导 MCTS 的搜索过程。

策略网络通常是一个卷积神经网络（CNN），它接收棋盘状态作为输入，并输出一个概率分布。价值网络同样基于 CNN，但它输出一个标量值，表示当前局面的胜率。在训练过程中，策略网络通过监督学习从人类专家对局数据中进行预训练，而价值网络则通过自我对弈数据进行训练。这种混合训练策略使得 AlphaGo 既具备人类专家的直觉，又具备超越人类的评估能力。Eric 指出，这种分工明确的设计是 AlphaGo 成功的关键，它使得神经网络能够专注于特定的子任务，从而提高整体性能。

"What the neural network does is to guide the search and evaluate the position. The policy network suggests where to look, and the value network tells us how good that position is."

自我对弈：从经验中进化的引擎

自我对弈（Self-play）是 AlphaGo 能够超越人类的关键机制。在自我对弈过程中，AlphaGo 与自己的不同版本进行对局，通过不断与过去的自己竞争，逐步提升棋力。这一过程不需要人类专家的数据，完全依赖于算法自身的探索和利用。自我对弈的优势在于，它能够生成无限多的训练数据，并且这些数据始终处于相同的难度水平，避免了人类数据中可能存在的偏差或局限性。

在自我对弈中，AlphaGo 使用当前的策略网络和价值网络生成对局数据，然后利用这些数据更新网络参数。这一过程不断迭代，使得策略网络和价值网络逐渐收敛到更优的状态。Eric 强调，自我对弈不仅是一种训练方法，更是一种探索智能本质的实验。通过观察自我对弈过程中策略的演变，我们可以更好地理解智能体如何在没有外部指导的情况下，通过试错和反馈来优化其行为。

"Self-play allows the system to generate its own training data, continuously improving by playing against itself. This eliminates the dependency on human data and allows for infinite scalability."

替代强化学习方法的局限性

在讨论 AlphaGo 的成功时，Eric 也探讨了其他强化学习方法的局限性，特别是朴素的政策梯度（Policy Gradient）方法。在 LLM 中，朴素的政策梯度方法面临严重的信用分配问题：由于输出序列极长，很难确定哪些 token 对最终结果贡献最大。相比之下，AlphaGo 的 MCTS 在每一步都提供了一个明确的行动建议，从而避免了这一难题。

此外，Eric 还提到了其他替代方法，如 Q-learning 和 Actor-Critic 方法。虽然这些方法在某些领域表现出色，但在处理高维、离散动作空间的问题时，往往面临计算复杂度高和收敛速度慢的问题。AlphaGo 的成功在于它巧妙地结合了搜索和深度学习，从而在复杂环境中实现了高效的学习和优化。这一对比突显了 AlphaGo 架构的独特优势，也为未来 AI 研究提供了重要的参考。

MCTS 在 LLM 中的适用性挑战

尽管 MCTS 在围棋等游戏中取得了巨大成功，但将其直接应用于 LLM 面临诸多挑战。首先，LLM 的动作空间是连续的文本序列，而非离散的棋盘落子，这使得 MCTS 的树搜索结构难以直接应用。其次，LLM 的输出长度极长，导致搜索空间呈指数级增长，计算成本高昂。此外，LLM 的奖励信号通常稀疏且滞后，进一步加剧了信用分配的难度。

Eric 指出，虽然 MCTS 的核心思想（如模拟和回溯）可以借鉴，但需要针对 LLM 的特性进行重大修改。例如，可以使用采样技术来减少搜索空间，或者引入分层搜索策略来逐步细化输出。然而，这些修改往往伴随着计算复杂度的增加和实现难度的提升。目前，MCTS 在 LLM 中的应用仍处于探索阶段，尚未找到像 AlphaGo 那样简洁高效的解决方案。

"Why doesn’t MCTS work for LLMs? The action space is too large, the sequence is too long, and the reward signal is too sparse. We need new algorithms to bridge this gap."

离线策略训练与信息效率

视频还讨论了离线策略训练（Off-policy training）在强化学习中的重要性。离线策略训练允许智能体利用历史数据或来自不同策略的数据进行训练，从而提高了数据利用效率。在 AlphaGo 中，自我对弈生成的数据可以被多次利用，从而减少了对外部数据的依赖。相比之下，在线策略训练需要智能体与环境实时交互，数据收集成本高且效率低。

Eric 强调，强化学习本质上比人们想象的信息效率更低：智能体需要大量的试错才能学会最优策略。离线策略训练通过重用数据，可以在一定程度上缓解这一问题。然而，如何有效地利用历史数据，避免分布偏移（distribution shift）带来的负面影响，仍然是研究中的开放问题。这一讨论为理解 RL 的数据需求提供了新的视角，也指出了未来研究的方向。

自动化 AI 研究者的潜力与局限

最后，Eric 探讨了 LLM 在自动化 AI 研究中的潜力。他指出，LLM 已经能够很好地自动化实验的实施和运行、超参数优化等任务，但在选择研究问题和避免研究死胡同方面仍存在不足。这一观点引发了关于“智能爆炸”（intelligence explosion）何时到来及其内部形态的讨论。

Eric 提到，他已经开始在他的项目中启动一个“自动研究循环”（Autoresearch loop）。在这个循环中，LLM 负责生成假设、设计实验并分析结果，而人类研究者则负责监督和指导。这一过程展示了 AI 在加速科学研究方面的巨大潜力，但也暴露了当前技术在创造性思维和战略决策方面的局限性。未来的 AI 研究者可能需要与 LLM 形成互补，共同推动科学进步。

"LLMs can automate implementing and running experiments, optimizing hyperparameters, but they still struggle with choosing the right question to investigate next and escaping research dead ends."

总结与展望

通过从头构建 AlphaGo，Eric Jang 不仅展示了一个经典 AI 系统的内部工作原理，还深入探讨了其对现代 AI 研究的启示。AlphaGo 的核心原语——搜索、学习和自我对弈——为理解智能提供了清晰的框架。同时，与 LLM 强化学习的对比，突显了信用分配问题和信息效率挑战的重要性。尽管 MCTS 在 LLM 中的应用面临挑战，但其核心思想仍具有重要的参考价值。最后，自动化 AI 研究的讨论，为我们描绘了未来人机协作科研的新图景。这一视频不仅是一次技术回顾，更是一次对 AI 未来发展的深刻思考。

"The way humans learn is surely closer to the second [AlphaGo's MCTS approach]. Informative to all the recent discussion about when we should expect an intelligence explosion, and what it would look like from the inside."