← 返回访谈列表

What rebuilding AlphaGo 深度访谈

What rebuilding AlphaGo teaches us about self-play, RL, and future of LLMs - Eric Jang

6
话题段落
1609
字幕段落
157m
对话时长
-
核心金句

📋 访谈摘要

加载中...

📖 话题详览

点击任意话题卡片查看该时段的完整对话内容。

为何重建 AlphaGo:个人动机与开源时代的意义

访谈一开始介绍了 Eric Jang 的背景:他曾任 1X Technologies 的 AI 副总裁,也曾在 Google DeepMind Robotics 担任高级研究科学家。Jang 解释自己在休假期间选择重建 AlphaGo,不是出于怀旧,而是因为 AlphaGo 是把他真正吸引进 AI 领域的关键案例。对他而言,围棋是一个长期被认为无法依靠暴力搜索解决的问题,但深度学习却改变了这一点,这种“浅层网络为何能压缩极深博弈搜索”的现象一直让他着迷。他还提到,随着 2020 年后 KataGo 等开源项目显著降低训练强围棋 AI 的算力门槛,再加上 LLM 编码工具的帮助,当年需要大团队和巨额预算的研究,如今已经能以几千美元级别的云算力复现,这使重建 AlphaGo 变成一个既有教育意义、又能反思未来 AI 研发范式的项目。

AlphaGo开源复现KataGoLLM编程

围棋规则、终局与人类计分和计算机计分的差异

这一段 Jang 用具体落子演示围棋的基本规则:黑先、通过包围对方棋子邻接点实现提子、局部受攻时必须应手,以及围棋“可以丢局部、赢全局”的核心美感。他特别解释了不同规则体系之间的差异,重点介绍了计算机围棋常用的 Tromp-Taylor 规则,因为它完全无歧义,适合程序训练与裁决。接着他把讨论引向终局判断:人类棋手通常会基于共识提前认定哪些棋已死、哪些地已归属,而不必真的把每一步都下到最后;但在计算机规则下,计分必须依赖明确可算法化的定义,例如统计己方棋子数和不接触对方棋子的空点。这导致某些局面对人类来说“显然快死了”,在计算机计分里却仍会被记作有效地盘。Jang 借此埋下后文伏笔:人类这种提前判断胜负的能力,正对应于后面要讲的价值函数。

围棋规则Tromp-Taylor终局计分价值函数直觉

围棋为何难:巨大的博弈树与不可穷举的复杂度

在解释 AlphaGo 之前,Jang 先从最朴素的搜索视角说明围棋为什么难做。AI 每次看到的是棋盘状态编码,而当前一步的好坏并没有局部即时奖励,往往要到全局终局后才能判定。对于 19x19 棋盘,任一回合大致有数百个合法动作,整盘棋深度可达 250 到 300 步,形成的博弈树规模近乎天文数字,甚至比宇宙原子数还夸张。虽然他指出树中存在转置、对称性等冗余,不同走法路径可能汇聚到同一状态,但即便如此,围棋仍是极其巨大的搜索问题。这也是过去计算机科学界长期认为围棋在本世纪难以被攻克的原因之一。Jang 强调,围棋本身是确定性游戏,理论上如果能完全搜索就能找到最优策略;因此 AlphaGo 的真正突破并不是改变问题本质,而是利用神经网络让原本不可计算的搜索变得可处理。

搜索复杂度博弈树确定性游戏AlphaGo突破

从 UCB 到 PUCT:AlphaGo 的树搜索框架如何运作

这一部分进入 AlphaGo 的核心搜索机制。Jang 先介绍如果不能一次性建完整棵树,就必须边搜索边决定哪些叶节点值得扩展。为此,他从 bandit 文献中的 UCB1 讲起,再过渡到 AlphaGo 使用的 PUCT。两者的共同点是:在每个节点上同时考虑当前估计价值 Q,以及一个鼓励尝试较少访问动作的探索项。Jang 进一步解释了树节点的数据结构:节点代表状态而非显式动作,因为围棋是无随机性的确定性环境,子节点本身就隐含了动作;每个节点会存访问次数、动作平均价值、先验概率和子节点字典。接着他说明 PUCT 如何在“利用已知高分支”和“探索未充分调查分支”之间做权衡:初期探索项更重要,随着访问次数增加,决策会逐渐由 Q 值主导。Dwarkesh 还用自己的话复述了这一点,确认 Q 可以看作从该节点出发最终获胜概率的经验平均值,而探索项则控制是否已经对该分支搜得足够深。

MCTSUCBPUCT探索利用

概率从何而来:蒙特卡洛采样、回传与搜索的近似本质

在围棋本身是确定性游戏的前提下,Jang进一步回答“概率从哪里来”这一关键问题。他指出,如果拥有无限强大的计算机,其实根本不需要概率,直接算出真实的动作价值即可;但现实里做不到,因此计算机围棋在 AlphaGo 之前就大量依赖蒙特卡洛方法,用随机采样的搜索树去近似真实价值。这里的概率,不是环境随机,而是来自搜索过程本身诱导出的采样分布。若对合法动作一视同仁、均匀采样,计算虽然合法,却会非常低效,因为绝大多数路径价值都很低,只有少数关键分支真正决定胜负,问题几乎像重要性采样一样困难。随后他讲了终局叶节点的回报 U 如何向上回传到父节点,形成 Q 值:在叶节点能确定胜负后,父节点的动作价值就是下游结果的加权平均,这个“backup step”使树搜索可以逐层构建对局面的估计。然而如果没有更强的先验引导,仅靠这种采样与回传仍然成本高昂、难以在实战中高效找到高价值路径。

蒙特卡洛搜索采样分布backup近似推理

人类如何像价值函数一样思考:从直觉判断到神经网络估值

在这一段,Jang 把前面对终局与共识的讨论转化为更抽象的机器学习视角。他先区分真正的终局回报 U 与中间局面的价值估计:U 只在叶节点定义,表示最终赢或输;但人类棋手并不会每盘都把棋下到完全终局,而是在高水平对弈中提前几十步甚至上百步判断“这盘已经不行了”或“这个局面还能赢”。他将这种能力描述为一种隐式的神经网络,也就是价值函数:输入当前棋盘状态,输出获胜概率 p(win)。换言之,人类是在用经验把大量可能的未来对弈“摊销”进快速直觉里。这个类比解释了为什么价值函数既是可训练的,也是学习围棋所必需的:它把深远搜索压缩成单次前向判断,使系统无需真的展开全部未来就能对局势做出有用估计。

价值函数人类直觉神经网络估值摊销搜索