Reflection AI’s Misha Laskin 深度访谈 260613

开场：AI 智能体仍需解决深度问题

▶

访谈开头直接提出当前 AI 领域面临的核心矛盾：大型实验室和主流模型在“广度”上取得了巨大进展，能够解锁大量实用场景和市场价值，但在“深度”上仍有待突破。主持人介绍 Misha Laskin 是 Reflection AI 的 CEO 与联合创始人，曾任 DeepMind 研究科学家；其联合创始人 Yannis 曾参与 AlphaGo，并领导 Gemini 的 RLHF 工作。访谈将围绕为什么现有最强模型距离真正 AI 智能体仍然很远、如何释放 LLM 的智能体能力，以及 AlphaGo、AlphaZero、Gemini 等项目能带来的经验展开。

AI智能体大模型深度问题Reflection AI

移民经历与对精通技艺的理解

▶

Misha 回顾了自己的家庭背景：父母在苏联解体后从俄罗斯移民到以色列，几乎身无分文，也不会希伯来语。他们选择在耶路撒冷希伯来大学攻读化学博士，起初并非出于纯粹的学术热情，而是因为当地为俄罗斯移民提供继续教育的津贴。Misha 认为父母给他的最大启发，不是所谓天生的激情，而是在深入学习、产生好奇并持续投入后，逐渐成为某个领域的专家。他从中形成了对“掌握一门技艺”的尊重，也影响了自己后来追求前沿科技和基础问题的路径。

成长经历移民背景专业精进科研启蒙

从华盛顿荒漠小城到物理学兴趣

▶

Misha 讲述了九岁移居美国华盛顿州的经历。父母曾向他描述那里有山和自然风光，但飞机最终降落在华盛顿州较荒凉的 Tri-Cities 地区。这个地方因曼哈顿计划中的 Hanford 核设施而存在，地处偏远，生活单调。由于语言不熟、朋友不多，他有大量独处时间。在玩腻电子游戏后，他偶然接触到父母收藏的费曼物理讲座，并被费曼用直观方式解释复杂世界规律的能力深深吸引。这段经历让他开始对物理学、基础科学以及从根本层面理解世界产生浓厚兴趣。

物理学费曼讲座基础科学童年经历

从物理学转向时代的根节点问题

▶

Misha 解释自己为何最终没有继续从事物理学。他认为，重要的不只是研究“根节点问题”，还要研究“属于这个时代的根节点问题”。物理学在一百年前曾是时代核心问题，但他逐渐意识到当下真正能被解锁的领域发生了变化。于是他做了 180 度转向，创办了一家公司，并开始关注深度学习。AlphaGo 的出现对他影响巨大，尤其是 Move 37 展示了机器不仅能超越人类，还能以创造性的方式发现人类未曾想到的解法。随后他通过 OpenAI 的研究请求进入 AI 研究圈，并在 Berkeley 的 Pieter Abbeel 实验室获得机会。

职业转向AlphaGoMove 37强化学习

DQN、AlphaGo 与深度强化学习的第一批智能体

▶

主持人请 Misha 介绍他和联合创始人 Yannis 在 DeepMind 与 Google 的经历。Misha 表示，Yannis 几乎是自己进入 AI 的原因之一。他曾是 AlphaGo 的关键工程师，并亲历与李世石对局；更早之前，他还参与了 DQN 相关工作。Misha 将 DQN 视为深度学习时代第一个成功的智能体，它能够从原始感官输入中学会玩 Atari 游戏，并由此推动了深度强化学习领域的发展。AlphaGo 及后续 AlphaZero、MuZero 则进一步证明，小模型在特定任务中可以通过有效方法达到极高智能水平。

DQNAlphaGo深度强化学习DeepMind

苦涩教训：学习与搜索的结合

▶

Misha 用 Rich Sutton 的“苦涩教训”总结 AlphaGo 带来的关键启发：依赖人类手工直觉构建的系统，最终往往会被能规模化利用计算的系统取代。他认为计算主要有两种可扩展利用方式：一是通过训练进行学习，二是通过搜索展开多个计划并选择最优方案。AlphaGo 的深刻之处在于同时结合了学习与搜索，因此能够在围棋中产生超人表现。问题是，AlphaGo 只擅长单一任务；深度强化学习曾陷入瓶颈，因为训练一个任务就需要海量数据。相比之下，互联网为语言模型提供了大规模多任务数据，使模型具备广泛性，但缺乏可靠智能体所需的规划与搜索能力。

苦涩教训学习与搜索语言模型规划能力

Reflection AI 的起点：从聊天对齐走向能力对齐

▶

Misha 介绍 Reflection AI 的起源来自他与 Yannis 在 Gemini 上的紧密合作。Yannis 负责 RLHF，Misha 负责奖励模型训练，这是后训练中的关键环节。他们当时主要将语言模型对齐为良好的聊天体验，比如 ChatGPT、Bard 或 Gemini 这类产品。但他们从中得到的洞见是：模型并非只能被对齐为聊天机器人，如果收集针对其他能力的数据，也可以解锁其他能力。虽然聊天任务偏主观，而目标明确的任务需要不同算法和数据设计，但他们相信模型架构和训练方法已经相对成熟，真正的关键变成了数据，以及如何在这些模型之上实现规划和搜索。

Reflection AIGeminiRLHF后训练

重新定义智能体：自主推理并完成目标

▶

主持人指出“agent”已成为 2024 年热门词，许多产品都自称智能体，但概念正在泛化。Misha 回到深度学习时代的语境，从 DQN 开始解释自己对智能体的理解。他认为智能体的定义很简单：一个 AI 系统能够独立推理，并采取所需的多个步骤来完成被指定的目标。在深度强化学习时代，这个目标通常由奖励函数指定，例如 AlphaGo 中目标与胜负相关。这里的重点不是单次回答，而是系统能否围绕目标进行连续行动、决策和纠错，这也为后文讨论当前智能体距离“同事级”可靠性仍有差距做铺垫。

智能体定义自主推理多步行动目标完成

Reflection AI’s Misha Laskin 深度访谈

📋 访谈摘要

📖 话题详览

开场：AI 智能体仍需解决深度问题

📝 该时段完整对话

移民经历与对精通技艺的理解

📝 该时段完整对话

从华盛顿荒漠小城到物理学兴趣

📝 该时段完整对话

从物理学转向时代的根节点问题

📝 该时段完整对话

DQN、AlphaGo 与深度强化学习的第一批智能体

📝 该时段完整对话

苦涩教训：学习与搜索的结合

📝 该时段完整对话

Reflection AI 的起点：从聊天对齐走向能力对齐

📝 该时段完整对话

重新定义智能体：自主推理并完成目标

📝 该时段完整对话