← 返回访谈列表

Reflection AI’s Misha Laskin 深度访谈

Reflection AI’s Misha Laskin on the AlphaGo Moment for LLMs | Training Data

8
话题段落
1625
字幕段落
67m
对话时长
-
核心金句

📋 访谈摘要

加载中...

📖 话题详览

点击任意话题卡片查看该时段的完整对话内容。

开场:AI 智能体仍需解决深度问题

访谈开头直接提出当前 AI 领域面临的核心矛盾:大型实验室和主流模型在“广度”上取得了巨大进展,能够解锁大量实用场景和市场价值,但在“深度”上仍有待突破。主持人介绍 Misha Laskin 是 Reflection AI 的 CEO 与联合创始人,曾任 DeepMind 研究科学家;其联合创始人 Yannis 曾参与 AlphaGo,并领导 Gemini 的 RLHF 工作。访谈将围绕为什么现有最强模型距离真正 AI 智能体仍然很远、如何释放 LLM 的智能体能力,以及 AlphaGo、AlphaZero、Gemini 等项目能带来的经验展开。

AI智能体大模型深度问题Reflection AI

移民经历与对精通技艺的理解

Misha 回顾了自己的家庭背景:父母在苏联解体后从俄罗斯移民到以色列,几乎身无分文,也不会希伯来语。他们选择在耶路撒冷希伯来大学攻读化学博士,起初并非出于纯粹的学术热情,而是因为当地为俄罗斯移民提供继续教育的津贴。Misha 认为父母给他的最大启发,不是所谓天生的激情,而是在深入学习、产生好奇并持续投入后,逐渐成为某个领域的专家。他从中形成了对“掌握一门技艺”的尊重,也影响了自己后来追求前沿科技和基础问题的路径。

成长经历移民背景专业精进科研启蒙

从华盛顿荒漠小城到物理学兴趣

Misha 讲述了九岁移居美国华盛顿州的经历。父母曾向他描述那里有山和自然风光,但飞机最终降落在华盛顿州较荒凉的 Tri-Cities 地区。这个地方因曼哈顿计划中的 Hanford 核设施而存在,地处偏远,生活单调。由于语言不熟、朋友不多,他有大量独处时间。在玩腻电子游戏后,他偶然接触到父母收藏的费曼物理讲座,并被费曼用直观方式解释复杂世界规律的能力深深吸引。这段经历让他开始对物理学、基础科学以及从根本层面理解世界产生浓厚兴趣。

物理学费曼讲座基础科学童年经历

从物理学转向时代的根节点问题

Misha 解释自己为何最终没有继续从事物理学。他认为,重要的不只是研究“根节点问题”,还要研究“属于这个时代的根节点问题”。物理学在一百年前曾是时代核心问题,但他逐渐意识到当下真正能被解锁的领域发生了变化。于是他做了 180 度转向,创办了一家公司,并开始关注深度学习。AlphaGo 的出现对他影响巨大,尤其是 Move 37 展示了机器不仅能超越人类,还能以创造性的方式发现人类未曾想到的解法。随后他通过 OpenAI 的研究请求进入 AI 研究圈,并在 Berkeley 的 Pieter Abbeel 实验室获得机会。

职业转向AlphaGoMove 37强化学习

DQN、AlphaGo 与深度强化学习的第一批智能体

主持人请 Misha 介绍他和联合创始人 Yannis 在 DeepMind 与 Google 的经历。Misha 表示,Yannis 几乎是自己进入 AI 的原因之一。他曾是 AlphaGo 的关键工程师,并亲历与李世石对局;更早之前,他还参与了 DQN 相关工作。Misha 将 DQN 视为深度学习时代第一个成功的智能体,它能够从原始感官输入中学会玩 Atari 游戏,并由此推动了深度强化学习领域的发展。AlphaGo 及后续 AlphaZero、MuZero 则进一步证明,小模型在特定任务中可以通过有效方法达到极高智能水平。

DQNAlphaGo深度强化学习DeepMind

苦涩教训:学习与搜索的结合

Misha 用 Rich Sutton 的“苦涩教训”总结 AlphaGo 带来的关键启发:依赖人类手工直觉构建的系统,最终往往会被能规模化利用计算的系统取代。他认为计算主要有两种可扩展利用方式:一是通过训练进行学习,二是通过搜索展开多个计划并选择最优方案。AlphaGo 的深刻之处在于同时结合了学习与搜索,因此能够在围棋中产生超人表现。问题是,AlphaGo 只擅长单一任务;深度强化学习曾陷入瓶颈,因为训练一个任务就需要海量数据。相比之下,互联网为语言模型提供了大规模多任务数据,使模型具备广泛性,但缺乏可靠智能体所需的规划与搜索能力。

苦涩教训学习与搜索语言模型规划能力

Reflection AI 的起点:从聊天对齐走向能力对齐

Misha 介绍 Reflection AI 的起源来自他与 Yannis 在 Gemini 上的紧密合作。Yannis 负责 RLHF,Misha 负责奖励模型训练,这是后训练中的关键环节。他们当时主要将语言模型对齐为良好的聊天体验,比如 ChatGPT、Bard 或 Gemini 这类产品。但他们从中得到的洞见是:模型并非只能被对齐为聊天机器人,如果收集针对其他能力的数据,也可以解锁其他能力。虽然聊天任务偏主观,而目标明确的任务需要不同算法和数据设计,但他们相信模型架构和训练方法已经相对成熟,真正的关键变成了数据,以及如何在这些模型之上实现规划和搜索。

Reflection AIGeminiRLHF后训练

重新定义智能体:自主推理并完成目标

主持人指出“agent”已成为 2024 年热门词,许多产品都自称智能体,但概念正在泛化。Misha 回到深度学习时代的语境,从 DQN 开始解释自己对智能体的理解。他认为智能体的定义很简单:一个 AI 系统能够独立推理,并采取所需的多个步骤来完成被指定的目标。在深度强化学习时代,这个目标通常由奖励函数指定,例如 AlphaGo 中目标与胜负相关。这里的重点不是单次回答,而是系统能否围绕目标进行连续行动、决策和纠错,这也为后文讨论当前智能体距离“同事级”可靠性仍有差距做铺垫。

智能体定义自主推理多步行动目标完成