Nested Learning: Ali Behrouz on the Quest for Continual Learning & Illusion of AI Architectures
加载中...
点击任意话题卡片查看该时段的完整对话内容。
主持人开场介绍 Ali Behrouz 的背景,以及他在 Cornell、Google 与论文《Nested Learning》中的研究方向。主持人认为这项工作瞄准了当前模型与能够长期参与人类团队协作的数字 AGI 之间的核心差距:真正的持续学习。Nested Learning 的关键思想是让模型不同部分以不同频率更新,从而既能快速适应当前语境,又能保留核心知识,类似人类从工作记忆到长期记忆的多时间尺度记忆机制。
主持人进一步介绍 Ali 的新工作《Language Models Need Sleep》,指出该研究借鉴人类睡眠中的记忆巩固和梦境学习机制。模型在离线模式下,会把高频更新层中新获得的知识,通过蒸馏转移到较慢变化的层中,并利用近期经验生成合成数据来学习新的抽象和概念连接。主持人还概述了访谈将讨论的实证结果,包括新架构在标准指标上接近 Transformer,并在长上下文回忆和多种未见语言翻译等任务上表现突出。
主持人预告访谈将讨论 Ali 对机器学习系统的统一理解:所有组件都可被看作压缩上下文流的关联记忆形式。由此,Ali 认为所谓深度学习“架构”在某种意义上是一种幻觉,更重要的是不同记忆模块及其更新频率。主持人还提到 Ali 开发的 expressive optimizers 能学习更新规则,并可能超过 Adam 和 Muon。随后节目进入赞助商广告,举例说明 AI 代理需要受限支付能力与金融基础设施支持。
正式访谈开始后,主持人请 Ali 概括其研究目标。Ali 表示,他确实从大脑和进化中获得灵感,因为自然进化相当于在大量数据上训练出了复杂生物智能。但他强调,这并不意味着要逐细节复刻大脑,因为人类对大脑机制并不完全理解,且过度贴合某一种生物智能形式会造成“过拟合”。他的做法是在高层抽象上观察人类是否解决了某类现实问题,再寻找适合 AI 的技术化实现。
Ali 将当前模型的主要缺陷概括为两类:一是无法持续适应所处环境和上下文,二是无法把新知识长期纳入参数而不遗忘旧能力。他以大模型的知识截止为例说明,当前系统若不使用工具就难以回答新信息;而持续更新所有参数又面临灾难性遗忘和效率问题。他还认为,把记忆完全放在 token 或上下文空间中并不可行,因为上下文长度终会被耗尽。真正学习应当压缩经验、提取底层模式与不同层级抽象,而这正是当前 LLM 缺乏之处。
主持人从用户体验角度追问未来 AI 应该是什么样:当前聊天机器人需要外部消息或任务触发才会“醒来”,缺乏人类那种连续身份、持续目标和日常学习能力。Ali 回应说,过去四十年机器学习大多建立在训练阶段与测试阶段分离的范式上,但真正的持续学习者不应有严格的训练/测试二分。他认为未来模型仍需要至少两个阶段:活跃阶段接收外部输入并计算,睡眠阶段则与外界隔离,在没有输入时整理内部数据、参数和记忆。