← 返回访谈列表

AI's Research Frontier 深度访谈

AI's Research Frontier: Memory, World Models, & Planning — With Joelle Pineau

8
话题段落
1484
字幕段落
52m
对话时长
-
核心金句

📋 访谈摘要

加载中...

📖 话题详览

点击任意话题卡片查看该时段的完整对话内容。

访谈开场:从产业背景切入AI研究前沿

主持人在开场中先交代访谈主题:讨论AI研究的最前沿正在走向哪里、当前方法是否存在瓶颈,以及企业如何将这些能力落地。随后他介绍了嘉宾Joelle Pineau的背景,包括她曾在Meta负责基础AI研究、也是麦吉尔大学教授,现在担任Cohere首席AI官。主持人还补充了Cohere的公司背景:由《Attention Is All You Need》作者之一Aidan Gomez联合创立,主要面向企业销售AI产品。通过这一铺垫,访谈从一开始就把“学术前沿”与“产业实践”绑定在一起,为后续讨论研究路径、模型能力和产品部署问题设定了框架。

访谈导入CohereJoelle Pineau产业背景

三大研究前沿:记忆、世界模型与高效推理

Joelle一开始就明确表示,她并不担心AI研究“撞墙”,因为眼下仍有大量关键问题尚未解决。她将前沿研究概括为两个层面:一是“该解决什么问题”,二是“该如何解决”。在问题层面,她重点提出三条主线。第一是记忆:机器虽然能存储海量信息,但真正困难的是在预测、生成或推理时,知道何时调取哪一部分信息,并在不同时间尺度、不同粒度上组织它。第二是世界模型:模型不仅要吸收信息,还要理解行动会如何改变世界,这对机器人和网络智能体都很关键。第三是推理:当前很多推理方法依赖较重的搜索与奖励设计,效率不高,而真正成熟的分层规划机制仍未出现。

研究前沿记忆世界模型推理

记忆与持续学习:相关但并不相同

在主持人追问“记忆”和“持续学习”是否是一体两面时,Joelle做了清晰区分。她认为,记忆问题主要是在当前任务语境下,决定该调取哪些信息;而持续学习则假设环境与任务分布持续变化,因此模型学到的内容也必须不断更新,核心在于应对非平稳性。她坦言,持续学习虽然是长期重要方向,但研究社区至今对问题定义并未形成稳定共识,不同研究者关注的“持续学习”范式差异很大,因此很难衡量是否真正取得了统一意义上的进展。相比之下,记忆问题在评价标准上更清晰,重点是效率与相关性,而不是简单地“记住一切”。

持续学习记忆机制非平稳性问题定义

为什么模型不会在线持续进化:发布节奏与安全约束

主持人提出一种直觉式看法:如果大模型能从数亿次真实对话中持续吸收经验,可能会打开新的增长空间。Joelle认可模型必须不断演化,但指出当前“持续学习”研究与大规模生成模型的实际迭代方式并不完全衔接。现实中,无论是ChatGPT、Gemini还是Cohere自家的模型,都在持续改进,只是这种改进并非在线实时发生,而是通过阶段性训练和版本发布完成。她强调,这种方式的优势在于可以在上线前完成充分测试,包括性能与安全评估。相反,如果让模型在开放环境中自发持续学习,能力和行为可能会迅速漂移,甚至从原本可接受的状态偏离,这也是她对完全在线学习持谨慎态度的原因。

在线学习模型发布安全测试行为漂移

从Tay到现实产品:持续学习必须配套持续测试

在这一段里,主持人回忆了微软聊天机器人Tay的案例:系统因持续从用户互动中学习,迅速受到恶意输入影响,最终输出极端和有害内容。这个例子被用来说明,持续学习并不是单纯让模型“自动变聪明”,而是会直接带来行为偏移和安全失控的风险。Joelle顺势给出一句很浓缩的原则:在实现持续学习之前,至少应先实现持续测试。也就是说,模型如果要在真实环境中动态更新,就必须有同样动态、同样实时的验证体系来跟踪其性能与安全边界。这一简短讨论把前面抽象的“在线演化风险”落到了一个业界广为人知的实际教训上。

Tay持续测试AI安全案例

记忆为何在产品中失灵:权限、编码与检索链路的问题

围绕“为什么AI连邮箱里第一封与妻子的邮件都找不到”这一具体例子,Joelle解释说,所谓记忆问题在真实产品里往往不是单一因素导致。第一层是访问权限:机器人是否真的获得了所需的信息访问范围,尤其在隐私和企业部署场景下,这本身就常被限制。第二层是信息编码:系统通常不会保存原始数据,而会为了成本把内容压缩成向量表示,即embedding,如果编码质量不佳,后续检索就会受影响。第三层是检索与排序:即使系统“知道”相关内容,也可能因为召回太多候选项,未能把正确结果排到足够靠前的位置,最终生成错误回答。她借此说明,记忆能力本质上是一个涉及访问、表征和检索协同的系统问题。

检索增强Embedding权限控制企业AI

记忆能力正在进步,但长上下文只是最容易的一条路

当主持人举出Claude能够跨访谈比较内容、表现出更强“记忆感”的例子后,Joelle并未将其简单视为表演性质的技巧。她明确表示,这一方向确实在取得扎实进展。她指出,扩展上下文窗口是当前最直接、最容易推进的方法,因为更长的上下文天然能容纳更多信息并支持更丰富的调用;但她的表述也暗含一个判断:记忆能力并不只等于上下文长度增长,研究社区正在从更广泛的机制上推动进展。虽然这段不长,却承接了前面对访问、编码和检索的解释,表明“记忆”已经从产品体验问题上升为一个实质性的研究前沿,而非营销噱头。

长上下文模型记忆研究进展产品体验

推理的核心难点:分层规划而不是单步思考

谈到推理,Joelle认为真正的难点并不只是让模型逐步思考,而是让它能够在不同时间尺度和抽象层级之间进行规划。她用“规划一次旅行”作比喻:人类通常先决定大致季节和地点,再逐步细化到活动、同行者、预订机票酒店,若中途遇到航班或住宿问题,又会退回到更高层重新调整日期、地点或人员。这种在高层目标和低层执行之间来回切换的能力,就是她所说的分层规划。她指出,现有推理模型往往只能在单一粒度上表现良好,比如机器人能规划手部和身体动作,但很难在多层级任务分解中保持信息相关性并动态调整。这正是当前推理研究距离真正通用智能体仍有差距的地方。

推理分层规划智能体机器人