Training General Robots for Any Task: Physical Intelligence’s Karol Hausman and Tobi Springenberg
加载中...
点击任意话题卡片查看该时段的完整对话内容。
开场先从一个更宏观的感受切入:主持人与嘉宾都强调,通用学习系统本身能够工作这件事就已经非常令人震撼。随后节目介绍 Physical Intelligence 的定位——一家为机器人打造 foundation models 的公司。嘉宾说明,他们的目标并不是做单一机器人或单一任务,而是构建原则上“让任何机器人做任何任务”的通用模型。在过去一年半里,公司逐步搭建出可扩展的关键模块,已经展示模型可以控制多种机器人形态、在新环境中实现一定泛化,并通过最新发布的 Pi Star 0.6 推进到更接近可部署的性能水平。同时他们也点出机器人领域与互联网 AI 的差异:网上没有现成的大规模机器人动作数据,因此数据集必须自己建立,这使“部署—收集数据—继续训练”的闭环尤为关键。
主持人追问,为何不做垂直一体化机器人产品,而是选择做基础模型。嘉宾从机器人发展史出发回答:行业多年来的核心瓶颈始终是 intelligence,而不是执行器、机械臂或整机设计本身。许多机器人硬件十多年前就已经能在遥操作条件下完成复杂任务,例如整屋清洁,问题在于背后必须依赖“人类大脑”。这意味着硬件上限早已不低,但系统缺少可泛化、可自主工作的智能层。嘉宾承认近年来类人硬件和灵巧手进步显著,但认为这更多是提高能力天花板,而不是解决当前能力地板过低的问题。即便是较简单的夹爪系统,如果拥有足够智能,也可以完成烹饪、切菜等任务。因此公司选择直接集中资源攻克智能瓶颈,相信一旦这层突破,就能催生多个垂直产品和场景落地。
在被继续追问“智能的下一个瓶颈是什么”时,嘉宾提出三层框架:capability、generalization、performance。首先是 capability,即只要能为某个任务和机器人收集到数据,模型就应能学会并自动化该任务;他们表示这在 Pi 0 阶段已较快验证。第二层是 generalization,也是更难的开放问题:机器人不仅要在训练环境里成功,还要能零样本进入新家庭、新空间,适应不同布局、光照和物体位置。对此他们认为唯一已知有效答案是“数据多样性”,并提到 Pi 0.5 已经展示出在全新家庭环境中完成简单厨房整理任务的初步常识。第三层是 performance,即把成功率提升到足以商用部署的水平。嘉宾认为部署本身意义重大,因为真实部署能带来经济上有价值、甚至“负成本”的数据采集,从而形成比互联网数据更庞大的机器人经验来源。他们还透露,原以为需要五年才能商用,实际上两个月前就已跨过初步部署门槛。
在讨论当前可部署范围时,嘉宾强调 foundation model 的一个特殊性:它的实际能力边界往往在训练完成前难以完全预测,类似大语言模型“训练好后才知道它究竟会什么”。因此,他们除了内部测试,也选择开源模型,让外部开发者帮助探索能力边界。结果显示,模型被用于比团队原先预想更广的方向,例如驾驶、手术机器人、农业等。这说明机器人基础模型一旦具备通用感知-动作能力,其应用外延并不完全取决于最初的产品设定,而会在社区和真实测试中不断显现。不过他们也提醒,虽然起始口径比预想更宽,要让每个应用点达到日常商用水准,性能上仍有相当长的“爬坡”过程,尤其面对长尾错误场景时,还远未完全解决。
接着话题转向技术细节。嘉宾介绍,当前架构与日常使用的 VLM 非常类似:基础部分是已经吸收大规模图像与文本信息的模型,再混入他们自己采集的大量机器人数据,而如今训练中已以机器人数据为主、互联网数据只占较小比例。在此基础上,他们为模型加入一个 action model 或 action expert,用于把图像和指令转化为机器人的实际控制命令。整体仍是一个较大的 transformer 模型,参数规模已达到数十亿级,初始训练主要来自人类遥操作演示数据。嘉宾指出,这一代方法本质上是“图像/文本输入,动作输出”的单一大模型,但架构仍可能继续演化,例如支持更多上下文、更丰富相机视角,或更深入地理解物理世界中哪些物体易碎、可移动等属性。他们认为五六年后回头看,骨干结构也许会变化,但“数据如何进入模型”的基本原则可能会延续。
在回顾机器人历史时,嘉宾指出,早期研究者曾相信只要投入足够多工程师,就能把现实世界中的所有情况编码进程序,让机器人执行任意任务。但实践证明真实世界太复杂,不可能提前手写所有规则。于是业界把问题拆成感知、控制、规划等子模块,并逐渐形成各自独立的研究社区。这种分解虽然在学术和工程上易于管理,却也意味着系统常常在模块接口处损失信息,难以真正应对开放环境中的变化。嘉宾借此为自己强调的端到端学习路线铺垫:既然世界复杂到无法手工枚举,那么更合理的方法是让模型直接从数据中学习感知到动作的映射,而不是依赖人为规定所有中间表示和流程。这一段为后文强化学习和真实部署驱动优化埋下背景。