Training General Robots for Any Task 深度访谈 260611

从惊叹通用学习出发：机器人基础模型的愿景

▶

开场先从一个更宏观的感受切入：主持人与嘉宾都强调，通用学习系统本身能够工作这件事就已经非常令人震撼。随后节目介绍 Physical Intelligence 的定位——一家为机器人打造 foundation models 的公司。嘉宾说明，他们的目标并不是做单一机器人或单一任务，而是构建原则上“让任何机器人做任何任务”的通用模型。在过去一年半里，公司逐步搭建出可扩展的关键模块，已经展示模型可以控制多种机器人形态、在新环境中实现一定泛化，并通过最新发布的 Pi Star 0.6 推进到更接近可部署的性能水平。同时他们也点出机器人领域与互联网 AI 的差异：网上没有现成的大规模机器人动作数据，因此数据集必须自己建立，这使“部署—收集数据—继续训练”的闭环尤为关键。

机器人基础模型通用智能数据闭环Pi Star 0.6

为什么不先做整机产品：真正的瓶颈在智能而非硬件

▶

主持人追问，为何不做垂直一体化机器人产品，而是选择做基础模型。嘉宾从机器人发展史出发回答：行业多年来的核心瓶颈始终是 intelligence，而不是执行器、机械臂或整机设计本身。许多机器人硬件十多年前就已经能在遥操作条件下完成复杂任务，例如整屋清洁，问题在于背后必须依赖“人类大脑”。这意味着硬件上限早已不低，但系统缺少可泛化、可自主工作的智能层。嘉宾承认近年来类人硬件和灵巧手进步显著，但认为这更多是提高能力天花板，而不是解决当前能力地板过低的问题。即便是较简单的夹爪系统，如果拥有足够智能，也可以完成烹饪、切菜等任务。因此公司选择直接集中资源攻克智能瓶颈，相信一旦这层突破，就能催生多个垂直产品和场景落地。

智能瓶颈机器人硬件基础模型战略类人机器人

三层路线图：能力、泛化与性能如何逐步突破

▶

在被继续追问“智能的下一个瓶颈是什么”时，嘉宾提出三层框架：capability、generalization、performance。首先是 capability，即只要能为某个任务和机器人收集到数据，模型就应能学会并自动化该任务；他们表示这在 Pi 0 阶段已较快验证。第二层是 generalization，也是更难的开放问题：机器人不仅要在训练环境里成功，还要能零样本进入新家庭、新空间，适应不同布局、光照和物体位置。对此他们认为唯一已知有效答案是“数据多样性”，并提到 Pi 0.5 已经展示出在全新家庭环境中完成简单厨房整理任务的初步常识。第三层是 performance，即把成功率提升到足以商用部署的水平。嘉宾认为部署本身意义重大，因为真实部署能带来经济上有价值、甚至“负成本”的数据采集，从而形成比互联网数据更庞大的机器人经验来源。他们还透露，原以为需要五年才能商用，实际上两个月前就已跨过初步部署门槛。

能力泛化性能真实部署

部署边界与意外能力：开放模型如何暴露更宽的应用口径

▶

在讨论当前可部署范围时，嘉宾强调 foundation model 的一个特殊性：它的实际能力边界往往在训练完成前难以完全预测，类似大语言模型“训练好后才知道它究竟会什么”。因此，他们除了内部测试，也选择开源模型，让外部开发者帮助探索能力边界。结果显示，模型被用于比团队原先预想更广的方向，例如驾驶、手术机器人、农业等。这说明机器人基础模型一旦具备通用感知-动作能力，其应用外延并不完全取决于最初的产品设定，而会在社区和真实测试中不断显现。不过他们也提醒，虽然起始口径比预想更宽，要让每个应用点达到日常商用水准，性能上仍有相当长的“爬坡”过程，尤其面对长尾错误场景时，还远未完全解决。

开源应用边界长尾问题能力涌现

当前技术架构：以视觉语言模型为骨干，外接动作专家

▶

接着话题转向技术细节。嘉宾介绍，当前架构与日常使用的 VLM 非常类似：基础部分是已经吸收大规模图像与文本信息的模型，再混入他们自己采集的大量机器人数据，而如今训练中已以机器人数据为主、互联网数据只占较小比例。在此基础上，他们为模型加入一个 action model 或 action expert，用于把图像和指令转化为机器人的实际控制命令。整体仍是一个较大的 transformer 模型，参数规模已达到数十亿级，初始训练主要来自人类遥操作演示数据。嘉宾指出，这一代方法本质上是“图像/文本输入，动作输出”的单一大模型，但架构仍可能继续演化，例如支持更多上下文、更丰富相机视角，或更深入地理解物理世界中哪些物体易碎、可移动等属性。他们认为五六年后回头看，骨干结构也许会变化，但“数据如何进入模型”的基本原则可能会延续。

VLMTransformer动作模型遥操作数据

机器人方法论转向：从手写模块到端到端学习

▶

在回顾机器人历史时，嘉宾指出，早期研究者曾相信只要投入足够多工程师，就能把现实世界中的所有情况编码进程序，让机器人执行任意任务。但实践证明真实世界太复杂，不可能提前手写所有规则。于是业界把问题拆成感知、控制、规划等子模块，并逐渐形成各自独立的研究社区。这种分解虽然在学术和工程上易于管理，却也意味着系统常常在模块接口处损失信息，难以真正应对开放环境中的变化。嘉宾借此为自己强调的端到端学习路线铺垫：既然世界复杂到无法手工枚举，那么更合理的方法是让模型直接从数据中学习感知到动作的映射，而不是依赖人为规定所有中间表示和流程。这一段为后文强化学习和真实部署驱动优化埋下背景。

端到端学习模块化机器人感知规划控制方法论变迁

Training General Robots for Any Task 深度访谈

📋 访谈摘要

📖 话题详览

从惊叹通用学习出发：机器人基础模型的愿景

📝 该时段完整对话

为什么不先做整机产品：真正的瓶颈在智能而非硬件

📝 该时段完整对话

三层路线图：能力、泛化与性能如何逐步突破

📝 该时段完整对话

部署边界与意外能力：开放模型如何暴露更宽的应用口径

📝 该时段完整对话

当前技术架构：以视觉语言模型为骨干，外接动作专家

📝 该时段完整对话

机器人方法论转向：从手写模块到端到端学习

📝 该时段完整对话