Fei-Fei Li 深度访谈 260607

从创业者身份开场：用“大胆问题”定义职业追求

▶

访谈以李飞飞极具个人风格的开场白切入。她把自己的职业生涯概括为不断追逐那些“极难、近乎妄想”的问题，并直接提出：没有空间智能，AGI 就不完整。她同时强调自己当下不仅是学者，也是刚创办新公司的创业者，喜欢把外界评价和过去成就放在一边，回到“埋头去造”的状态。主持人随后简要介绍她在 AI 领域的长期影响力，特别点出 2009 年启动的 ImageNet 项目及其在“数据问题”上的奠基作用，为后续回顾计算机视觉和 AI 发展历程铺垫背景。

创业者心态AGI空间智能个人使命

ImageNet 的起点：在 AI 冬天尾声押注“数据驱动”范式

▶

李飞飞回忆，自己在普林斯顿做青年教师时，AI 和机器学习的世界与今天截然不同：计算机视觉几乎没有数据，算法效果不佳，产业尚未成形，公众甚至不使用“AI”这个词。但她和同时代研究者依然怀抱“让机器会思考、会工作”的梦想，而她个人的核心目标是“让机器会看”。在不断尝试神经网络、SVM 等方法的过程中，她始终被“泛化”问题困扰，并逐渐形成判断：机器学习若想真正泛化，必须依赖大规模数据。随着互联网兴起，她和学生在 2007 年左右决定押注一次范式转移——从互联网下载海量图像，建立视觉分类体系，用于训练和评测算法，这就是 ImageNet 的构想来源。

ImageNet数据驱动计算机视觉泛化

2012 转折点：开放竞赛如何催生 AlexNet 时刻

▶

谈到 ImageNet 真正显现威力的时刻，李飞飞重点回顾了 2009 至 2012 年的三年。那段时间她们虽坚信数据会驱动 AI，但外部信号并不充分，因此团队做了两件关键的事：一是从一开始就将数据集开放给整个研究社区，二是发起 ImageNet Challenge，以统一测试集和竞赛机制吸引全球最优秀的学生与研究者参与。前两年成绩仍较平庸，但在 2012 年，她深夜收到学生提醒，发现一个结果显著领先的参赛系统——后来人们熟知的 AlexNet。她强调，这不仅是卷积神经网络的胜利，也是数据、GPU 计算和神经网络首次真正合流的历史节点。

AlexNet开放科学GPU竞赛机制

从识别物体到讲述场景：视觉与语言开始汇合

▶

在李飞飞看来，ImageNet 解决的是“给定一张图，指出其中有哪些物体”的基础问题，但真正的人类视觉远不止于此。她从学生时代起就梦想让机器能够“讲述场景”，像人类那样一睁眼就理解这是会议室、舞台、观众与设备共同构成的整体世界，而非孤立地识别一个个对象。她原以为这会是自己毕生才能接近的目标，但深度学习兴起后，随着 Andrej Karpathy、Justin Johnson 等进入实验室，视觉与自然语言开始碰撞。到 2015 年前后，她们发表了一系列图像描述论文，首次让计算机能够为图片生成文字说明。她还提到，当年对“把句子变成图像”的玩笑，如今已成为生成式 AI 的现实。

图像描述视觉语言场景理解生成式AI

从学术到创业：为何把下一站押在 World Labs

▶

李飞飞把近几年视为技术文明层面的跃迁时刻：一边是计算机视觉从图像识别、图像描述走到扩散式图像生成，另一边是 2022 年 ChatGPT 打开真正可用的大模型时代。这让她重新思考“下一个北极星问题”是什么。她提到自己常从进化论和脑科学寻找启发，并指出语言在进化中出现得相对较晚，而视觉及对三维世界的理解则经历了长达 5.4 亿年的演化，是动物智能竞赛的起点。因此，她认为 AI 若要完整，必须具备对 3D 世界的理解、生成、推理、导航和交互能力。基于这一判断，她创立 World Labs，希望构建超越平面像素和纯语言的世界模型，真正捕捉世界的三维结构与空间智能。

World Labs世界模型进化论空间智能

为什么空间智能比语言更难：3D、投影与真实世界约束

▶

当主持人追问为什么视觉/空间问题在某种程度上比 LLM 更难时，李飞飞给出了系统解释。首先，语言本质上是 1D 序列，而且高度生成式；而世界本身是 3D 的，加入时间后甚至是 4D，组合复杂度显著更高。其次，视觉感知存在根本困难：无论人眼还是相机，接收的都是把三维压缩到二维后的投影，因此从 2D 恢复 3D 在数学上就是病态问题，需要多传感器与更复杂的建模。再次，世界模型不能只做纯生成，它还必须在生成与重建之间灵活切换：一端通向游戏和元宇宙，另一端通向机器人与真实环境操作。最后，与互联网充满语言数据不同，空间智能所需的数据并不天然可得。这些因素共同构成了她口中“近乎妄想”的难题。

3D理解多传感器重建与生成数据瓶颈

模型路线的开放问题：世界模型未必只是“把 scaling law 拉满”

▶

在谈到模型架构时，李飞飞没有给出简单答案，而是强调这是一个仍在展开的开放问题。她承认，LLM 的成功在很大程度上体现了通过规模化、自监督和 scaling law 一路逼近目标的思路；但“构造性世界模型”可能更微妙，因为世界本身结构更强、更有约束，模型也许需要额外的引导信号。这些信号可以表现为先验、监督，或嵌入数据中的结构。她还指出，即便参考人类视觉，我们也并未彻底理解自身是如何进行 3D 感知的，双眼三角测量只是机制层面的线索，而非完整的数学模型。因此，World Labs 当前真正依赖的，是顶尖研究人才在像素世界、三维表示与渲染方向上的问题求解能力，去探索新的基础模型范式。

模型架构Scaling Law先验基础模型

Fei-Fei Li 深度访谈

📋 访谈摘要

📖 话题详览

从创业者身份开场：用“大胆问题”定义职业追求

📝 该时段完整对话

ImageNet 的起点：在 AI 冬天尾声押注“数据驱动”范式

📝 该时段完整对话

2012 转折点：开放竞赛如何催生 AlexNet 时刻

📝 该时段完整对话

从识别物体到讲述场景：视觉与语言开始汇合

📝 该时段完整对话

从学术到创业：为何把下一站押在 World Labs

📝 该时段完整对话

为什么空间智能比语言更难：3D、投影与真实世界约束

📝 该时段完整对话

模型路线的开放问题：世界模型未必只是“把 scaling law 拉满”

📝 该时段完整对话