Fei-Fei Li: Spatial Intelligence is the Next Frontier in AI
加载中...
点击任意话题卡片查看该时段的完整对话内容。
访谈以李飞飞极具个人风格的开场白切入。她把自己的职业生涯概括为不断追逐那些“极难、近乎妄想”的问题,并直接提出:没有空间智能,AGI 就不完整。她同时强调自己当下不仅是学者,也是刚创办新公司的创业者,喜欢把外界评价和过去成就放在一边,回到“埋头去造”的状态。主持人随后简要介绍她在 AI 领域的长期影响力,特别点出 2009 年启动的 ImageNet 项目及其在“数据问题”上的奠基作用,为后续回顾计算机视觉和 AI 发展历程铺垫背景。
李飞飞回忆,自己在普林斯顿做青年教师时,AI 和机器学习的世界与今天截然不同:计算机视觉几乎没有数据,算法效果不佳,产业尚未成形,公众甚至不使用“AI”这个词。但她和同时代研究者依然怀抱“让机器会思考、会工作”的梦想,而她个人的核心目标是“让机器会看”。在不断尝试神经网络、SVM 等方法的过程中,她始终被“泛化”问题困扰,并逐渐形成判断:机器学习若想真正泛化,必须依赖大规模数据。随着互联网兴起,她和学生在 2007 年左右决定押注一次范式转移——从互联网下载海量图像,建立视觉分类体系,用于训练和评测算法,这就是 ImageNet 的构想来源。
谈到 ImageNet 真正显现威力的时刻,李飞飞重点回顾了 2009 至 2012 年的三年。那段时间她们虽坚信数据会驱动 AI,但外部信号并不充分,因此团队做了两件关键的事:一是从一开始就将数据集开放给整个研究社区,二是发起 ImageNet Challenge,以统一测试集和竞赛机制吸引全球最优秀的学生与研究者参与。前两年成绩仍较平庸,但在 2012 年,她深夜收到学生提醒,发现一个结果显著领先的参赛系统——后来人们熟知的 AlexNet。她强调,这不仅是卷积神经网络的胜利,也是数据、GPU 计算和神经网络首次真正合流的历史节点。
在李飞飞看来,ImageNet 解决的是“给定一张图,指出其中有哪些物体”的基础问题,但真正的人类视觉远不止于此。她从学生时代起就梦想让机器能够“讲述场景”,像人类那样一睁眼就理解这是会议室、舞台、观众与设备共同构成的整体世界,而非孤立地识别一个个对象。她原以为这会是自己毕生才能接近的目标,但深度学习兴起后,随着 Andrej Karpathy、Justin Johnson 等进入实验室,视觉与自然语言开始碰撞。到 2015 年前后,她们发表了一系列图像描述论文,首次让计算机能够为图片生成文字说明。她还提到,当年对“把句子变成图像”的玩笑,如今已成为生成式 AI 的现实。
李飞飞把近几年视为技术文明层面的跃迁时刻:一边是计算机视觉从图像识别、图像描述走到扩散式图像生成,另一边是 2022 年 ChatGPT 打开真正可用的大模型时代。这让她重新思考“下一个北极星问题”是什么。她提到自己常从进化论和脑科学寻找启发,并指出语言在进化中出现得相对较晚,而视觉及对三维世界的理解则经历了长达 5.4 亿年的演化,是动物智能竞赛的起点。因此,她认为 AI 若要完整,必须具备对 3D 世界的理解、生成、推理、导航和交互能力。基于这一判断,她创立 World Labs,希望构建超越平面像素和纯语言的世界模型,真正捕捉世界的三维结构与空间智能。
当主持人追问为什么视觉/空间问题在某种程度上比 LLM 更难时,李飞飞给出了系统解释。首先,语言本质上是 1D 序列,而且高度生成式;而世界本身是 3D 的,加入时间后甚至是 4D,组合复杂度显著更高。其次,视觉感知存在根本困难:无论人眼还是相机,接收的都是把三维压缩到二维后的投影,因此从 2D 恢复 3D 在数学上就是病态问题,需要多传感器与更复杂的建模。再次,世界模型不能只做纯生成,它还必须在生成与重建之间灵活切换:一端通向游戏和元宇宙,另一端通向机器人与真实环境操作。最后,与互联网充满语言数据不同,空间智能所需的数据并不天然可得。这些因素共同构成了她口中“近乎妄想”的难题。
在谈到模型架构时,李飞飞没有给出简单答案,而是强调这是一个仍在展开的开放问题。她承认,LLM 的成功在很大程度上体现了通过规模化、自监督和 scaling law 一路逼近目标的思路;但“构造性世界模型”可能更微妙,因为世界本身结构更强、更有约束,模型也许需要额外的引导信号。这些信号可以表现为先验、监督,或嵌入数据中的结构。她还指出,即便参考人类视觉,我们也并未彻底理解自身是如何进行 3D 感知的,双眼三角测量只是机制层面的线索,而非完整的数学模型。因此,World Labs 当前真正依赖的,是顶尖研究人才在像素世界、三维表示与渲染方向上的问题求解能力,去探索新的基础模型范式。