This is why Deep Learning is really weird.
加载中...
点击任意话题卡片查看该时段的完整对话内容。
访谈一开始先介绍 Prince 新书《Understanding Deep Learning》的定位:它有意区别于偏重 coding 的实用书,核心不是教固定流程,而是解释支撑深度学习的基本观念。内容从深度神经网络、训练与测试流程讲起,再系统梳理卷积网络、残差网络、图神经网络、Transformer,以及生成模型中的 flows、VAE、GAN、扩散模型,并在末尾补充强化学习、为何深层网络有效、以及 AI 伦理。Prince 强调,本书既适合从零开始的读者,也适合作为教学资源和从业者补齐知识图谱的参考;他尤其认为最后两章最重要,因为它们直接触及深度学习的解释缺口与社会后果。
接着节目转入全书最核心的问题:为什么深度学习会奏效。Prince 指出,当前根本没人真正理解深度模型如何工作。模型学习的是分段线性函数,会把输入空间切分成数量惊人的区域;令人费解的不是它们能表示复杂函数,而是它们既能被有效训练,又能良好泛化。节目举了 AlexNet 和 GPT-3 的参数量与数据规模,说明是否“过参数化”并非简单明晰。Prince 还总结了若干已有观察:过参数化与激活函数使高维优化变得可行,训练轨迹似乎落在低维子空间,局部极小值不明显,泛化又和极小值平坦性、归纳偏置等因素相关。但他强调,这些都不足以形成一套可预测成败的处方性理论,深度学习的成功依旧主要由经验结果驱动。
在书的最后一章,Prince 讨论了 AI 伦理,并认为如果写一本关于人工智能的书却不谈伦理,是不负责任的。他将 AI 的潜在影响类比为电力、内燃机、晶体管和互联网级别的通用技术,承认其在医疗、设计、娱乐、交通、教育和商业中的巨大收益,但同时提醒科学家和工程师往往过度乐观,低估伤害可能性。他进一步把伦理问题放到制度背景中讨论:AI 发展主要受资本主义驱动,法律和“为了社会善”的部署很可能严重滞后。研究者不应只看组织是否做“伦理漂白”,而要审视其是否真有叫停可疑项目的机制。节目还引用“AI for social good”的例子,指出同一标签背后可能包含完全对立的政治与价值判断,因此伦理 AI 本质上是一个集体行动难题。
这一段先是节目中的简短插话,讨论人类“会做事”、会进入现实世界行动,而当前的 ChatGPT 虽然能执行代码、完成若干任务,但是否具有真正的 agency 仍值得怀疑。随后主持人插入频道支持信息,说明制作机器学习、AI 与哲学内容需要时间和资源,邀请观众通过 Patreon 支持节目。之后访谈正式进入正题,主持人欢迎 Simon Prince 做客,为后续关于其背景、写书动机以及对深度学习本质看法的讨论铺垫语境。虽然这部分技术信息不多,但它清楚设定了访谈的讨论风格:既关注模型能力,也警惕把工具能力直接等同于主体性。
Prince 随后介绍了自己的经历:他博士出身于心理学,后来跨越神经科学、增强现实、医学影像、UCL 的计算机视觉研究,再进入金融与计算机图形行业,最终在巴斯大学任教并完成新书。他回忆上一部关于计算机视觉的书,试图用概率图模型来重塑整个计算机视觉领域,并在 2010 年于多伦多休假期间写作,彼时 Alex Krizhevsky 就在隔壁、还与 Hinton 的博士后共用办公室。然而就在 2012 年他书出版数月后,AlexNet 横空出世,整个视觉领域突然急转弯,令他那本书迅速显得过时。Prince 并未因此否定旧作,而是借这段经历说明深度学习的兴起如何在极短时间内重构学科叙事,新书则因此采取较少野心、更加务实的姿态,力图作为 2016 年 Goodfellow 等教材之后的“精神续作”。
当被问到写书时的核心想法,Prince 回答说,深度学习的实验进展远远跑在理论前面,而整个领域又面临文献规模爆炸:每月有数千篇论文上传 arXiv,令新人或想切入新方向的人几乎无从下手。他认为当前很多人依赖仓促写成的博客学习,而这些材料质量参差不齐,作者有时也并不完全理解自己在写什么。因此他希望做一件对社区真正有用的事:把过去十年与深度学习相关的重要内容,用统一记号、现代化图示和不受历史包袱束缚的方式梳理出来。具体做法上,他不从感知机和早期历史起步,而是直接切入深度神经网络,希望节省整个社区的学习时间成本。
面对主持人半开玩笑地问“深度学习是不是炼金术”,Prince 明确否认。他认为,未来回头看,深度学习会被理解为一种关于高维函数与概率分布建模的科学,而不是一套神秘技巧。之所以当下社区没有这样组织叙事,是因为整个研究共同体更加以 benchmark 和结果为中心,而非以统一的科学对象为中心。在他的设想中,几十年后人们会把 2010 年代视为一个关键阶段:研究者开始学习如何在远高于传统统计直觉适用范围的维度中构造函数与分布模型。这一说法为后文的还原主义立场打下基础,也说明他希望把深度学习从“神奇经验学”重新表述为较为清晰的数学建模实践。
最后这段讨论集中在概念澄清。主持人注意到 Prince 在书中几乎不使用“neuron”一词,Prince 解释说这是个糟糕的类比:没有证据表明大脑像深度网络那样工作,反过来也没有证据说明深度学习具备短时记忆、做梦巩固记忆、模块化脑区等脑的特征;同样,大脑中也看不到双降、对抗样本、彩票假说等深度学习现象。他担心“神经网络”隐喻会让公众误以为模型在“思考”,从而严重误导。随后双方谈到大模型的“涌现”与心理学框架。Prince 采取极度还原的立场,认为与其说是网络中自发产生了类似心智的性质,不如说是互联网数据统计本身足够丰富,使模型在拟合这些统计规律后表现出补全、翻译等能力;这些现象更像数据的属性,而非网络拥有了某种主体性。由此,他主张把大语言模型看成一个含有海量项的大方程,而不是类人的心理实体。