The Moonshot Podcast Deep Dive: Andrew Ng on Deep Learning and Google Brain
加载中...
点击任意话题卡片查看该时段的完整对话内容。
访谈一开始讨论美国之外、尤其是欠发达地区将如何受到 AI 影响。Andrew Ng 表示,他希望 AI 带来强烈的“民主化效应”,因为当今世界最昂贵的资源之一就是高质量的人类智能服务,例如专科医生、私人导师、专业顾问等。训练一个高技能人才成本高昂,因此人类智能难以快速变便宜;但人工智能存在被大规模压低成本的路径。基于这一点,他设想未来每个人都能拥有一支“聪明、信息充分的员工队伍”,在健康、教育和日常决策上提供帮助。其核心论点是:过去只有富人才能购买的智力支持,未来可以通过 AI 普及给更广泛的人群,从而整体抬升社会底部能力与机会。
Andrew 回顾了自己在伯克利的博士论文工作:他构建了一个小型神经网络,用强化学习方法训练直升机实现稳定悬停。在今天看来,飞行器稳定悬停似乎并不稀奇,但在当时,这种通过学习获得的稳定控制令人震撼,也因此吸引了大量关注。他提到,那时强化学习远没有今天这么热门,这项工作算是走在主流之外。除了技术突破,他也强调了个人研究风格:愿意离开既有路径去做看起来有些“奇怪”的事情,虽然这种尝试有时会失败,但一旦成功,就可能给领域带来明显推动。这段经历不仅让强化学习得到更多注意,也成为他此后持续押注非共识方向的早期范例。
访谈随后转向 Google Brain 的思想前史。主持人提到,Andrew 当年在 Stanford 写下的设想中有两个关键命题:第一,规模至关重要;第二,大脑可能并不需要针对视觉、听觉、文本等任务分别设计完全不同的算法,而是存在一个可处理多类输入的通用学习机制。Andrew 回应说,后一部分本质上是“一个学习算法假说”,灵感来自神经科学中的脑重接线实验:同样的脑组织在特定条件下可能从“听觉处理”转为“视觉处理”。这使他思考,机器是否也能依靠一种统一算法,通过喂入不同数据来学会处理图像、音频、文本等多模态任务。回看历史,他认为这一高层假说大体上被证明是对的,尽管从神经科学提炼出的具体细节并没有都成立。相比让成千上万人不断手工发明新算法,他更相信少数人打造通用学习机制,再依靠不同数据驱动系统适应多种任务。
Andrew 详细回忆了 2008-2010 年前后学界对深度学习和神经网络的抵触。当时神经网络长期处于边缘地位,相关论文甚至难以进入顶级会议主会场,很多工作只能发表在 workshop。主流研究更重视精巧的数学构造、理论证明和算法微调,而 Andrew 主张的是另一条路径:用更多计算资源、更多数据把模型做大。他指出,这种观点在当时被认为缺乏“学术严谨性”,甚至引发资深研究者的公开反对。尽管如此,他和学生掌握了一组关键实验数据:随着模型规模增大,性能曲线稳定“向右上角”提升。这些数据构成了他持续推进“扩容”路线的底气。他还提到,连最早推动 GPU 扩展神经网络的论文,也因争议太大只能发在 workshop。事后看,这些判断成为后来深度学习崛起的重要前奏。
在解释为何选择到 X 推进这一愿景时,Andrew 把很大一部分功劳归给 Sebastian Thrun。他回忆说,两人在 Stanford 办公室相邻,Sebastian 很早就知道他和学生通过实验观察到“模型越大、效果越好”的趋势。正是在 Sebastian 提醒下,Andrew 意识到 Google 拥有庞大计算基础设施,可能是验证深度学习规模化假设的理想场所。随后 Sebastian 为他安排了向 Larry Page 的提案会面。Andrew 原本准备了演示文稿,但由于会面发生在一家日餐馆,最终主要以口头交流完成。幸运的是,Larry 接受了这一在当时仍显疯狂的设想,并授权他与 Sebastian 及 X 团队继续推进,这个项目后来发展为 Google Brain。这段叙述强调了个人信念、关键引荐人和资源平台在技术转折中的共同作用。
在被问到年轻时期为何能顶住外界愤怒和反对时,Andrew 再次强调:真正支撑自己信念的不是舆论,而是数据。他提到学生 Adam Coates 生成的一张关键图表:横轴是模型规模,纵轴是性能表现,而在大量实验模型上,这条曲线始终稳定向右上升。这意味着只要能继续把模型做大,性能就会继续提高。Andrew 认为,科学家和创新者不能简单通过“问大家怎么想”再取平均值来决定方向;可以听取意见,但最终必须拥有自己的工作假设。他之所以能在他人不相信时继续推动规模化路线,正是因为手里有可重复、已发表、但尚未被足够重视的实验依据。这也解释了为何他和团队在扩展深度学习上获得了相对长的先发优势。
访谈最后一段聚焦 Google Brain 的组织与工程实现。Andrew 回忆,在 Larry Page 的推动下,他与 Google 内部许多人交流,其中 Jeff Dean 对“把神经网络做得更大就会更强”这一想法表现出兴趣,并逐渐深度参与项目。团队内部也有意识地希望保持 Jeff 的投入,因为他会带来巨大的“乘数效应”。随着合作加深,双方形成清晰分工:Andrew 负责机器学习方向,Jeff 负责系统与基础设施扩展。主持人进一步指出,Jeff 在 Google 搜索等系统里所擅长的“拆分大问题、并行处理、再汇总结果”的能力,恰好与大规模神经网络训练需要的计算方式相契合。Andrew 也补充,早期训练曾基于 MapReduce 等技术,之后技术栈持续演进,最终走向 TensorFlow 等框架。他同时坦言,Google 在拥抱 GPU 上一度偏慢,部分原因是内部 CPU 基础设施本就极其强大。这段内容展现了算法创新与系统工程耦合,才让深度学习真正跨过实验室门槛。