← 3Blue1Brown 合集
3Blue1Brown · 深度学习系列

大语言模型,简明解释

用 8 分钟把 ChatGPT 背后的原理讲清楚:一个庞大到难以想象、却只做一件事的数学函数——预测下一个词。

原作者 Grant Sanderson(3Blue1Brown) · 为加州计算机历史博物馆展览制作 · 中文整理 · 全部插画为实时动画
▶ 观看原视频

30 秒速览

  1. 大语言模型本质是一个预测「下一个词」的数学函数,它对所有可能的词给出一张概率表。
  2. 聊天机器人就是反复做这件事:预测一个词、接上去、再预测下一个。偶尔挑不是最高概率的词,回答才显得自然。
  3. 函数的行为由几千亿个叫做参数(权重)的连续数值决定——这就是「大」的由来。
  4. 这些参数不是人写的,而是靠海量文本通过反向传播训练出来的(预训练),之后再用人类反馈强化学习 RLHF 调教成好用的助手。
  5. 支撑这一切的架构是 2017 年的 Transformer,它能并行处理整段文本,靠注意力机制让词与词之间交换上下文。

01 一个会接龙的函数

想象你看到一段没写完的话,让你猜下一个词最可能是什么。大语言模型做的就是这件事——而且它不是只猜一个词,而是给每一个可能的词都打上一个概率。

给它一段文本,它输出的不是「答案」,而是一张覆盖整个词表的概率分布:某些词概率高,某些词概率低。这就是模型唯一会做的事。

实时动画
图 1 · 文本流入模型,整张词表被同时点亮成一条概率分布——高的概率柱在不断呼吸

02 聊天机器人 = 把接龙重复一万遍

既然模型只会预测下一个词,那它怎么能写出一整段回答?答案简单到有点反直觉:反复预测

要做一个聊天机器人,先铺一段「剧本」:描述这是一段用户和 AI 助手的对话,把用户刚输入的话填进去,然后让模型预测助手会说的第一个词。预测出来后,把这个词接到文本末尾,再让模型预测下一个词……如此循环,一个词一个词地把回答「长」出来。

实时动画 · 循环
图 2 · 自回归生成:每预测出一个词就接回输入,再喂回模型——文字就这样一个一个长出来

为什么同一个问题,答案每次都不一样?

如果每次都死板地选概率最高的词,回答会很僵硬。所以系统会按概率随机采样:大多时候选高概率的词,但偶尔也挑一个稍微不那么靠前的词。正是这点随机性,让文字读起来更自然,也让你问同一个问题时,会得到略有不同的回答。

关键直觉:模型从头到尾只做「预测下一个词」这一件事。你看到的所有智能——写代码、讲笑话、翻译——都是这个简单动作在天量参数加持下涌现出来的。

03 「大」到底大在哪:参数

模型的全部行为,由一堆叫做参数(也叫权重)的连续数值决定。它们就像无数个旋钮,每个旋钮的位置都会微调函数的输出。

这些旋钮有多少?现代大模型动辄几千亿个。这就是 large language model 里 large 的真正含义——不是文本大,而是参数多。没有人手动设定过任何一个旋钮的值;它们完全是训练「拧」出来的。

实时动画
图 3 · 一面由权重构成的「墙」,每个方块是一个参数,训练时被持续微调(颜色=数值大小)

04 旋钮怎么被拧对:神经元、前向传播与反向传播

在拆解训练之前,得先看清楚网络里最小的零件——一个神经元到底在算什么。整张几千亿参数的网络,不过是这个简单运算重复了亿万次。

一个神经元:加权求和 → 加偏置 → 过激活函数

一个神经元接收上一层若干个数字作为输入。每条输入连线上都挂着一个权重 w(一个旋钮)。神经元做三件事:

① 把每个输入乘以它的权重,再全部加起来(加权求和);② 再加上一个属于自己的偏置 b(决定它有多「容易被激活」);③ 把这个结果塞进一个激活函数,挤压成最终输出。写成一行就是:

输出 = 激活函数( w₁·x₁ + w₂·x₂ + … + wₙ·xₙ + b )

关键就在这里:权重和偏置就是「参数」,就是上一节那面墙里的旋钮。改变它们,就改变了这个神经元对输入的反应——训练要拧的,正是这些数。

实时动画 · 数值×权重→求和→激活
图 4a · 单个神经元的内部:输入沿连线被各自的权重缩放,汇入细胞体求和、加偏置,再经激活函数挤出一个输出

为什么需要激活函数?

如果只有加权求和,无论叠多少层,整个网络合起来仍然只是一个「线性」函数,画不出任何弯曲的边界,表达力极弱。激活函数(如 ReLUSigmoid)给每个神经元加了一道非线性的弯折——正是这点弯曲,让层层叠加后的网络能逼近任意复杂的关系。

实时动画 · 输入扫过,看输出怎么变
图 4b · 两种常见激活函数:ReLU 把负数压成 0、正数原样放行;Sigmoid 把任意数挤进 (0,1)。红点是当前输入 → 输出的映射

前向传播:信号一层层算到底

把成千上万个这样的神经元排成一层一层,前一层的输出当作后一层的输入,信号就从输入端一路计算到输出端,最后得到一个预测。这个从左到右、层层求值的过程,就叫前向传播(forward pass)

预测错了,错多少?损失函数

把网络的预测和「正确答案」一比,用一个损失函数算出差距有多大——预测越离谱,损失越高。训练的唯一目标,就是把损失降到最低

反向传播:顺着「下坡方向」拧每一个旋钮

现在到了核心。我们有几千亿个旋钮,怎么知道每一个该往哪拧、拧多少,才能让损失变小?答案是求梯度

把损失想象成一片高低起伏的山地,你站在某一点,想走到谷底(损失最小)。梯度就是当前位置「最陡的上坡方向」,那么反方向就是下坡最快的方向。沿着它迈一小步,损失就降一点——这就是梯度下降

反向传播正是高效算出「每个权重对损失的影响(偏导数)」的算法:它从输出端的误差出发,利用链式法则把误差逐层往回传,一次性求出所有旋钮该拧的方向和幅度。然后每个权重朝下坡方向挪一丁点,一轮训练就完成了。

实时动画 · 小球沿梯度滚向谷底
图 4c · 梯度下降:损失是一片山谷,小球每一步都朝当前最陡的下坡方向迈进,逐渐滚到损失最低处——这一步「该往哪挪」由反向传播算出

把「前向预测 → 算损失 → 反向传播求梯度 → 微调权重」这一整套,在数万亿个文本例子上重复,随机的旋钮就被慢慢拧成了一个能流畅接龙的语言模型。下面这张图把前向(蓝)与反向(粉)合在一张真实网络上看:

实时动画 · 正向蓝 / 反向粉
图 4d · 一轮训练的全景:蓝色信号正向流动算出预测,对比答案得到误差,粉色误差再反向流回,沿梯度微调每条连接的权重

一段文本只把旋钮拧一丁点,但亿万次重复之后,模型就学会了语言的规律。这第一个阶段叫预训练(pre-training)

第二阶段:教它当个好助手(RLHF)

预训练完,模型只会「续写互联网」,还不懂怎么当助手。于是有了第二阶段——人类反馈强化学习(RLHF):人类标注员会标出哪些回答不好、哪些更受欢迎,模型据此进一步调整参数,逐渐对齐到「乐于助人、符合用户期待」的行为上。

算力的尺度:这么多次微调,运算量大到几乎不可想象。能跑得动,靠的是 GPU——专门为「同时做海量并行运算」而设计的芯片。

05 让这一切成真的架构:Transformer

2017 年,Google 的研究者提出了 Transformer。在它之前,模型大多按顺序一个词一个词地读;Transformer 的突破在于——并行处理整段文本,所有词同时被「读」进来。这正好对上了 GPU 擅长并行的胃口,也是大模型得以做大的关键。

第一步:词变成数字(高维向量)

计算机不认字,只认数字。所以每个词(更准确说是「token」)先被编码成一长串数字,也就是一个向量。这串数字往往有几百甚至上万维。神奇的是,它能编码词的含义:意思相近的词,向量在这个高维空间里也彼此靠近,而且方向本身有意义——「国王→王后」的位移,和「男人→女人」是同一个方向。

可拖动旋转 · 实时 3D
图 5 · 高维语义空间的投影:几百个词漂浮其中,相近词成簇;白色平行箭头是「性别」方向(国王→王后 ∥ 男人→女人)。拖动可旋转

第二步:注意力——让词互相「交流」

同一个词在不同语境里意思可能完全不同。比如「河 bank」是河岸,「bank 取钱」是银行。一个词的真正含义,取决于它周围的词。注意力(attention)就是做这件事的操作:它让每个词去「看」上下文里的其他词,按相关性吸收信息,从而更新自己的含义。

实时动画 · 权重粗细=注意力强度
图 6 · 每个词向所有词「张望」,连线越亮越粗代表注意力越强;「bank」把大量注意力投向「river」,于是含义被拉向「河岸」

第三步:前馈网络 + 反复堆叠

注意力之后,向量会经过一个前馈网络(MLP),它给模型提供额外的「容量」去存储训练中学到的各种模式与知识。注意力与前馈网络这一对操作会一层层反复堆叠很多次,数据在其中不断流动、含义被层层精炼。最后,模型拿出最末尾那个向量,对它做一次运算,得到「下一个词」的概率分布。

实时动画 · 数据自下而上流动
图 7 · Transformer 全貌:词向量从底部进入,在「注意力 ⇄ 前馈」的多层堆叠中被反复精炼,顶端吐出下一个词的概率

06 它为什么连造它的人都看不透

这里藏着一个深刻的事实:模型的具体行为,是几千亿个被调出来的参数共同涌现的结果,没有人为任何一个具体预测写过规则

正因如此,要解释「模型为什么偏偏在这里给出这个预测」极其困难。我们能精确描述架构(注意力、前馈、堆叠),也能描述训练流程(反向传播、RLHF),但具体到某一次输出背后的原因,往往连开发者都难以完全说清。这就是为什么大语言模型常被形容为「即使对创造者也是神秘的」。

一句话收束:一个只会预测下一个词的函数,被几千亿个从数据中学来的参数驱动,靠 Transformer 并行处理与注意力机制理解上下文——于是「智能」从简单的规则与庞大的规模中涌现了出来。

下一个词预测概率分布 & 采样参数 / 权重 反向传播预训练RLHFGPU 并行 Transformer (2017)词向量注意力机制 前馈网络涌现
内容整理自 3Blue1Brown《Large Language Models explained briefly》
原视频:youtube.com/watch?v=LPZh9BOjkQs · 原文:3blue1brown.com/lessons/mini-llm
想深入:3Blue1Brown 还有完整的《Neural Networks》系列,逐集拆解注意力与 Transformer 的数学。