大语言模型，简明解释

02 聊天机器人 = 把接龙重复一万遍

既然模型只会预测下一个词，那它怎么能写出一整段回答？答案简单到有点反直觉：反复预测。

要做一个聊天机器人，先铺一段「剧本」：描述这是一段用户和 AI 助手的对话，把用户刚输入的话填进去，然后让模型预测助手会说的第一个词。预测出来后，把这个词接到文本末尾，再让模型预测下一个词……如此循环，一个词一个词地把回答「长」出来。

实时动画 · 循环

图 2 · 自回归生成：每预测出一个词就接回输入，再喂回模型——文字就这样一个一个长出来

为什么同一个问题，答案每次都不一样？

如果每次都死板地选概率最高的词，回答会很僵硬。所以系统会按概率随机采样：大多时候选高概率的词，但偶尔也挑一个稍微不那么靠前的词。正是这点随机性，让文字读起来更自然，也让你问同一个问题时，会得到略有不同的回答。

关键直觉：模型从头到尾只做「预测下一个词」这一件事。你看到的所有智能——写代码、讲笑话、翻译——都是这个简单动作在天量参数加持下涌现出来的。

04 旋钮怎么被拧对：神经元、前向传播与反向传播

在拆解训练之前，得先看清楚网络里最小的零件——一个神经元到底在算什么。整张几千亿参数的网络，不过是这个简单运算重复了亿万次。

一个神经元：加权求和 → 加偏置 → 过激活函数

一个神经元接收上一层若干个数字作为输入。每条输入连线上都挂着一个权重 w（一个旋钮）。神经元做三件事：

① 把每个输入乘以它的权重，再全部加起来（加权求和）；② 再加上一个属于自己的偏置 b（决定它有多「容易被激活」）；③ 把这个结果塞进一个激活函数，挤压成最终输出。写成一行就是：

输出 = 激活函数( w₁·x₁ + w₂·x₂ + … + wₙ·xₙ + b )

关键就在这里：权重和偏置就是「参数」，就是上一节那面墙里的旋钮。改变它们，就改变了这个神经元对输入的反应——训练要拧的，正是这些数。

实时动画 · 数值×权重→求和→激活

图 4a · 单个神经元的内部：输入沿连线被各自的权重缩放，汇入细胞体求和、加偏置，再经激活函数挤出一个输出

为什么需要激活函数？

如果只有加权求和，无论叠多少层，整个网络合起来仍然只是一个「线性」函数，画不出任何弯曲的边界，表达力极弱。激活函数（如 ReLU、Sigmoid）给每个神经元加了一道非线性的弯折——正是这点弯曲，让层层叠加后的网络能逼近任意复杂的关系。

实时动画 · 输入扫过，看输出怎么变

图 4b · 两种常见激活函数：ReLU 把负数压成 0、正数原样放行；Sigmoid 把任意数挤进 (0,1)。红点是当前输入 → 输出的映射

前向传播：信号一层层算到底

把成千上万个这样的神经元排成一层一层，前一层的输出当作后一层的输入，信号就从输入端一路计算到输出端，最后得到一个预测。这个从左到右、层层求值的过程，就叫前向传播（forward pass）。

预测错了，错多少？损失函数

把网络的预测和「正确答案」一比，用一个损失函数算出差距有多大——预测越离谱，损失越高。训练的唯一目标，就是把损失降到最低。

反向传播：顺着「下坡方向」拧每一个旋钮

现在到了核心。我们有几千亿个旋钮，怎么知道每一个该往哪拧、拧多少，才能让损失变小？答案是求梯度。

把损失想象成一片高低起伏的山地，你站在某一点，想走到谷底（损失最小）。梯度就是当前位置「最陡的上坡方向」，那么反方向就是下坡最快的方向。沿着它迈一小步，损失就降一点——这就是梯度下降。

反向传播正是高效算出「每个权重对损失的影响（偏导数）」的算法：它从输出端的误差出发，利用链式法则把误差逐层往回传，一次性求出所有旋钮该拧的方向和幅度。然后每个权重朝下坡方向挪一丁点，一轮训练就完成了。

实时动画 · 小球沿梯度滚向谷底

图 4c · 梯度下降：损失是一片山谷，小球每一步都朝当前最陡的下坡方向迈进，逐渐滚到损失最低处——这一步「该往哪挪」由反向传播算出

把「前向预测 → 算损失 → 反向传播求梯度 → 微调权重」这一整套，在数万亿个文本例子上重复，随机的旋钮就被慢慢拧成了一个能流畅接龙的语言模型。下面这张图把前向（蓝）与反向（粉）合在一张真实网络上看：

实时动画 · 正向蓝 / 反向粉

图 4d · 一轮训练的全景：蓝色信号正向流动算出预测，对比答案得到误差，粉色误差再反向流回，沿梯度微调每条连接的权重

一段文本只把旋钮拧一丁点，但亿万次重复之后，模型就学会了语言的规律。这第一个阶段叫预训练（pre-training）。

第二阶段：教它当个好助手（RLHF）

预训练完，模型只会「续写互联网」，还不懂怎么当助手。于是有了第二阶段——人类反馈强化学习（RLHF）：人类标注员会标出哪些回答不好、哪些更受欢迎，模型据此进一步调整参数，逐渐对齐到「乐于助人、符合用户期待」的行为上。

算力的尺度：这么多次微调，运算量大到几乎不可想象。能跑得动，靠的是 GPU——专门为「同时做海量并行运算」而设计的芯片。

05 让这一切成真的架构：Transformer

2017 年，Google 的研究者提出了 Transformer。在它之前，模型大多按顺序一个词一个词地读；Transformer 的突破在于——并行处理整段文本，所有词同时被「读」进来。这正好对上了 GPU 擅长并行的胃口，也是大模型得以做大的关键。

第一步：词变成数字（高维向量）

计算机不认字，只认数字。所以每个词（更准确说是「token」）先被编码成一长串数字，也就是一个向量。这串数字往往有几百甚至上万维。神奇的是，它能编码词的含义：意思相近的词，向量在这个高维空间里也彼此靠近，而且方向本身有意义——「国王→王后」的位移，和「男人→女人」是同一个方向。

可拖动旋转 · 实时 3D

图 5 · 高维语义空间的投影：几百个词漂浮其中，相近词成簇；白色平行箭头是「性别」方向（国王→王后 ∥ 男人→女人）。拖动可旋转

第二步：注意力——让词互相「交流」

同一个词在不同语境里意思可能完全不同。比如「河 bank」是河岸，「bank 取钱」是银行。一个词的真正含义，取决于它周围的词。注意力（attention）就是做这件事的操作：它让每个词去「看」上下文里的其他词，按相关性吸收信息，从而更新自己的含义。

实时动画 · 权重粗细=注意力强度

图 6 · 每个词向所有词「张望」，连线越亮越粗代表注意力越强；「bank」把大量注意力投向「river」，于是含义被拉向「河岸」

第三步：前馈网络 + 反复堆叠

注意力之后，向量会经过一个前馈网络（MLP），它给模型提供额外的「容量」去存储训练中学到的各种模式与知识。注意力与前馈网络这一对操作会一层层反复堆叠很多次，数据在其中不断流动、含义被层层精炼。最后，模型拿出最末尾那个向量，对它做一次运算，得到「下一个词」的概率分布。

实时动画 · 数据自下而上流动

图 7 · Transformer 全貌：词向量从底部进入，在「注意力 ⇄ 前馈」的多层堆叠中被反复精炼，顶端吐出下一个词的概率

30 秒速览

01 一个会接龙的函数

02 聊天机器人 = 把接龙重复一万遍

为什么同一个问题，答案每次都不一样？

03 「大」到底大在哪：参数

04 旋钮怎么被拧对：神经元、前向传播与反向传播

一个神经元：加权求和 → 加偏置 → 过激活函数

为什么需要激活函数？

前向传播：信号一层层算到底

预测错了，错多少？损失函数

反向传播：顺着「下坡方向」拧每一个旋钮

第二阶段：教它当个好助手（RLHF）

05 让这一切成真的架构：Transformer

第一步：词变成数字（高维向量）

第二步：注意力——让词互相「交流」

第三步：前馈网络 + 反复堆叠

06 它为什么连造它的人都看不透