Transformer模型架构和工作原理

背景介绍

Transformer模型是由Vaswani等人在2017年发表的论文《Attention Is All You Need》中提出的一种全新的序列到序列(Seq2Seq)模型架构。它完全摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN)，仅使用注意力机制来处理序列数据，在机器翻译等任务上取得了突破性成果。

整体架构

Transformer模型采用了编码器-解码器(Encoder-Decoder)架构，但与传统的Seq2Seq模型不同，它完全基于注意力机制构建。整体架构包含以下主要部分：

编码器(Encoder)：由N个相同的编码器层堆叠而成(原论文中N=6)
解码器(Decoder)：由N个相同的解码器层堆叠而成(原论文中N=6)
输入和输出嵌入层(Input/Output Embeddings)：将输入/输出token转换为向量表示
位置编码(Positional Encoding)：注入序列中token的位置信息

--- title: Transformer模型架构 --- graph TB subgraph 输入处理 A[输入序列] --> B[输入嵌入] B --> C[位置编码] end subgraph 编码器 C --> D[编码器层1] D --> E[编码器层2] E --> F[编码器层N] subgraph 编码器层结构 D1[多头自注意力] --> D2[残差连接与层归一化] D2 --> D3[前馈神经网络] D3 --> D4[残差连接与层归一化] end end subgraph 解码器 G[输出序列] --> H[输出嵌入] H --> I[位置编码] I --> J[解码器层1] J --> K[解码器层2] K --> L[解码器层N] subgraph 解码器层结构 J1[掩码多头自注意力] --> J2[残差连接与层归一化] J2 --> J3[编码器-解码器注意力] J3 --> J4[残差连接与层归一化] J4 --> J5[前馈神经网络] J5 --> J6[残差连接与层归一化] end end F --> J3 L --> M[线性变换] M --> N[Softmax] N --> O[输出概率] style 编码器层结构 fill:#f9f,stroke:#333,stroke-width:2px style 解码器层结构 fill:#f9f,stroke:#333,stroke-width:2px

核心组件详解

1. 输入嵌入与位置编码

输入嵌入(Input Embeddings)：

将输入的离散token(如单词、子词)映射为连续的向量表示
通常使用预训练的词嵌入或随机初始化的嵌入矩阵
嵌入维度为d_model(原论文中d_model=512)

位置编码(Positional Encoding)：

由于Transformer没有循环或卷积结构，无法捕捉序列顺序信息
位置编码用于向输入嵌入中注入位置信息
使用正弦和余弦函数的组合来生成位置编码：

$$PE_{(pos,2i)} = \sin(\frac{pos}{10000^{2i/d_{model}}})$$

$$PE_{(pos,2i+1)} = \cos(\frac{pos}{10000^{2i/d_{model}}})$$

其中，pos是位置，i是维度索引。

位置编码有以下特点：

每个位置的唯一编码
能够处理比训练时更长的序列
允许模型轻松学习相对位置关系

2. 编码器(Encoder)

编码器由N个(原论文中N=6)相同的编码器层堆叠而成，每个编码器层包含两个子层：

2.1 多头自注意力机制(Multi-Head Self-Attention)

自注意力机制(Self-Attention)：

自注意力机制允许模型在处理序列中的每个位置时，关注序列中的所有位置
计算过程如下：
1. 将输入向量X通过三个不同的线性变换生成查询(Query)、键(Key)和值(Value)向量：
  - Q = X * W^Q
  - K = X * W^K
  - V = X * W^V
2. 计算注意力分数：
  - Score = Q * K^T / √d_k (其中d_k是键向量的维度)
3. 通过softmax函数将分数转换为注意力权重：
  - Weights = softmax(Score)
4. 将注意力权重应用于值向量，得到输出：
  - Output = Weights * V

--- title: 自注意力机制工作原理 --- graph LR A[输入向量X] --> B[线性变换W^Q] A --> C[线性变换W^K] A --> D[线性变换W^V] B --> E[查询向量Q] C --> F[键向量K] D --> G[值向量V] E --> H[Q * K^T] F --> H H --> I[除以√d_k] I --> J[Softmax] J --> K[注意力权重] K --> L[注意力权重 * V] G --> L L --> M[注意力输出]

多头注意力(Multi-Head Attention)：

将Q、K、V通过h个不同的线性变换(原论文中h=8)，然后并行执行注意力计算
将多个头的输出拼接起来，再通过一个线性变换：
- MultiHead(Q, K, V) = Concat(head_1, ..., head_h) * W^O
- 其中head_i = Attention(Q * W_i^Q, K * W_i^K, V * W_i^V)

多头注意力的优势：

允许模型共同关注来自不同位置的不同表示子空间
增强了模型关注不同信息的能力

2.2 前馈神经网络(Feed-Forward Network)

每个编码器层还包含一个全连接的前馈神经网络，应用于每个位置单独且相同：

FFN(x) = max(0, x * W_1 + b_1) * W_2 + b_2
由两个线性变换和一个ReLU激活函数组成
内层维度为d_ff(原论文中d_ff=2048)，外层维度为d_model=512

残差连接(Residual Connection)和层归一化(Layer Normalization)：

每个子层(多头注意力和前馈网络)的输出都采用残差连接和层归一化：
- Output = LayerNorm(x + Sublayer(x))
残差连接有助于缓解深度网络中的梯度消失问题
层归一化有助于稳定训练过程

3. 解码器(Decoder)

解码器同样由N个(原论文中N=6)相同的解码器层堆叠而成，每个解码器层包含三个子层：

3.1 掩码多头自注意力机制(Masked Multi-Head Self-Attention)

与编码器中的自注意力类似，但添加了掩码机制
掩码确保在预测位置i时，只能关注到位置i及之前的token，不能"看到"未来的token
这是通过在注意力分数矩阵中添加一个负无穷大的掩码实现的：
- 对于位置i，所有j > i的位置都被掩码覆盖

3.2 编码器-解码器注意力(Encoder-Decoder Attention)

这是一个多头注意力机制，其中：
- 查询(Q)来自解码器的上一层
- 键(K)和值(V)来自编码器的输出
允许解码器关注输入序列中的所有位置
类似于传统的Seq2Seq模型中的注意力机制

3.3 前馈神经网络(Feed-Forward Network)

与编码器中的前馈网络结构相同
应用于每个位置单独且相同

同样，每个子层也采用残差连接和层归一化：

Output = LayerNorm(x + Sublayer(x))

4. 输出层

解码器的输出通过一个线性变换，然后应用softmax函数生成预测概率分布：
- Output = softmax(Linear(x))
线性变换的维度等于目标词汇表的大小

Transformer的工作流程

输入处理：
- 输入序列通过嵌入层转换为向量表示
- 添加位置编码，注入位置信息
编码过程：
- 输入向量通过N个编码器层
- 每个编码器层包含多头自注意力和前馈网络子层
- 每个子层都有残差连接和层归一化
- 编码器的输出包含了输入序列的上下文表示
解码过程：
- 解码器接收已生成的输出序列(在训练时是目标序列，在推理时是之前生成的token)
- 添加位置编码
- 通过N个解码器层：
  - 掩码多头自注意力：确保只能关注已生成的token
  - 编码器-解码器注意力：关注输入序列的相关部分
  - 前馈网络
- 每个子层都有残差连接和层归一化
输出生成：
- 解码器的输出通过线性变换和softmax函数生成预测概率分布
- 在训练时，使用教师强制(Teacher Forcing)方法，将整个目标序列输入解码器
- 在推理时，使用自回归(Autoregressive)方法，逐个生成token

Transformer的创新点

完全基于注意力机制：
- 摒弃了RNN和CNN，完全依赖注意力机制捕捉序列中的依赖关系
- 允许更高效的并行计算
自注意力机制：
- 能够直接建模序列中任意两个位置之间的关系
- 解决了长距离依赖问题
多头注意力：
- 允许模型共同关注来自不同位置的不同表示子空间
- 增强了模型的表达能力
位置编码：
- 创新性地使用正弦和余弦函数生成位置编码
- 保留了序列的顺序信息
残差连接和层归一化：
- 有助于训练更深的网络
- 提高了训练稳定性和收敛速度

Transformer的优势

并行计算：
- 与RNN不同，Transformer可以并行处理整个序列
- 大大提高了训练效率
长距离依赖：
- 自注意力机制可以直接建模任意两个位置之间的关系
- 不受距离限制，有效解决了长距离依赖问题
可扩展性：
- Transformer架构可以轻松扩展到更大的模型和数据集
- 为后续的大型语言模型(如BERT、GPT等)奠定了基础
多领域应用：
- 最初用于机器翻译，但已成功应用于NLP的多个任务
- 甚至扩展到计算机视觉、音频处理等领域

Transformer的变体和发展

BERT (Bidirectional Encoder Representations from Transformers)：
- 仅使用Transformer的编码器部分
- 通过双向上下文表示进行预训练
- 在多种NLP任务上取得了突破性成果
GPT (Generative Pre-trained Transformer)：
- 仅使用Transformer的解码器部分
- 通过自回归语言模型进行预训练
- 在文本生成等任务上表现出色
T5 (Text-to-Text Transfer Transformer)：
- 将所有NLP任务统一为文本到文本的格式
- 使用完整的编码器-解码器架构
Vision Transformer (ViT)：
- 将Transformer应用于计算机视觉任务
- 将图像分割为固定大小的块，然后线性嵌入
其他变体：
- Reformer：改进注意力机制的计算效率
- Longformer：扩展到处理更长序列
- Performer：使用核函数近似注意力计算

总结

Transformer模型通过引入自注意力机制，彻底改变了序列建模的方式。它摒弃了传统的RNN和CNN结构，完全基于注意力机制构建，实现了高效的并行计算和强大的序列建模能力。Transformer的编码器-解码器架构、多头注意力机制、位置编码等创新设计，使其在机器翻译等任务上取得了突破性成果，并为后续的大型语言模型奠定了基础。如今，Transformer及其变体已成为自然语言处理领域的主流架构，并已扩展到计算机视觉、音频处理等多个领域，推动了人工智能的快速发展。

参考文献

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008).
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI Blog, 1(8), 9.
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Houlsby, N. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.

account_tree

思维导图

Interview AiBoxInterview AiBox — 面试搭档

不只是准备，更是实时陪练

Interview AiBox 在面试过程中提供实时屏幕提示、AI 模拟面试和智能复盘，让你每一次回答都更有信心。

免费下载 Interview AiBoxdownload 查看价格方案sell

AI 助读

一键发送到常用 AI

Transformer是一种革命性的序列到序列模型，完全基于注意力机制构建，摒弃了传统的RNN和CNN结构。其核心是自注意力机制，能够直接建模序列中任意位置之间的关系，有效解决长距离依赖问题。Transformer采用编码器-解码器架构，编码器通过多头自注意力和前馈网络处理输入序列，解码器通过掩码自注意力、编码器-解码器注意力和前馈网络生成输出序列。位置编码注入了序列顺序信息，残差连接和层归一化增强了训练稳定性。Transformer的并行计算能力大大提高了训练效率，其变体如BERT、GPT等已成为NLP领域的主流架构，并扩展到计算机视觉等多个领域。

智能总结

深度解读

考点定位

思路启发