Transformer的工作流程及与CNN的区别分析

Transformer的工作流程

Transformer是一种基于自注意力机制的神经网络架构，最初在论文《Attention Is All You Need》中提出，主要用于自然语言处理任务，特别是机器翻译。

整体架构

Transformer由编码器和解码器两部分组成：

编码器：负责处理输入序列，将其转换为连续表示
解码器：基于编码器的输出和已生成的输出，生成目标序列

--- title: Transformer架构 --- graph TD subgraph 输入 A["输入序列"] B["词嵌入"] C["位置编码"] end subgraph 编码器 D["多头自注意力"] E["残差连接 & 层归一化"] F["前馈神经网络"] G["残差连接 & 层归一化"] H["编码器层 x N"] end subgraph 解码器 I["掩码多头自注意力"] J["残差连接 & 层归一化"] K["编码器-解码器注意力"] L["残差连接 & 层归一化"] M["前馈神经网络"] N["残差连接 & 层归一化"] O["解码器层 x N"] end subgraph 输出 P["线性层"] Q["Softmax"] R["输出序列"] end A --> B B --> C C --> H H --> D D --> E E --> F F --> G G --> K O --> I I --> J J --> K K --> L L --> M M --> N N --> P P --> Q Q --> R

编码器工作流程

编码器由N个相同的层堆叠而成（原论文中N=6），每个层包含两个子层：

多头自注意力机制（Multi-Head Self-Attention）
前馈神经网络（Feed Forward Network）

每个子层都采用残差连接，并接着进行层归一化（Layer Normalization）。因此，每个子层的输出可以表示为：LayerNorm(x + Sublayer(x))。

多头自注意力机制

自注意力机制允许模型在处理序列中的每个元素时，关注序列中的其他元素。

--- title: 自注意力机制流程 --- graph TD A["输入序列"] --> B["词嵌入 + 位置编码"] B --> C["线性变换 (生成Q, K, V)"] C --> D["计算注意力分数 (Q·K^T/√d_k)"] D --> E["Softmax归一化"] E --> F["加权求和 (得到注意力输出)"] F --> G["多头注意力 (拼接多个头的输出)"] G --> H["线性变换 (得到最终输出)"]

具体步骤如下：

输入表示：将输入序列中的每个词转换为词嵌入（Word Embedding），并添加位置编码（Positional Encoding）以保留序列的顺序信息。
计算Q、K、V：对于输入序列中的每个词，通过三个不同的权重矩阵（W_q, W_k, W_v）线性变换，得到查询（Query）、键（Key）和值（Value）三个向量。
计算注意力分数：对于每个查询向量，计算它与所有键向量的点积，然后除以缩放因子（通常是键向量维度的平方根），最后通过softmax函数得到注意力权重。
```
Attention(Q, K, V) = softmax(QK^T / √d_k) * V
```
多头注意力：将上述过程重复h次（原论文中h=8），每次使用不同的权重矩阵，然后将h个注意力输出拼接并通过一个线性层进行变换。

前馈神经网络

每个编码器层还包含一个前馈神经网络，它由两个线性变换和一个非线性激活函数组成：

FFN(x) = max(0, xW1 + b1)W2 + b2

解码器工作流程

解码器也由N个相同的层堆叠而成（原论文中N=6），每个层包含三个子层：

掩码多头自注意力机制（Masked Multi-Head Self-Attention）
编码器-解码器注意力机制（Encoder-Decoder Attention）
前馈神经网络（Feed Forward Network）

掩码多头自注意力机制

与编码器中的自注意力机制类似，但添加了掩码（Mask）以确保在预测位置i时，只能关注到位置i及之前的输出，而不能看到未来的输出。

编码器-解码器注意力机制

这个子层类似于多头自注意力机制，但查询（Q）来自解码器的上一层，而键（K）和值（V）来自编码器的输出。这使得解码器能够关注输入序列中的所有位置。

前馈神经网络

与编码器中的前馈神经网络相同。

输出层

解码器的输出通过一个线性层和softmax函数，生成目标序列中每个位置的概率分布：

P(y_i | y_1, ..., y_{i-1}, x) = softmax(Linear(DecoderOutput))

训练与推理过程

训练过程

在训练过程中，使用教师强制（Teacher Forcing）策略，即使用真实的输出序列作为解码器的输入，而不是模型自己的预测。损失函数通常使用交叉熵损失。

推理过程

在推理过程中，模型采用自回归（Autoregressive）的方式生成输出序列：

首先，输入一个特殊的开始符号（如<sos>）和编码器的输出。
解码器生成第一个输出符号。
将生成的符号添加到输入序列中，再次输入解码器，生成下一个符号。
重复上述过程，直到生成特殊的结束符号（如<eos>）或达到最大长度。

CNN的工作原理

CNN（卷积神经网络）是一种主要用于处理网格状数据（如图像）的神经网络架构。

基本组件

卷积层（Convolutional Layer）：使用卷积核（Filter）在输入数据上滑动，进行卷积操作，提取局部特征。
池化层（Pooling Layer）：对特征图进行下采样，减少参数数量和计算量，同时提高模型的平移不变性。
全连接层（Fully Connected Layer）：将特征图展平后，通过全连接层进行分类或回归。

工作流程

--- title: CNN架构 --- graph TD subgraph 输入 A["输入数据 (如图像)"] end subgraph 特征提取 B["卷积层1"] C["激活函数 (如ReLU)"] D["池化层1"] E["卷积层2"] F["激活函数 (如ReLU)"] G["池化层2"] H["..."] I["卷积层N"] J["激活函数 (如ReLU)"] K["池化层N"] end subgraph 分类 L["展平层"] M["全连接层1"] N["激活函数 (如ReLU)"] O["全连接层2"] P["激活函数 (如ReLU)"] Q["输出层"] R["Softmax"] S["预测结果"] end A --> B B --> C C --> D D --> E E --> F F --> G G --> H H --> I I --> J J --> K K --> L L --> M M --> N N --> O O --> P P --> Q Q --> R R --> S

--- title: 卷积操作流程 --- graph TD A["输入数据"] --> B["卷积核滑动"] B --> C["逐元素相乘"] C --> D["求和"] D --> E["添加偏置"] E --> F["激活函数"] F --> G["输出特征图"]

输入层：接收输入数据（如图像）。
卷积操作：使用多个卷积核在输入数据上滑动，每个卷积核负责提取一种特定的特征。
激活函数：通常使用ReLU等非线性激活函数，增加模型的表达能力。
池化操作：对特征图进行下采样，如最大池化（Max Pooling）或平均池化（Average Pooling）。
重复卷积和池化：通过堆叠多个卷积层和池化层，提取更高层次的特征。
全连接层：将特征图展平后，通过全连接层进行分类或回归。
输出层：输出最终的预测结果。

Transformer与CNN的主要区别

--- title: Transformer与CNN对比 --- graph LR subgraph Transformer A["基于自注意力机制"] B["全局感受野"] C["并行计算能力强"] D["需要位置编码"] E["适合序列数据"] F["计算复杂度O(n²)"] end subgraph CNN G["基于卷积操作"] H["局部感受野"] I["并行计算能力较弱"] J["自然保留位置信息"] K["适合网格数据"] L["计算复杂度O(n×k²)"] end A -.-> G B -.-> H C -.-> I D -.-> J E -.-> K F -.-> L

1. 基本架构与操作原理

Transformer：
- 基于自注意力机制（Self-Attention）
- 直接计算序列中任意两个位置之间的关系
- 不依赖于数据的局部结构
- 并行计算能力强
CNN：
- 基于卷积操作（Convolution）
- 通过局部感受野（Local Receptive Field）提取特征
- 依赖于数据的局部结构（如图像的空间局部性）
- 层次化特征提取，从低级特征到高级特征

2. 处理序列数据的方式

Transformer：
- 通过自注意力机制直接建模序列中任意两个位置之间的关系
- 不受距离限制，可以捕捉长距离依赖关系
- 需要位置编码（Positional Encoding）来保留序列的顺序信息
- 计算复杂度为O(n²)，其中n是序列长度
CNN：
- 通过卷积核在序列上滑动，捕捉局部模式
- 需要多层堆叠才能捕捉长距离依赖关系
- 自然保留局部顺序信息
- 计算复杂度为O(n×k²)，其中n是序列长度，k是卷积核大小

3. 并行计算能力

Transformer：
- 高度并行化，可以同时处理序列中的所有位置
- 适合GPU等并行计算设备
- 训练速度快
CNN：
- 卷积操作本身可以并行化
- 但在处理序列数据时，通常需要按顺序处理
- 相比Transformer，并行计算能力较弱

4. 感受野（Receptive Field）

Transformer：
- 理论上具有全局感受野，可以直接关注序列中的任意位置
- 不需要多层堆叠就能捕捉长距离依赖关系
CNN：
- 感受野受卷积核大小和网络深度限制
- 需要多层堆叠或使用空洞卷积（Dilated Convolution）来扩大感受野
- 捕捉长距离依赖关系需要更多参数和计算

5. 位置信息的处理

Transformer：
- 本身不具有处理序列顺序的能力
- 需要显式添加位置编码（Positional Encoding）
- 位置编码可以是固定的（如正弦/余弦函数）或可学习的
CNN：
- 自然保留位置信息
- 卷积操作的顺序性隐含了位置信息
- 不需要额外的位置编码

6. 归纳偏置（Inductive Bias）

Transformer：
- 归纳偏置较弱，更依赖数据
- 更适合处理没有明显局部结构的数据（如文本）
- 需要更多数据才能达到良好性能
CNN：
- 具有强归纳偏置，假设数据具有局部相关性
- 更适合处理具有局部结构的数据（如图像）
- 在数据量较少的情况下也能达到良好性能

7. 应用领域

Transformer：
- 最初用于自然语言处理（如机器翻译、文本生成）
- 现已扩展到计算机视觉（如ViT）、语音处理、多模态学习等领域
- 在处理序列数据方面表现出色
CNN：
- 主要用于计算机视觉（如图像分类、目标检测）
- 也可用于处理序列数据（如文本分类）
- 在处理具有局部结构的数据方面表现出色

8. 参数效率

Transformer：
- 参数量与序列长度的平方成正比
- 对于长序列，参数量和计算量较大
- 但可以通过稀疏注意力等机制优化
CNN：
- 参数量主要取决于卷积核的数量和大小
- 参数共享机制使得参数效率较高
- 对于大尺寸输入，计算效率较高

9. 解释性

Transformer：
- 注意力权重提供了一定的解释性
- 可以可视化模型在做出决策时关注的输入部分
- 但整体模型仍然是一个黑盒
CNN：
- 卷积核可以解释为特征检测器
- 可以可视化卷积核学习到的特征
- 通过特征图可以理解模型的决策过程

10. 变体和扩展

Transformer：
- BERT、GPT、T5等预训练模型
- Reformer、Performer等优化版本
- Transformer-XL、Compressive Transformer等处理长序列的变体
CNN：
- ResNet、DenseNet、Inception等深度CNN架构
- MobileNet、ShuffleNet等轻量级CNN
- U-Net、FCN等用于语义分割的CNN

总结

Transformer和CNN是两种不同但都非常重要的神经网络架构。Transformer基于自注意力机制，擅长捕捉序列中的长距离依赖关系，在自然语言处理领域取得了巨大成功。CNN基于卷积操作，擅长提取局部特征，在计算机视觉领域表现出色。两者各有优势，选择哪种架构取决于具体的应用场景和数据特性。近年来，两种架构也在相互借鉴和融合，如Vision Transformer将Transformer应用于计算机视觉，而一些NLP模型也开始结合卷积操作来增强局部特征提取能力。

参考文献

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Houlsby, N. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.
LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278-2324.
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).

account_tree

思维导图

Interview AiBoxInterview AiBox — 面试搭档

不只是准备，更是实时陪练

Interview AiBox 在面试过程中提供实时屏幕提示、AI 模拟面试和智能复盘，让你每一次回答都更有信心。

免费下载 Interview AiBoxdownload 查看价格方案sell

AI 助读

一键发送到常用 AI

Transformer是一种基于自注意力机制的神经网络架构，由编码器和解码器组成。编码器通过多头自注意力和前馈神经网络处理输入序列，解码器通过掩码自注意力、编码器-解码器注意力和前馈神经网络生成输出序列。与CNN相比，Transformer具有全局感受野、并行计算能力强、适合处理序列数据等特点，而CNN则具有局部感受野、自然保留位置信息、适合处理网格数据等特点。Transformer在自然语言处理领域表现出色，而CNN在计算机视觉领域更为常用。两者在基本架构、处理序列方式、并行计算能力、感受野、位置信息处理、归纳偏置、应用领域、参数效率、解释性和变体扩展等方面存在显著差异。

智能总结

深度解读

考点定位

思路启发