Attention机制的数学公式

基本概念

Attention机制是一种模拟人类认知注意力机制的技术，它允许模型在处理序列数据时，动态地关注输入序列的不同部分。这种机制在自然语言处理、计算机视觉等领域取得了巨大成功，尤其是在Transformer架构中。

基本Attention公式

基本Attention机制的核心思想是通过计算查询（Query）和键（Key）之间的相似度，然后对值（Value）进行加权求和。其数学公式如下：

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

其中：

$Q$ 是查询矩阵，形状为 $(n \times d_k)$
$K$ 是键矩阵，形状为 $(m \times d_k)$
$V$ 是值矩阵，形状为 $(m \times d_v)$
$d_k$ 是键的维度
$\sqrt{d_k}$ 是缩放因子，用于防止内积过大导致softmax梯度消失

Scaled Dot-Product Attention

Scaled Dot-Product Attention是Transformer中使用的基本Attention单元，其计算过程如下：

计算查询和键的点积：$QK^T$
缩放：$\frac{QK^T}{\sqrt{d_k}}$
应用softmax函数：$\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)$
与值相乘：$\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

Multi-Head Attention

Multi-Head Attention将Attention机制扩展到多个"头"，每个头学习不同的注意力模式。其数学公式如下：

$$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, ..., \text{head}_h)W^O$$

其中，每个头的计算为：

$$\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)$$

这里：

$W_i^Q \in \mathbb{R}^{d_{model} \times d_k}$ 是第i个查询的权重矩阵
$W_i^K \in \mathbb{R}^{d_{model} \times d_k}$ 是第i个键的权重矩阵
$W_i^V \in \mathbb{R}^{d_{model} \times d_v}$ 是第i个值的权重矩阵
$W^O \in \mathbb{R}^{hd_v \times d_{model}}$ 是输出的权重矩阵
$h$ 是头的数量

Self-Attention

Self-Attention是一种特殊的Attention机制，其中查询、键和值都来自同一个输入序列。其数学公式与基本Attention相同，只是$Q=K=V$：

$$\text{Self-Attention}(X) = \text{softmax}\left(\frac{XX^T}{\sqrt{d_k}}\right)X$$

其中，$X$是输入序列的表示矩阵。

不同类型Attention机制的对比

Attention类型	主要特点	应用场景	优势
Scaled Dot-Product	计算查询和键的点积并缩放	Transformer基础单元	计算高效，适合并行化
Multi-Head	并行计算多个注意力头	Transformer编码器/解码器	捕捉不同子空间的信息
Self-Attention	查询、键、值来自同一输入	序列内部关系建模	捕捉序列内部依赖关系
Masked Self-Attention	屏蔽未来位置的信息	Transformer解码器	保证自回归性质，防止信息泄露

Attention机制的计算过程

--- title: Attention机制计算流程 --- flowchart TD A[输入序列] --> B[线性变换] B --> C{生成Q, K, V} C --> D[计算Q与K的点积] D --> E[缩放] E --> F[应用Softmax] F --> G[与V相乘] G --> H[输出Attention结果]

Multi-Head Attention的结构

--- title: Multi-Head Attention结构 --- flowchart TD A[输入序列] --> B[线性变换W^Q] A --> C[线性变换W^K] A --> D[线性变换W^V] B --> E[Attention头1] C --> E D --> E B --> F[Attention头2] C --> F D --> F B --> G[Attention头h] C --> G D --> G E --> H[拼接] F --> H G --> H H --> I[线性变换W^O] I --> J[输出]

代码示例

以下是使用PyTorch实现Scaled Dot-Product Attention的代码示例：

import torch
import torch.nn.functional as F

class ScaledDotProductAttention(torch.nn.Module):
    def __init__(self, d_k):
        super(ScaledDotProductAttention, self).__init__()
        self.d_k = d_k
    
    def forward(self, Q, K, V, mask=None):
        # 计算注意力分数
        scores = torch.matmul(Q, K.transpose(-2, -1)) / (self.d_k ** 0.5)
        
        # 应用mask（可选）
        if mask is not None:
            scores = scores.masked_fill(mask == 0, -1e9)
        
        # 计算注意力权重
        attn_weights = F.softmax(scores, dim=-1)
        
        # 计算输出
        output = torch.matmul(attn_weights, V)
        
        return output, attn_weights

Attention机制的应用与重要性

Attention机制在深度学习领域有广泛的应用，包括：

机器翻译：允许模型在生成目标语言时关注源语言的相关部分
文本摘要：帮助模型识别输入文本中的重要部分
问答系统：使模型能够关注问题与答案之间的关联部分
图像描述生成：将注意力集中在图像的特定区域
语音识别：关注音频信号中的关键部分

Attention机制的重要性在于：

解决了长序列依赖问题
提供了可解释性（通过注意力权重）
实现了并行计算（与RNN相比）
成为Transformer架构的核心组件

权威外部文档链接

account_tree

思维导图

Interview AiBoxInterview AiBox — 面试搭档

不只是准备，更是实时陪练

Interview AiBox 在面试过程中提供实时屏幕提示、AI 模拟面试和智能复盘，让你每一次回答都更有信心。

免费下载 Interview AiBoxdownload 查看价格方案sell

AI 助读

一键发送到常用 AI

Attention机制是一种模拟人类认知注意力的技术，其核心数学公式为$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$。Scaled Dot-Product Attention通过计算查询和键的点积并缩放，然后应用softmax函数得到注意力权重，最后与值相乘得到输出。Multi-Head Attention扩展了这一概念，通过并行计算多个注意力头并拼接结果，使模型能够关注不同表示子空间的信息。Self-Attention是查询、键和值都来自同一输入的特殊形式，用于捕捉序列内部依赖关系。Attention机制在机器翻译、文本摘要等领域有广泛应用，是Transformer架构的核心组件。

智能总结

深度解读

考点定位

思路启发