大模型中Attention的不同

本文对比了Cross-Attention与Self-Attention的区别及Cross-Attention中Q、K、V的含义。Self-Attention处理单个序列内部关系，Q/K/V来自同一序列，用于特征提取；Cross-Attention处理两个序列间关系，Q与K/V分属不同序列，用于信息对齐。

snakecy

672人浏览 · 2025-11-25 17:54:36

snakecy · 2025-11-25 17:54:36 发布

文章目录

Cross-Attention 与 Self-Attention 的区别

Self-Attention
Self-Attention（自注意力）是注意力机制的核心形式，用于处理单个序列内部的关系。它通过计算序列中每个元素与其他所有元素的相关性权重，动态聚合全局信息。

输入：单一序列（如文本中的词向量或图像中的像素块）。
计算方式：查询（Query）、键（Key）、值（Value）均来自同一序列。公式如下：
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
应用场景：Transformer 编码器（如 BERT）、图像分类中的 Vision Transformer。

Cross-Attention
Cross-Attention（交叉注意力）用于处理两个不同序列之间的关系，常见于多模态任务或编解码结构。

输入：两个不同序列（如源语言和目标语言的词向量）。
计算方式：Query 来自一个序列，Key 和 Value 来自另一个序列。公式与 Self-Attention 相同，但输入来源不同。
应用场景：机器翻译（解码器关注编码器输出）、图像描述生成（文本关注图像特征）。

关键差异

输入来源：Self-Attention 的 Q/K/V 来自同一序列；Cross-Attention 的 Q 与 K/V 分属不同序列。
功能目标：Self-Attention 捕捉序列内部依赖；Cross-Attention 建立序列间关联。
典型应用：Self-Attention 用于特征提取；Cross-Attention 用于信息对齐（如翻译中的源-目标对齐）。

代码示例

# Self-Attention 示例  
self_attn = nn.MultiheadAttention(embed_dim, num_heads)  
output, _ = self_attn(query=x, key=x, value=x)  

# Cross-Attention 示例  
cross_attn = nn.MultiheadAttention(embed_dim, num_heads)  
output, _ = cross_attn(query=seq1, key=seq2, value=seq2)