Transformer学习（2）：自注意力机制

自注意力机制是规定了数据自身来作为查询对象与被查询对象。

Life1213

1298人浏览 · 2024-09-12 17:20:43

Life1213 · 2024-09-12 17:20:43 发布

回顾

注意力机制

在这里插入图片描述

自注意力机制

在这里插入图片描述

自注意力机制中同样包含QKV，但它们是同源(Q≈K≈V)，也就是来自相同的输入数据X，X可以分为 $x_1,x_2,..,x_n)$ 。
而通过输入嵌入层(input embedding)， $x_1,x_2,..,x_n)$ 变为 $a_1,a_2,..,a_n)$ 这些向量，通过X来寻找X中的关键点。

而对于每个 $a_i$ 都会有对应 $q_i,k_i,v_i$ ，Q不再是共用的。
$Q = \{q_1,q_2,...,q_n\};K = \{k_1,k_2,...,k_n\};V = \{v_1,v_2,...,v_n\}$

在自注意力机制中，以输入数据X自身中的 $x_i$ 作为查询对象(注意力机制中的Q），自身的其他 $x$ 作为被查询对象V。也就是自己作为查询与被查询对象。

计算过程

① 计算QKV：
要得到QKV，则需要使用三个参数 $W_Q,W_K,W_V$ ，这三个参数都是可训练的，而且所有 $a$ 共享。
公式：
$q_i = a_i*W_Q$
$k_i = a_i*W_K$
$v_i = a_i*W_V$

在这里插入图片描述
而这个计算过程可以写为矩阵乘法，实现并行计算。

② 计算Q与K相似度（概率）：
每个 $q_i$ 都有一次作为查询对象，所有的 $k$ 计算与其的相似度（与它相同的概率）。
计算相似度的方法与注意力机制是相同，都是q与k进行点乘与scale得到相似度，其中 $d_k$ 为k的尺寸，也就是向量 $k$ 包含多少个数据。
在这里插入图片描述

计算过程如图所示，每个 $q_i$ 都计算与所有 $k$ 的相似度，相当于得到了每个个体都得到自己与其他个体的相似度。
由于相乘得到的值处于正负无穷之间，因此对结果使用Softmax来转换为概率，以此作为权重，代表对应的V在求和中的比重，代表其重要性。

计算过程也可以表示为矩阵运算
在这里插入图片描述

③ 汇总权重，得到包含注意力信息的结果
计算出Q与K的相似度，也就是得到了对于 $q_i$ ，各个 $v_i$ 的权重。
得到与每个个体的相似度后，就可以根据相似度融合所有个体的信息，来得到新的个体特征，也就是新的V。
因此，最后将得到的权重 $a^\widehat{a}$ 与每个 $v_i$ 进行点乘运算再将结果相加，就可以得到包含了对于 $q_i$ l来说哪些重要与不重要的数据 $b_i$ ，然后用 $b_i$ 来代替 $a_i$
在这里插入图片描述
计算过程也可以转换为矩阵运算

与注意力机制的不同

注意力机制是一个很宽泛（宏大）的一个概念，QKV 相乘就是注意力，但是他没有规定 QKV是怎么来的，他只规定 QKV 怎么做。
Q 可以是任何一个东西，V 也是任何一个东西， K往往是等同于 V 的（同源），K和 V 不同源不相等可不可以。

而自注意力机制，特别狭隘，属于注意力机制的，注意力机制包括自注意力机制的，他不仅规定了 QKV 同源，而且固定了 QKV 的做法，规定了QKV是如何得到的。

总结

自注意力机制是规定了数据自身来作为查询对象与被查询对象。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

电商数据分析的智能化新趋势

本文章旨在深入探讨电商数据分析的智能化新趋势，详细剖析智能化技术在电商数据分析中的应用原理、方法和实际效果。范围涵盖电商数据的采集、处理、分析以及基于分析结果的商业决策支持等各个环节，同时涉及人工智能、机器学习、深度学习等相关技术在电商数据分析中的具体应用。本文将按照以下结构展开：首先介绍电商数据分析智能化的核心概念和它们之间的联系，通过文本示意图和Mermaid流程图进行直观展示；接着阐述核心算

2048 AI社区

对于想深入学习 Linux 的人来说，掌握 Unix 思想有多重要？

本书共分为 20章，内容涵盖了部署Linux系统，常用的Linux 命令，与文件读写操作有关的技术，使用Vim编辑器编写和修改配置文件，用户身份与文件权限的设置，硬盘设备分区、格式化以及挂载等操作，部署RAID磁盘阵列和LVM，使用firewalld防火墙保障网络安全，使用。实际上，对普通用户而言，开源共享精神仅具备锦上添花的效果，真正重要的是 Linux 系统本身的优秀质量，它提供了类似 UNI

2048 AI社区

某零售企业AI创新实验室实战：AI应用架构师的库存预测架构设计

想象一下，你经营着一家大型零售超市，货架上摆满了琳琅满目的商品。每天，顾客们穿梭其中，挑选着自己心仪的物品。然而，对于超市的运营者来说，这看似繁荣的场景背后却隐藏着巨大的挑战。如果库存过多，商品积压不仅占用大量资金，还可能因过期或款式过时造成损失；要是库存不足，顾客想买却买不到，就会导致销售额下降，甚至可能让顾客从此转向竞争对手。这就好比在走钢丝，保持库存的平衡至关重要。

2048 AI社区

所有评论(0)

查看更多评论

Life1213

@Life1213

已为社区贡献3条内容