GAT图注意力网络

GAT(Graph Attention Networks)，加入了注意力机制的图神经网络，与GCN不同的是，其消息传递的权重是通过注意力机制得到。GAT的计算过程：aij=softmaxjeijexp(eij)Σk∈Niexp(eik)a_{ij}=softmax_{j}e_{ij}\frac{exp(e_{ij})}{\Sigma_{k∈N_i}exp(e_{ik})}aij=softmaxj

十年前的海苔

4507人浏览 · 2021-11-30 15:59:39

十年前的海苔 · 2021-11-30 15:59:39 发布

GAT(Graph Attention Networks)，加入了注意力机制的图神经网络，与GCN不同的是，其消息传递的权重是通过注意力机制得到。
GAT的计算过程：
$aij=softmaxjeijexp(eij)Σk∈Niexp(eik)a_{ij}=softmax_{j}e_{ij}\frac{exp(e_{ij})}{\Sigma_{k∈N_i}exp(e_{ik})}$ （1）
$e_{ij}=LeakyReLU(α^T[Wh_i||Wh_j])$ （2）
下面来详细解析这个公式
在这里插入图片描述
$a_{ij}$ 代表的是节点j传递到节点i时要乘上的权重
$h_i$ 和 $h_j$ ；是当前输入层的节点i和节点j的特征表示， $W$ 是线性变换矩阵，形状是 $W∈R^{F×F'}$ ，其中F就是输入特征的维度。F’是输出特征的维度。
||是向量拼接操作，原本维度为F的 $h_i$ 与 $h_j$ ；经过 $W$ 线性变换后维度均变为 $F^{'}$ ，经过拼接后得到维度为2F’的向量。此时再点乘一个维度为2F’的单层矩阵 $α\alpha$ 的转置，然后经LeakyReLU激活后得到1维的 $e_{ij}$
得到所有的 $e_{ij}$ 后，再进行softmax操作，得到注意力权重 $a_{ij}$

那么LeakyReLU函数是什么？
$ReLU(x)={x,x≥00,x<0ReLU(x)=\begin{cases} x, x ≥ 0\\ 0, x < 0 \\ \end{cases}$
$LeakyReLU(x)={x,x≥0αx,x<0LeakyReLU(x)=\begin{cases} x, x ≥ 0\\ \alpha x, x < 0 \\ \end{cases}$
在这里插入图片描述
ReLU函数属于“非饱和激活函数”，由公式可见ReLU就是将所有负值都设为0。如果大多数的参数都为负值，那么显然ReLU的激活能力会大大折扣。
LeakyReLU在负值部分赋予了一个负值斜率 $α\alpha$ 。如此一来负值是会根据 $α\alpha$ 的值变化，而不会都为0。
LeakyReLu又衍生出了：PReLU（parametric rectified inear参数化线性修正），负值斜率由训练数据决定的RReLU（randomized rectified linear随机线性修正），负值斜率是在一个范围内随机取值，且会在训练过程中随机变化。

在这里插入图片描述
计算节点的在当前GAT网络层的输出向量 $h_{i}'$ ，即可描述为：
$hi′=σ(Σj∈NiαijWhj)h_{i}'=\sigma(\Sigma_{j∈N_i}\alpha_{ij}Wh_{j})$ (3)
其中 $σ(⋅)\sigma(·)$ 代表任意激活函数， $N_i$ 代表节点i的一阶邻居集， $W$ 与注意力计算中的 $W$ 是一样的。到这就是一个消息传递，并用加权求和的方式进行消息聚合的计算过程。
在GAT中，我们可以进行多次消息传递操作，然后将每次得到的向量拼接或者求平均。这称之为多头注意力(Multi-Head Attention)，请看如下公式：
（GAT的论文中建议在GAT网络中间的隐藏层采取拼接操作，而最后一层采取平均操作。）
拼接每一层单头消息传递得到的向量：
在这里插入图片描述
平均每一层单头消息传递得到的向量：

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【愚公系列】《人工智能70年》042-数据科学崛起（造就神奇的数据科学）

2048 AI社区

深度研究框架 ByteDance DeerFlow

DeerFlow是字节跳动开源的多模态AI研究框架，集成了文本分析、代码执行、图像/音频合成等功能。其核心采用LangGraph构建的多代理系统，包含协调器、研究员、程序员等角色，支持从信息收集到报告生成的完整研究流程。项目已商业化部署至火山引擎，提供在线服务和技术文档生成等企业级应用。技术栈基于Python 3.12+和FastAPI，整合了LiteLLM、多种搜索引擎及私有知识库，具备模块化扩

2048 AI社区

云计算C++服务的内存分配器调优

类型感知分配：根据对象大小选择分配策略（<256B用内存池，>4KB用直接分配）高并发分配压力：单服务实例需处理每秒数万次内存请求，默认分配器成为瓶颈。内存碎片累积：长期运行后碎片率可达30%，导致分配延迟增加。AI预测分配：通过机器学习预测内存需求，预分配热点数据。安全隔离：内存分配器与机密计算结合，实现TEE内存隔离。内存绑定策略：通过numa_node控制内存分配位置。异构内存管理：结合PM