GATConv

论文名称：Graph Attention Networks论文地址：https://arxiv.org/abs/1710.10903本文介绍GATs算法，它是一种对当前网络结构的一种创新，使用masked self-attention layers解决当前图卷积的不足。通过stacking layers能够聚合邻居节点的特征，不需要进行复杂的矩阵运算和图结构的先验知识。通过这种方式，我们解决spe

Rory602

5414人浏览 · 2022-02-01 18:10:09

Rory602 · 2022-02-01 18:10:09 发布

论文名称：Graph Attention Networks

论文地址：https://arxiv.org/abs/1710.10903

本文介绍GATs算法，它是一种对当前网络结构的一种创新，使用masked self-attention layers解决当前图卷积的不足。通过stacking layers能够聚合邻居节点的特征，不需要进行复杂的矩阵运算和图结构的先验知识。通过这种方式，我们解决spectral-based graph一些挑战，使得我们模型适用于inductivte和tansductive任务。

1.GAT ARCHITECTURE

接下来，我们介绍一下graph attention networks的block layer（可以进行 stack），以及他们相关理论集实践中好处、相对于之前工作一些限制。

1.1 GRAPH ATTENTIONAL LAYER

接下来，介绍一下graph attentional layer。

输入一组节点特征 $h={h⃗1,h⃗2,…,h⃗N},h⃗i∈RF\mathbf{h}=\left\{\vec{h}_{1}, \vec{h}_{2}, \ldots, \vec{h}_{N}\right\}, \vec{h}_{i} \in \mathbb{R}^{F}$ ，其中 $N$ 是指node的数量， $F$ 是每个node特征的数量。经过该层，会输出新的节点特征集合 $h′={h⃗1′,h⃗2′,…,h⃗N′},h⃗i′∈RF′\mathbf{h}^{\prime}=\left\{\vec{h}_{1}^{\prime}, \vec{h}_{2}^{\prime}, \ldots, \vec{h}_{N}^{\prime}\right\}, \vec{h}_{i}^{\prime} \in \mathbb{R}^{F^{\prime}}$ 。

将输入特征转化为输出特征，为了获得更高的特征表达，我们至少进行可学习的线性转换。为了实现这个目的，我们初始化、共享一个weight matrix $W∈RF′×F\mathbf{W} \in \mathbb{R}^{F^{\prime} \times F}$ ,应用到每个node上。然后，我们对节点进行self-attention，这个self attention机制 $a$ 是共享的: $RF′×RF′→R\mathbb{R}^{F^{\prime}} \times \mathbb{R}^{F^{\prime}} \rightarrow \mathbb{R}$ , attention coefficients计算方式如下：
$e_{i j}=a\left(\mathbf{W} \vec{h}_{i}, \mathbf{W} \vec{h}_{j}\right)\tag{1}$
该值意味着node $j$ 的特征对node $i$ 的重要性。通常来说，如果不考虑结构信息，模型需要对计算所有节点对该节点的权重。我们考虑了图的结构信息，加入masked attention, 我们只计算 $e_{ij}$ , 其中 $j∈Nij\in\mathcal{N_i}$ , $Ni\mathcal{N}_i$ 指node $i$ 的邻居节点。在我们的实验中，我们只考虑节点 $i$ 的一阶邻居(包括节点 $i$ 自己)，为了使得不同邻居节点 $j$ 可以比较，我们对其进行softmax操作：
$\alpha_{i j}=\operatorname{softmax}_{j}\left(e_{i j}\right)=\frac{\exp \left(e_{i j}\right)}{\sum_{k \in \mathcal{N}_{i}} \exp \left(e_{i k}\right)}\tag{2}$
我们对其进行扩展，使用的注意力机制 $a$ 是单层前向的神经网络，使用的参数化矩阵 $a→∈R2F2\overrightarrow{\mathrm{a}} \in \mathbb{R}^{2 F^{2}}$ ，采用LeakyReLu非线性变换(with negative input slope $α=0.2\alpha=0.2$ )，如Figure 1（left）所示，公式如下：
$\alpha_{i j}=\frac{\exp \left(\operatorname{LeakyReLU}\left(\overrightarrow{\mathbf{a}}^{T}\left[\mathbf{W} \vec{h}_{i} \| \mathbf{W} \vec{h}_{j}\right]\right)\right)}{\sum_{k \in \mathcal{N}_{i}} \exp \left(\operatorname{LeakyReLU}\left(\overrightarrow{\mathbf{a}}^{T}\left[\mathbf{W} \vec{h}_{i} \| \mathbf{W} \vec{h}_{k}\right]\right)\right)}\tag{3}$
其中 $⋅T\cdot ^T$ 代表转置， $∥\|$ 代表concatenation操作

在这里插入图片描述

我们将标准化的attention权重系数对邻居特征进行线性组合，使用 $σ\sigma$ 进行非线性变换，生成每个节点的最终特征：
$\vec{h}_{i}^{\prime}=\sigma\left(\sum_{j \in \mathcal{N}_{i}} \alpha_{i j} \mathbf{W} \vec{h}_{j}\right)\tag{4}$
为了使得模型的效果更加稳定，我们对attention机制进行扩展，使用multi-head attention. $K$ 个独立的attention机制进行类似Equation 4的转换，然后将特征进行拼接，得到输出特征：
$\vec{h}_{i}^{\prime}=\|_{k=1}^{K} \sigma\left(\sum_{j \in \mathcal{N}_{i}} \alpha_{i j}^{k} \mathbf{W}^{k} \vec{h}_{j}\right)\tag{5}$
其中， $∥\|$ 表示concatention， $αijk\alpha_{ij}^k$ 表示 $k-thk\text{-th}$ attention机制的标准化权重系数， $W^k$ 是指进行线性转化的权重矩阵。最后每个节点输出 $h′h^\prime$ ，特征的维度是 $KF′KF^\prime$ 而不是 $F′F^\prime$ 。

如果我们在最后一层使用multi-head attention，concatenation就毫无意义了，取而代之，我们一般使用averaging，然后进行非线性变换：
$\vec{h}_{i}^{\prime}=\sigma\left(\frac{1}{K} \sum_{k=1}^{K} \sum_{j \in \mathcal{N}_{i}} \alpha_{i j}^{k} \mathbf{W}^{k} \vec{h}_{j}\right)\tag{6}$
multi-head的汇总过程如Figure 1（right）。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

激光三角测量原理详解

激光三角测量是3D AOI的核心技术，通过激光反射和三角几何实现高精度3D形貌重建，广泛用于半导体晶圆、封装和MEMS检测。其亚微米分辨率和非接触特性使其成为7nm/5nm工艺和先进封装（如Chiplet）的理想选择。未来，AI和多波长激光将进一步提升其性能。若需更详细的实现（如硬件接口、PCL集成或AI模型）或具体半导体场景分析，请提供更多细节，我可进一步扩展！

2048 AI社区

半导体封装技术详解

电气连接：通过引线、焊球或硅通孔（TSV）连接芯片与外部电路。机械保护：保护芯片免受物理损伤、湿气和污染。热管理：通过散热结构（如热沉）管理芯片运行时的热量。小型化与集成：支持高性能、小尺寸和高集成度需求。根据行业数据，2022年全球半导体封装市场规模约500亿美元，预计2025年达700亿美元，年复合增长率（CAGR）约12%。中国封装市场占全球约30%，受益于5G、AI和汽车电子需求增长。