图卷积神经网络GCN之链路预测

使用pytorch 的相关神经网络库，手动编写图卷积神经网络模型(GCN)，并在相应的图结构数据集上完成链路预测任务。

m0_61142248

7464人浏览 · 2023-04-11 20:52:04

m0_61142248 · 2023-04-11 20:52:04 发布

使用pytorch 的相关神经网络库，手动编写图卷积神经网络模型(GCN)，并在相应的图结构数据集上完成链路预测任务。本次实验的内容如下：

实验准备：搭建基于GPU的pytorch实验环境。
数据下载与预处理：使用torch_geometric.datasets、torch_geometric.loader所提供的标准数据接口Planetoid、PPI、DataLoader，将原始数据处理为方便模型训练脚本所使用的数据结构。
图网络模型：手动搭建GCN模型。
链路预测：在给定数据集上按照链路预测任务的需求自行划分训练集、验证集、测试集，并用搭建好的GCN模型进行链路预测。
模型训练：在给定数据集上训练模型并分析结果。

对应的源代码下载链接：

https://download.csdn.net/download/m0_61142248/87657680

1.搭建实验环境

搭建GPU版Pytorch实验环境如下：

名称	版本	备注
Python	3.8
Pytorch	1.12.1
GPU	RTX2060	安装对应版本的cuda

2.图网络模型搭建

参考GCN论文，GCN的核心原理公式为 $H^{l+1}=\sigma\left ( D^{1/2}AD^{-1/2}H^{l}W^{l} \right )$ 。因为邻接矩阵在迭代的每一步都是相同的，可以将上述公式中不变的部分提取出来提前处理，迭代过程中只计算变化部分，从而减少运算量。因此将上述公式分解为两步：

$A=D^{^{1/2}}AdjD^{-1/2}$
$H^{l+1}=AH^{l}W^{l}$

其中， $Adj$ 是图的原始邻接矩阵，D是度矩阵，的运算在网络模型训练前实现，A是经过处理后的邻接矩阵。

在图数据的处理中实现 $A=D^{^{1/2}}AdjD^{-1/2}$ 计算，代码如下：

在网络模型中只实现 $H^{l+1}=AH^{l}W^{l}$ ，另外需要定义模型参数W等初始化参数以及forward函数。本次实验要求对自环、层数、 DropEdge、PairNorm、激活函数等因素分析，因此在模型中加入了这些参数，另外模型中的in_features和out_features分别表示输入特征维度和输出特征维度。代码如下：

子函数reset_parameters代码如下：

forward函数实现 $H^{l+1}=AH^{l}W^{l}$ 计算，其中input为输入特征，adj为输入邻接矩阵（经过运算处理），bias是偏置项，output为输出。具体代码如下：

此外，参考了PairNorm和DropEdge的论文和代码来实现PairNorm和DropEdge函数。具体代码如下：

PairNorm：

DropEdge：

3.链路预测模型搭建

在链路预测中使用的基础GCN模型与节点分类任务相同，链路预测任务的模型采用了GAE网络模型。GAE网络模型包含一个由多层GCN组成的编码器和一个内积运算组成的解码器，其中GCN基础层与前述节点分类中提到的GCN网络相同。GAE网络模型的具体实现代码如下：

GAE网络初始化部分：

编码器与解码器:

4.Cora、Citeseer数据集预处理

数据读取，根据实验任务参数，分别读取cora和citeseer数据集。

数据集划分，在每个数据集的图中存在的链接数往往都是远小于不存在的链接数的，即图中的正样本数量远小于负样本数量。为了使模型训练较为均衡，通常先将正样本分为训练集、验证集和测试集，然后再分别从三个数据集中采样等同数量的负样本参与训练、验证以及测试。这里使用RandomLinkSplit函数将图随机划分为训练集、验证集和测试集，比例为0.8：0.1：0.1。add_negative_train_samples为False表示不对训练集进行负采样，只对测试集和验证集进行负采样，每个子集的正负样本比例为1：1。训练集的负样本在训练时采集。

邻接矩阵处理：

5.训练与分析

依据实验要求对不同参数进行了测试分析。虽然不同参数配置下可以通过调整学习率等超参数来提高性能。但为了便于比较，训练时采取了只变动比较项，其余部分参数固定的方法来分析单个因素对模型性能的影响。其中所有测试下都固定不变的参数如下表所示：

固定不变的训练参数

测试了GCN层数为2、4、8、16、32层时图网络模型在Cora、Citeseer和PPI数据集上的分类性能以及自环、batch_norm、PairNorm和激活函数等因素对分类性能的影响。

在Cora数据集和Citeseer数据集的实验中，使用Adam优化器。学习率初始值为0.01，采用了多步衰减策略，参数为“milestones=[150, 250, 350], gamma=0.5”。损失函数使用torch.nn.functional中的nll_loss。性能评价指标为acc。

最终得到的最佳的性能和对应的训练参数如下：

名称	lr	weight_decay	hidden	lradjust	dropout	epochs
数值	0.01	5e-3	256	Ture	0.8	400

测试了GCN层数为2、4、8、16、32层时图网络模型在Cora和Citeseer数据集上的分类性能以及自环、batch_norm、PairNorm和激活函数等因素对分类性能的影响。

在Cora数据集和Citeseer数据集的实验中，使用Adam优化器。学习率初始值为0.01，采用了多步衰减策略，参数为“milestones=[150, 250, 350], gamma=0.5”。损失函数使用“torch.nn.BCEWithLogitsLoss()”。性能评价指标为auc。

对于数据集cora，在测试集上获得的分类acc指标为0.936，设置训练参数如下：

名称	lr	weight_decay	hidden	lradjust	dropout	epochs
数值	0.01	5e-3	256	Ture	0.8	100
名称	num_layers	add_self_loops	add_bn	use_pairnorm	drop_edge	activation
数值	4	FALSE	TRUE	None	1	linear

对于数据集citeseer，在测试集上获得的分类acc指标为0.946，设置训练参数如下：

名称	lr	weight_decay	hidden	lradjust	dropout	epochs
数值	0.01	5e-3	256	Ture	0.8	100
名称	num_layers	add_self_loops	add_bn	use_pairnorm	drop_edge	activation
数值	4	FALSE	TRUE	None	1	linear

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

具备 agent 能力：工具调用，浏览器操作等能力的开源 LLM 可以本地部署（48GB）

✅ 原生支持✅ 对非常稳定✅ 中文 + 英文 Agent 表现都极强✅ 官方文档明确支持 Agent 场景✅ 和 LangChain / LangGraph / AutoGen / CrewAI 适配成熟若您主要需要浏览器自动化，可选择Fara‑7B或AutoWebGLM。若您需要完整的 Agent 能力（工具调用、浏览器操作、代码解释等），推荐，它在 48GB 显存下资源利用最均衡。若您专注 A

2048 AI社区

项目分享|PaddleOCR 3.x：引领工业级OCR与文档AI的全新范式

2048 AI社区

「Datawhale」RAG技术全栈指南 Task 2

本文介绍了文档处理中的两个关键环节：数据加载和文本分块。数据加载部分详细说明了如何将各种格式文档转换为结构化数据，并提供了Unstructured工具的使用示例及常见错误解决方法。文本分块部分阐述了分块的必要性（如模型长度限制）、常见策略（固定大小、递归字符、语义分块等）以及工具应用（Unstructured、LlamaIndex）。文章强调应根据文档特点选择合适分块方式，避免过大分块导致信息模糊