PyTorch图神经网络实践(三)使用基准图数据Cora进行半监督节点分类

文章目录

基准图数据

Pythorch Geometric还包含大量常见的基准数据集,例如Planetoid数据集(包含Cora、Citeseer、Pubmed三个子数据集),来自http://graphkernels.cs.tu-dortmund.de的图分类数据集及其清理后的版本,也就是QM7和QM9数据集,以及一些3D网格/点云数据集,如FAUST、ModelNet10/40和ShapeNet等。

初始化数据集很简单。数据集的初始化将自动下载其原始文件并将其处理为先前描述的数据格式。下面以半监督节点分类任务中常见的Cora数据集为例进行介绍。

Cora数据集

如下所示,Cora数据集中只有一个图,该图包含2708个节点,10556条边,节点类别数为7,特征维数为1433。这里已经对Cora数据集进行了划分,分为了训练集、验证集和测试集。

《PyTorch图神经网络实践(三)使用基准图数据Cora进行半监督节点分类》

Cora数据集中,训练集、验证集和测试集分别包含140、500和1000个节点。这个数值是Planetoid的默认设置,训练集节点数量为每类选20个。下图就是源代码中参数的配置说明。

《PyTorch图神经网络实践(三)使用基准图数据Cora进行半监督节点分类》

具体看看train_mask、test_mask都长什么样子。
《PyTorch图神经网络实践(三)使用基准图数据Cora进行半监督节点分类》

然后看看节点特征和标签。x为节点特征矩阵,维度为2708*1433。y为节点标签向量,维度为2708,类别为7。

《PyTorch图神经网络实践(三)使用基准图数据Cora进行半监督节点分类》

用GCN进行半监督节点分类

接下来就可以构建一个简单的GCN模型,在Cora数据集上进行半监督节点分类。

下面的GCN模型包含两个图卷积层。第一层输入维度为1433(节点特征维度),输出为16(与第一层输出一致),后面接上一个relu激活函数,以及dropout操作。第二层输入维度为16,输出为7(节点标签数量),后接log_softmax函数进行分类。

《PyTorch图神经网络实践(三)使用基准图数据Cora进行半监督节点分类》

模型构建完成后,指定训练设备为GPU(没有的话就用CPU),注意这里默认使用的是0号cuda。如果cuda:0被占用了的话会报错,需要指定其他号码的cuda才能运行。然后,分别将GCN模型以及Cora图数据送入指定的设备。

优化器选择Adam,学习率设置为0.01,权重衰减设置为5e-4。这些都配置好以后就可以训练模型了,epoch设为200,每个epoch后清除上次的梯度信息,然后用nll_loss计算出训练集上的损失,调用backward函数计算出梯度后传回给Adam优化器进行参数更新。

《PyTorch图神经网络实践(三)使用基准图数据Cora进行半监督节点分类》

最后在测试集上评估模型,计算分类正确率accuracy并显示。

《PyTorch图神经网络实践(三)使用基准图数据Cora进行半监督节点分类》

至此,就完成了Cora数据集上的节点分类任务了。

参考文献与相关资料

PyTorch geometric-INTRODUCTION BY EXAMPLE
图卷积网络详细介绍(一)
图卷积网络详细介绍(三)
PyTorch官方中文文档:torch.optim 优化器参数
Pytorch详解NLLLoss和CrossEntropyLoss
pytorch损失函数之nn.CrossEntropyLoss()、nn.NLLLoss()
pytorch中backward()函数详解

    原文作者:Javy Wang
    原文地址: https://blog.csdn.net/DSTJWJW/article/details/108970507
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞