HAN论文阅读与代码详解

2023-08-27 05:04:00

HAN学习

本文包含的代码，以及省略的工具类，批次训练代码都在我的Github仓库中https://github.com/wanli6/GNN_algorithm

文章目录

HAN学习
- 论文思路
- - 摘要
  - HAN模型
  - - 节点级别的注意力
    - 语义级别的注意力
- 代码实现

论文思路

摘要

本文首先提出了一种新的基于分层注意力的异构图神经网络，包括节点级和语义级的注意力。具体来说，节点级注意力旨在学习节点与其基于元路径的邻居之间的重要性，而语义级注意力能够学习不同元路径的重要性。通过学习节点级和语义级注意力的重要性，可以充分考虑节点和元路径的重要性。然后，所提出的模型可以以分层的方式通过基于源路径的邻居节点聚合特征来生成节点嵌入。

HAN模型

HAN模型使用分层的注意力结构：分为节点级别的注意力和语义级别的注意力。

节点级别：学习基于元路径的邻居的权重并聚合它们得到语义特定的节点嵌入。

语义级别：判断元路径的不同，并针对特定任务得到语义特定节点嵌入的最优加权组合。

下图为HAN的整体结构图。

HAN结构

节点级别的注意力

由于每个类型的节点具有不同类型的特征，于是本文设计了类型特定的**转换矩阵 $M_{\phi_{i}}$ **将不同类型的节点特征映射到同一个特征空间中。映射过程如下公式1：

$\mathbf{h}_i^{\prime}=\mathbf{M}_{\phi_i}\cdot\mathbf{h}_i$

$\mathbf{h}_i$ 和 $\mathbf{h}_{i}^{\prime}$ 分别为节点 $i$ 的原始特征和映射后的特征
经过映射之后，节点级别的注意力机制可以处理任意类型的节点。

接着，本文使用自我注意力学习各种类型节点的权重，给定一个节点对 $(i, j)$ ，他们是通过元路径 $\Phi$ ， $e_{ij}^{\Phi}$ 代表节点 $j$ 对节点 $i$ 的重要性。如下公式2

$e_{ij}^{\Phi}=att_{node}(\mathbf{h}_i^{\prime},\mathbf{h}_j^{\prime};\Phi)$

这里的 $att_{node}$ 表示执行节点级注意力的深度神经网络
对于指定的 $\Phi$ , $att_{node}$ 是共享的
$e_{ij}^{\Phi}$ 不是对称的

然后，通过隐蔽注意力将结构信息注入模型（只需要对 $j\in\mathcal{N}_{i}^{\Phi}$ 计算 $e_{ij}^{\Phi}$ ）, $\mathcal{N}_{i}^{\Phi}$ 代表节点 $i$ 基于元路径的邻居（包括自己），然后通过softmax函数进行归一化得到重要性系数 $\alpha_{ij}^{\Phi}$ 。如下公式3

$\alpha_{ij}^{\Phi}=softmax_{j}(e_{ij}^{\Phi})=\frac{\exp(\sigma(\mathbf{a}_{\Phi}^{\mathrm{T}}\cdot[\mathbf{h}_{i}^{\prime}\|\mathbf{h}_{j}^{\prime}]))}{\sum_{k\in\mathcal{N}_{i}^{\Phi}}\exp(\sigma(\mathbf{a}_{\Phi}^{\mathrm{T}}\cdot[\mathbf{h}_{i}^{\prime}\|\mathbf{h}_{k}^{\prime}]))}$

$\sigma$ 代表激活函数， $∣∣$ 代表级联
$\mathbf{a}_{\Phi}$ 是元路径 $\Phi$ 对应的节点级别注意力向量

然后，节点 $i$ 的基于元路径的嵌入可以通过邻居的映射后的特征根据重要性系数进行聚合决定。如下公式4

$\mathbf{z}_i^\Phi=\sigma\bigg(\sum_{j\in\mathcal{N}_i^\Phi}\alpha_{ij}^\Phi\cdot\mathbf{h}_j'\bigg)$

$\mathbf{z}_i^\Phi$ 就是学习到的嵌入向量

由于异构图具有无标度特性，因此图数据的方差很大。为了解决上述挑战，我们将节点级注意力扩展到多头注意力，使训练过程更加稳定。如下公式5

$\mathbf{z}_{i}^{\Phi}=\prod\limits_{k=1}^{K}\sigma\bigg(\sum\limits_{j\in\mathcal{N}_{i}^{\Phi}}\alpha_{ij}^{\Phi}\cdot\mathbf{h}_{j}'\bigg)$

对于元路径集 $\{\Phi_{1},\ldots,\Phi_{P}\}$ ，在节点的特征经过节点级别注意力之后，我们可以得到 $P$ 组语义特定的节点特征，为 $\left\{\mathbf{Z}_{\Phi_{1}},\ldots,\mathbf{Z}_{\Phi_{P}}\right\}$

语义级别的注意力

异构图中的每个节点通常包含多种类型的语义信息，语义特定的节点嵌入只能从一个方面反映节点。为了学习一个更全面的节点嵌入，我们需要融合多种语义，这些语义可以通过元路径来揭示。为了应对异构图中的元路径选择和语义融合挑战，作者提出了一种新颖的语义级注意力机制，用于自动学习不同元路径的重要性，并将它们融合到特定任务中。

将节点级注意力得到的 $P$ 组语义特定的节点嵌入作为输入，每个元路径的权重可以被描述如下公式6：

$(\beta_{\Phi_1},\ldots,\beta_{\Phi_P})=att_{sem}(\mathrm{Z}_{\Phi_1},\ldots,\mathrm{Z}_{\Phi_P})$

为了学习每个元路径的重要性，首先通过非线性变换（例如，单层MLP）变换语义特定的嵌入向量

然后，我们通过变换嵌入与语义级注意向量 $\mathbf q$ 的相似性度量语义特定嵌入的重要性。此外，对所有语义特定节点嵌入的重要性进行平均，这可以解释为每个元路径的重要性。如下公式7

$w_{\Phi_{p}}=\frac{1}{|\mathcal{V}|}\sum_{i\in\mathcal{V}}\mathbf{q}^{\mathrm{T}}\cdot\tanh(\mathbf{W}\cdot\mathbf{z}_{i}^{\Phi_{p}}+\mathbf{b})$

$\mathbf W$ 是权重矩阵， $\mathbf b$ 是偏置向量， $\mathbf q$ 是语义级别的注意力向量
上边的参数都是所有元路径共享的

在得到每个元路径的重要性后，通过softmax函数对它们进行归一化。如下公式8

$\beta_{\Phi_p}=\frac{\exp(w_{\Phi_p})}{\sum_{p=1}^{P}\exp(w_{\Phi_p})}$

这可以解释为每个元路径在特定任务中的贡献

使用学习的权重作为系数，我们可以融合这些语义特定的嵌入以获得最终的嵌入。如下公式9

$Z=\sum_{p=1}^{P}\beta_{\Phi_{p}}\cdot Z_{\Phi_{p}}$

然后，我们可以将最终的嵌入应用于特定的任务，并设计不同的损失函数。

比如，对于半监督的节点分类任务，可以使用交叉熵损失函数。如下公式10

$L=-\sum\limits_{l\in\mathcal{Y}_{L}}\mathrm{Y}^{l}\ln(\mathrm{C}\cdot\mathrm{Z}^{l})$

节点级别的注意力和语义级别的注意力聚合过程图示：

节点级别的注意力和语义级别的注意力聚合过程图示

HAN的整个过程：

HAN算法整个过程

代码实现

此模型具体的实现有两种方式：主要区别在于对数据集的处理以及基于元路径邻居的获取。

直接读取作者处理过的数据集, 可以直接获取基于不同元路径的图
dgl可以通过metapath_reachable_graph方法从一个异质图以及给定的元路径获取源路径的可达图

实现的具体思路相同，下边以第二种方式为例，给出代码（注释中详细解释了实现的思路和过程）:

下列代码中用到的其他工具类可以在Github仓库中找到

import dgl
import torch
import torch.nn as nn
import torch.nn.functional as Ffrom dgl.nn.pytorch import GATConv"""
注释中的字母代表的含义：
N : 节点数量
M : 元路径数量
D : 嵌入向量维度
K : 多头注意力总数
"""class SemanticAttention(nn.Module):def __init__(self, in_size, hidden_size=128):super(SemanticAttention, self).__init__()# 语义层次的注意力# 对应论文公式（7），最终得到每条元路径的重要性权重self.projection = nn.Sequential(nn.Linear(in_size, hidden_size),nn.Tanh(),nn.Linear(hidden_size, 1, bias=False))def forward(self, z):# 输入的z为(N, M, K*D)# 经过映射之后的w形状为 (M , 1)w = self.projection(z).mean(0)# beta (M ,1)beta = torch.softmax(w, dim=0)# beta (N, M, 1)beta = beta.expand((z.shape[0],) + beta.shape)# (N, D*K)return (beta * z).sum(1)class HANLayer(nn.Module):"""meta_paths : list of metapaths, each as a list of edge typesin_size : input feature dimensionout_size : output feature dimensionlayer_num_heads : number of attention headsdropout : Dropout probability"""def __init__(self,meta_paths,in_size,out_size,layer_num_heads,drop_out):super(HANLayer, self).__init__()self.gat_layers = nn.ModuleList()for i in range(len(meta_paths)):# 使用GAT对应的GATConv层，完成节点层面的注意力# 之所以能够之间使用GATConv,是因为在forward中生成了每个元路径对应的可达图# 那么在进行节点级注意力的时候，节点的所有邻居都是它基于元路径的邻居# 节点级注意力以及聚合的过程就等同于GATConv的过程self.gat_layers.append(GATConv(in_size,out_size,layer_num_heads,drop_out,drop_out,activation=F.elu,allow_zero_in_degree=True))# 语义级注意力层self.semantic_attention = SemanticAttention(in_size=out_size * layer_num_heads)self.meta_paths = list(tuple(meta_path) for meta_path in meta_paths)# 缓存图self._cached_graph = None# 缓存每个元路径对应的可达图self._cached_coalesced_graph = {}def forward(self, g, h):semantic_embeddings = []if self._cached_graph is None or self._cached_graph is not g:self._cached_graph = gself._cached_coalesced_graph.clear()# 存储每个元路径对应的元路径可达图for meta_path in self.meta_paths:self._cached_coalesced_graph[meta_path] = dgl.metapath_reachable_graph(g, meta_path)for i, meta_path in enumerate(self.meta_paths):new_g = self._cached_coalesced_graph[meta_path]semantic_embeddings.append(self.gat_layers[i](new_g, h).flatten(1))# 经过对每个元路径进行节点级聚合# semantic_embeddings 为一个长度为M的列表# 其中的元素为每个节点级注意力的输出，形状为(N, D*K)# 将该列表在维度1堆叠，得到所有元路径的节点级注意力# 形状为(N, M, D * K)semantic_embeddings = torch.stack(semantic_embeddings, dim=1)# 最终经过语义级注意力聚合不同元路径的表示，得到了该层的输出# 形状为(N, D * K)return self.semantic_attention(semantic_embeddings)class HAN(nn.Module):"""参数：meta_paths : 元路径，使用边类型列表表示in_size : 输入大小（特征维度）out_size : 输出大小（节点种类数）num_heads : 多头注意力头数（列表形式，对应每层的头数）dropout : dropout概率"""def __init__(self, meta_paths, in_size, hidden_size, out_size, num_heads, dropout):super(HAN, self).__init__()self.layers = nn.ModuleList()# 第一个HAN层的输入输出需要单独定义self.layers.append(HANLayer(meta_paths, in_size, hidden_size, num_heads[0], dropout))# 从第二个HAN层开始，每一个层的输入都是hidden_size * 上一个层的头数# 输出大小为 hidden_size * 当前层的头数for l in range(1, len(num_heads)):self.layers.append(HANLayer(meta_paths,hidden_size * num_heads[l - 1],hidden_size,num_heads[l],dropout,))# 最终的输出层self.predict = nn.Linear(hidden_size * num_heads[-1], out_size)def forward(self, g, h):for gnn in self.layers:h = gnn(g, h)return self.predict(h)

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > SeqSlam论文阅读和实验
下一篇 > 基于ChatGPT来做NLP任务的相关论文

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce