基于改进图Transformer模型的节点分类方法、系统、设备及产品

专利2025-04-25  15


本发明属于图机器学习、图数据挖掘,涉及一种图transformer模型的节点分类方法、设备及产品,具体涉及一种基于改进图transformer模型的节点分类方法、设备及产品。


背景技术:

1、图数据在现实世界中普遍存在,从社交网络中人与人之间的互动,到交通网络中城市间的连通性;从互联网的庞大链接结构,到分子和蛋白质在生物学中的相互作用,都可以用图的形式来表示。图数据的普遍性和重要性激发了图数据挖掘的迫切研究需求。节点分类任务是众多图数据挖掘任务中核心且基础的任务之一,在这一任务中,需要根据节点的特征以及其在图中的邻居节点信息等来预测该节点的类别,社交网络中的用户分类就是一个典型的例子,通过分析用户的社交关系网络和个人特征,可以预测用户的兴趣、职业等信息。

2、目前,图卷积神经网络和图transformer模型是解决上述任务的两个主要研究方向。其中,得益于自注意力机制的引入,图transformer模型相比图卷积神经网络,能够更有效地捕捉图中的全局信息和长距离关系依赖,进而拥有更强的图数据分析处理能力。

3、然而现有的图transformer模型通常在输入的整张图上采用全连接的自注意力计算机制,该机制要求模型对输入图的每个节点与其它所有节点进行计算,这导致模型的计算复杂度与图节点数的二次方成正比,这种高计算复杂度对计算资源提出了较高的要求,严重限制了图transformer模型在大型图数据场景下的节点分类任务上的应用。

4、此外,全连接的自注意力机制在处理节点时等同于将输入图视为一张完全连接的图,即每个节点都需要融合来自图中其它所有节点的信息。虽然这种机制在理论上能够增强模型捕捉全局信息的能力,但在实际应用中,这可能会引入大量来自不相关或远距离邻居节点的噪声信息,从而降低模型对关键信息的敏感度和判断准确性,最终导致模型性能的下降。


技术实现思路

1、为了解决上述技术问题,本发明提出了一种基于改进图transformer模型的节点分类方法、设备及产品。

2、第一方面,本发明提供了一种基于改进图transformer模型的节点分类方法,包括以下步骤:

3、步骤1:对输入的包含待分类节点的图结构源数据进行聚类分区,将原始大图划分为若干小子图,并对节点和边数据进行重新映射排列,得到一系列子图数据{g1,g2,…,gk}={(v1,e1),(v2,e2),…,(vk,ek)};其中vi表示子图gi内部所有的节点,ei表示子图gi内部所有的边,1≤i≤k;

4、步骤2:为每个子图生成一个虚拟的代表节点,将每个子图的信息聚合至虚拟节点中,得到子图虚拟代表节点特征;

5、步骤3:将节点特征信息输入改进图transformer模型中进行编码计算;所述改进图transformer模型,具体改进包括调整自注意力机制运算节点采样方式、及引入基于相似度的运算节点筛选机制;

6、步骤4:将编码计算得到的节点最终向量表示输入多层感知机进行节点分类操作,得到分类结果。

7、作为优选,步骤1中,利用metis算法对输入的包含待分类节点的图结构源数据进行聚类分区,具体实现包括以下子步骤:

8、步骤1.1:采用多层次方法,首先构建初始层次的图结构,保留原始图的节点和边信息,然后对每一层次的图进行节点和边的重排序,逐步构建高层次图,直至达到预设的层次数量或节点数阈值;

9、步骤1.2:通过合并节点和边,构建粗粒度的图表示,包括根据节点的度数和相似度进行节点聚合,形成超级节点,以及根据边的权重和连通性进行边聚合,形成超级边;

10、步骤1.3:采用递归方式,逐步将粗粒度图划分为两个子图,直至达到预设的子图数量,并确定每个子图中的节点和边;

11、步骤1.4:对划分结果进行细化和优化,确保每个子图之间的边界最小化;通过优化算法对跨子图的边界节点进行优化,调整节点的归属以减少跨子图边数,以及对子图内部的节点进行优化,提升子图的连通性和紧密度;

12、步骤1.5:将划分结果转换回原始图结构的表示方式;输出每个节点所属的子图编号,及各子图包含的节点和边的信息;输出格式包括节点编号和子图编号的对应关系,以及每个子图内的节点列表和边列表。

13、作为优选,步骤2的具体实现包括以下子步骤:

14、步骤2.1:对于子图gi,引入一个唯一的虚拟节点vni,该虚拟节点与子图gi中的所有节点建立连接;

15、步骤2.2:将添加了虚拟节点的子图输入多层简单图卷积神经网络中进行传播计算,在传播计算过程中与子图中的所有节点交换信息,根据公式计算虚拟节点特征在简单图卷积神经网络各层下的输出,并将最后一层输出作为子图虚拟代表节点特征;其中,是第l层中节点u的特征向量,|gi|是子图gi中的节点数量,w(l)是第l层的权重矩阵,σ是激活函数。

16、作为优选,步骤3中,所述改进图transformer模型,包括邻居节点采样模块、基于相似度的节点筛选模块、位置编码模块、多头自注意力计算模块和前馈网络模块;

17、所述邻居节点采样模块,用于对各节点,通过采样同分区其它节点的特征信息,以及其它分区虚拟代表节点的特征信息,来得到参与后续自注意力计算的各节点对应的邻居节点特征信息集合;

18、所述基于相似度的节点筛选模块,用于进一步筛选与目标节点具有高相似度的邻居节点;首先通过计算节点特征信息间的余弦相似度,输出每对节点间的相似度得分,然后根据设定的阈值选择相似度高于阈值的邻居节点参与后续计算;

19、所述位置编码模块,将节点间位置信息编码加入输入节点嵌入表示和筛选后的邻居节点嵌入表示集合。加入位置编码后的节点嵌入表示输入到多头自注意力计算模块。

20、所述多头自注意力计算模块,包括若干并行的自注意力计算头,每个自注意力计算头对输入特征信息进行线性变换以生成查询q、键k和值v向量,然后计算查询q向量和键k向量的点积,将点积结果除以键k向量维度的平方根进行缩放,接着将缩放后的点积结果通过softmax函数进行归一化,转换成概率分布形式,将归一化后得到的注意力权重与值v向量相乘,得到加权的输出;最后把所有自注意力计算头的输出拼接起来,形成一个综合的输出向量o;

21、所述前馈网络模块,用于进一步处理多头自注意力计算模块的输出;首先进行第一次残差连接和层归一化操作,将多头自注意力计算模块的输出向量o与最初输入的查询q向量进行元素级的加法操作,然后在特征维度上进行归一化处理;接着输入前馈网络层,包含两个线性变换层及其间的激活层,第一个线性变换层对输入特征进行变换,激活层引入非线性,第二个线性变换层生成输出;最后进行第二次残差连接与层归一化,将前馈网络层的输出与前馈网络层的输入进行元素级的加法操作,并在特征维度上进行归一化处理后输出。。

22、作为优选,步骤3中,首先根据公式计算节点与同一分区内其它节点以及其他分区虚拟代表节点之间的余弦相似度;其中,xu和xv分别表示节点u和v的特征向量,||xu||和||xv||表示向量的欧几里得范数;

23、然后根据相似度大小对节点进行排序,仅选择相似度最高的一定比例的节点参与后续的自注意力计算。

24、作为优选,步骤4中,将编码计算得到的节点最终向量表示输入多层感知机进行节点分类操作,根据公式计算节点u属于类别c的概率;其中,yu是节点u的真实类别,c是类别的总数,wc和bc分别是与类别c相关的权重向量和偏置项,hu表示编码计算得到的节点最终向量表示。

25、第二方面,本发明提供了一种基于改进图transformer模型的节点分类系统,包括以下模块:

26、聚类分区模块,用于对输入的包含待分类节点的图结构源数据进行聚类分区,将原始大图划分为若干小子图,并对节点和边数据进行重新映射排列,得到一系列子图数据{g1,g2,…,gk}={(v1,e1),(v2,e2),…,(vk,ek)};其中vi表示子图gi内部所有的节点,ei表示子图gi内部所有的边,1≤i≤k;;

27、子图虚拟代表节点特征获取模块,用于为每个子图生成一个虚拟的代表节点,将每个子图的信息聚合至虚拟节点中,得到子图虚拟代表节点特征;

28、编码计算模块,用于将节点特征信息输入改进图transformer模型中进行编码计算;所述改进图transformer模型,具体改进包括调整自注意力机制运算节点采样方式、及引入基于相似度的运算节点筛选机制;

29、节点分类模块,用于将编码计算得到的节点最终向量表示输入多层感知机进行节点分类操作,得到分类结果。

30、第三方面,本发明提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述基于改进图transformer模型的节点分类方法。

31、第四方面,本发明提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现所述基于改进图transformer模型的节点分类方法。

32、相对于现有技术,发明的有益效果包括:

33、(1)本发明着眼于优化自注意力计算机制,通过引入基于metis算法的图数据聚类分区、调整自注意力机制运算节点采样方式和引入基于相似度的运算节点筛选机制,减少参与自注意力计算的节点数量,从而大大降低模型的计算复杂度;

34、(2)本发明通过基于简单图卷积神经网络和虚拟节点的虚拟分区代表节点特征计算,减少不相关信息的干扰,从而提升模型的性能。


技术特征:

1.一种基于改进图transformer模型的节点分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于改进图transformer模型的节点分类方法,其特征在于:步骤1中,利用metis算法对输入的包含待分类节点的图结构源数据进行聚类分区,具体实现包括以下子步骤:

3.根据权利要求1所述的基于改进图transformer模型的节点分类方法,其特征在于,步骤2的具体实现包括以下子步骤:

4.根据权利要求1所述的基于改进图transformer模型的节点分类方法,其特征在于:步骤3中,所述改进图transformer模型,包括邻居节点采样模块、基于相似度的节点筛选模块、位置编码模块、多头自注意力计算模块和前馈网络模块;

5.根据权利要求1所述的基于改进图transformer模型的节点分类方法,其特征在于:步骤3中,首先根据公式计算节点与同一分区内其它节点以及其他分区虚拟代表节点之间的余弦相似度;其中,xu和xυ分别表示节点u和v的特征向量,||xυ||和||xυ||表示向量的欧几里得范数;

6.根据权利要求1-5任一项所述的基于改进图transformer模型的节点分类方法,其特征在于:步骤4中,将编码计算得到的节点最终向量表示输入多层感知机进行节点分类操作,根据公式计算节点u属于类别c的概率;其中,yu是节点u的真实类别,c是类别的总数,wc和bc分别是与类别c相关的权重向量和偏置项,hu表示编码计算得到的节点最终向量表示。

7.一种基于改进图transformer模型的节点分类系统,其特征在于,包括以下模块:

8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于改进图transformer模型的节点分类方法。

9.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于改进图transformer模型的节点分类方法。


技术总结
本发明公开了一种基于改进图Transformer模型的节点分类方法、系统、设备及产品,对输入的包含待分类节点的图结构源数据进行聚类分区,将原始大图划分为若干小子图,并对节点和边数据进行重新映射排列,得到一系列子图数据{G<subgt;1</subgt;,G<subgt;2</subgt;,…,G<subgt;k</subgt;}={(V<subgt;1</subgt;,E<subgt;1</subgt;),(V<subgt;2</subgt;,E<subgt;2</subgt;),…,(V<subgt;k</subgt;,E<subgt;k</subgt;)};然后为每个子图生成一个虚拟的代表节点,将每个子图的信息聚合至虚拟节点中,得到子图虚拟代表节点特征;接着将节点特征信息输入改进图Transformer模型中进行编码计算;最后将编码计算得到的节点最终向量表示输入多层感知机进行节点分类操作,得到分类结果。本发明大大降低了模型自注意力运算的计算复杂度,进而可同时兼顾小型、中型和大型图数据集的节点分类任务,并实现了分类性能的全面提升。

技术研发人员:胡文斌,章楠
受保护的技术使用者:武汉大学深圳研究院
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-13498.html

最新回复(0)