本发明属于跨模态信息检索领域,尤其涉及基于超图卷积无监督跨模态检索方法、系统、介质及设备。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、随着互联网和社交媒体的蓬勃发展,海量的多模态数据,如文本、图像、视频等,正以前所未有的速度增长,高效且准确的跨模态检索系统成为信息检索领域的一个迫切需求。无监督跨模态哈希技术因其在跨模态数据检索中的计算和存储优势而受到广泛关注。该技术的核心挑战在于如何在哈希码学习过程中减小异构模态间的语义鸿沟,并将不同模态数据的相关性有效编码到二进制码中。尽管深度学习方法在跨模态任务中展现出了卓越的性能,但它们在模态间语义交互和对新数据泛化能力上仍存在局限。现有的无监督跨模态哈希仍存在一些局限性,如相似度量不准确和模态不平衡,导致检索性能不理想。
技术实现思路
1、为了解决上述背景技术中存在的至少一项技术问题,本发明提供基于超图卷积无监督跨模态检索方法、系统、介质及设备,其能够更全面地捕获多模态数据的互补和共生信息,克服现有方法在捕获多模态数据的综合语义信息方面的不足,增强模型对多模态内容相关性的理解和度量。
2、为了实现上述目的,本发明采用如下技术方案:
3、本发明的第一方面提供基于超图卷积无监督跨模态检索方法,包括如下步骤:
4、获取多模态训练数据集;
5、基于多模态训练数据集对跨模态检索模型进行训练得到训练后的跨模态检索模型;具体包括:
6、将基于多模态训练数据集提取的图像特征和文本特征进行跨模态融合,得到跨模态融合后的图像特征和文本特征;
7、基于图像特征和文本特征构建图像模态相似度矩阵,基于跨模态融合后的图像特征和文本特征构建文本模态相似度矩阵,将图像模态相似度矩阵和文本模态相似度矩阵统一至鲁棒相似度矩阵;
8、利用鲁棒相似度矩阵,引入超图将相似样本的共同特征聚合到超边中,得到超图的关联矩阵,利用关联矩阵对图像特征和文本特征进行超图卷积,挖掘各个节点之间的高阶语义信息,得到超图学习过程中的哈希码;
9、根据生成的哈希码和鲁棒相似度矩阵构造重构损失函数,基于重构损失函数更新哈希编码网络的参数;
10、根据待检索的任务数据和训练后的跨模态检索模型检索得到检索结果。
11、进一步地,所述将基于多模态训练数据集提取的图像特征和文本特征进行跨模态融合,得到跨模态融合后的图像特征和文本特征,包括:
12、采用clip图像特征提取器提取得到图像特征,采用文本特征提取器提取得到文本特征;
13、将clip图像特征提取器的输出结果和文本特征提取器的输出结果进行拼接,得到拼接张量;
14、将拼接张量输入至多模态融合transformer中,利用自注意力机制捕获模态内和模态间的相关性以及特征之间的语义相关性,得到融合后的图像特征和文本特征。
15、进一步地,基于多模态训练数据集提取的图像特征和文本特征进行跨模态融合时的损失函数为:
16、,
17、,
18、,
19、其中,是图像模态的对比损失,是文本模态的对比损失,是联合前两者的跨模态对比损失,是温度系数,表示相似度计算函数,和表示真正对齐的图像-文本对的特征,和表示第个样本和第个样本,为每一批的对训练样本。
20、进一步地,鲁棒相似度矩阵表示为:
21、,
22、,
23、,
24、其中,是衡量不同模态相似性信息的权重,为图像模态相似度矩阵,为文本模态相似度矩阵,是一个对称矩阵,为鲁棒相似度矩阵中第 i个样本和第 j个样本的相似度值, m为每一批的对训练样本。
25、进一步地,所述利用鲁棒相似度矩阵,引入超图来将相似样本的共同特征聚合到超边中,得到超图的关联矩阵,包括:
26、将图像特征、文本特征以及鲁棒相似度矩阵作为输入,将每一个特征向量视为一个节点,表示为,使用相似度矩阵识别每个节点的个最相似节点;将所识别的节点组合成超边,其可以表示为,其中,表示与最相似的个节点的集合;
27、超图的关联矩阵表示为:
28、。
29、进一步地,所述利用关联矩阵对图像特征和文本特征进行超图卷积,挖掘各个节点之间的高阶语义信息,得到超图学习过程中的哈希码,包括:
30、为构造的超图的关联矩阵引入一个标准拉普拉斯矩阵;
31、结合标准拉普拉斯矩阵计算超图卷积层表示;
32、基于得到的超图卷积层表示构建超图卷积网络,生成超图学习过程中的哈希码。
33、进一步地,重构损失函数的表达式为:
34、,
35、,
36、,
37、,
38、,
39、其中,为重构损失,是调整相似度矩阵的缩放范围的超参数,符号表示hadamard乘积,是衡量不同损失之间权重的超参数,为鲁棒相似度矩阵,、、、为学习到的哈希码。
40、本发明的第二方面提供基于超图卷积无监督跨模态检索,包括:
41、多模态数据获取模块,其用于获取多模态训练数据集;
42、跨模态检索模型训练模块,其用于基于多模态训练数据集对跨模态检索模型进行训练得到训练后的跨模态检索模型;具体包括:
43、将基于多模态训练数据集提取的图像特征和文本特征进行跨模态融合,得到跨模态融合后的图像特征和文本特征;
44、基于图像特征和文本特征构建图像模态相似度矩阵,基于跨模态融合后的图像特征和文本特征构建文本模态相似度矩阵,将图像模态相似度矩阵和文本模态相似度矩阵统一至鲁棒相似度矩阵;
45、利用鲁棒相似度矩阵,引入超图将相似样本的共同特征聚合到超边中,得到超图的关联矩阵,利用关联矩阵对图像特征和文本特征进行超图卷积,挖掘各个节点之间的高阶语义信息,得到超图学习过程中的哈希码;
46、根据生成的哈希码和鲁棒相似度矩阵构造重构损失函数,基于重构损失函数更新哈希编码网络的参数;
47、检索模块,其用于根据待检索的任务数据和训练后的跨模态检索模型检索得到检索结果。
48、本发明的第三方面提供一种计算机可读存储介质。
49、一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于超图卷积无监督跨模态检索方法中的步骤。
50、本发明的第四方面提供一种计算机设备。
51、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于超图卷积无监督跨模态检索方法中的步骤。
52、与现有技术相比,本发明的有益效果是:
53、1、本发明将提取的细粒度语义特征融合后,构建语义互补相似度矩阵,使不同模态实例之间的潜在语义相关性最大化,之后它通过超图卷积编码顶点之间的高阶关系和局部聚类结构来帮助学习哈希码,从而产生更具判别性的哈希码,提高了检索精度。
54、2、本发明采用clip多模态模型提取细粒度语义特征,并通过多模态融合转换器进一步增强各模态的语义表示。这种深度特征提取和融合策略使本发明的模型能够更全面地捕获多模态数据的互补和共生信息。
55、3、本发明提出了一种有效的融合方法来构建语义互补相似度矩阵,使不同模态实例之间的潜在语义相关性最大化,该方法有助于克服现有方法在捕获多模态数据的综合语义信息方面的不足,增强模型对多模态内容相关性的理解和度量。
56、4、本发明引入了一种自适应超图神经网络,它通过超图卷积编码顶点之间的高阶关系和局部聚类结构来帮助学习哈希码,从而产生更具判别性的哈希码。
57、本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
1.基于超图卷积无监督跨模态检索方法,其特征在于,包括如下步骤:
2.如权利要求1所述的基于超图卷积无监督跨模态检索方法,其特征在于,所述将基于多模态训练数据集提取的图像特征和文本特征进行跨模态融合,得到跨模态融合后的图像特征和文本特征,包括:
3.如权利要求1所述的基于超图卷积无监督跨模态检索方法,其特征在于,基于多模态训练数据集提取的图像特征和文本特征进行跨模态融合时的损失函数为:
4.如权利要求1所述的基于超图卷积无监督跨模态检索方法,其特征在于,鲁棒相似度矩阵表示为:
5.如权利要求1所述的基于超图卷积无监督跨模态检索方法,其特征在于,所述利用鲁棒相似度矩阵,引入超图来将相似样本的共同特征聚合到超边中,得到超图的关联矩阵,包括:
6.如权利要求1所述的基于超图卷积无监督跨模态检索方法,其特征在于,所述利用关联矩阵对图像特征和文本特征进行超图卷积,挖掘各个节点之间的高阶语义信息,得到超图学习过程中的哈希码,包括:
7.如权利要求1所述的基于超图卷积无监督跨模态检索方法,其特征在于,重构损失函数的表达式为:
8.基于超图卷积无监督跨模态检索系统,其特征在于,包括:
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于超图卷积无监督跨模态检索方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于超图卷积无监督跨模态检索方法中的步骤。
