本发明属于跨模态检索,更为具体地讲,涉及一种基于全局与局部语义的视频-文本检索方法。
背景技术:
1、近年来,跨模态学习在视觉和语言任务中取得了显著进展,尤其是在文本-图像检索领域。大规模的图像-文本预训练模型(如clip,contrastive language-lmage pre-training)展示了在不同任务中的强大性能,这些模型通过将图像和文本转换到一个共同的嵌入空间,实现了不同模态之间的语义对齐。然而,文本-视频检索相较于文本-图像检索更具挑战性,因为视频包含了更丰富的时间和空间信息。现有方法主要是将视频和文本映射到一个共同的嵌入空间,利用特定实体的跨模态交互进行语义对齐。
2、虽然现有的方法取得了很多卓越的研究成果,但是这些方法通常计算成本高,效率低,并且在处理复杂的时间序列数据时,效果可能不尽如人意。视频数据相较于图像数据,具有更高的维度和更复杂的内部结构,这使得简单的图像-文本方法难以直接应用于视频数据。当前的一些方法尝试通过引入注意力机制或更复杂的网络结构来捕捉视频中的动态信息,但这些方法往往需要大量的计算资源和时间。
技术实现思路
1、本发明的目的在于克服现有技术的不足,提供一种基于全局与局部语义的视频-文本检索方法,构建视频-文本跨模态匹配模型,通过挖掘跨模态的潜在共享语义来优化视频-文本检索。
2、为了实现上述发明目的,本发明基于全局与局部语义的视频-文本检索方法包括以下步骤:
3、s1:根据实际需要收集若干视频-文本训练样本对构成训练样本集,其中每个训练样本对包括一个文本x和与该文本对应的视频v;
4、s2:构建视频-文本跨模态匹配模型,包括文本特征提取模块,视频特征提取模块,全局交互模块,局部交互模块和相似度融合模块,其中:
5、文本特征提取模块用于对文本x进行序列长度标准化至预设文本长度nw,然后利用文本编码器对nw个单词进行编码得到词特征d表示预设的编码特征维度,并采用序列结束标识特征作为文本x的全局特征,然后将全局特征fx发送至全局交互模块,将词特征fw发送至局部交互模块;
6、视频特征提取模块用于对视频v中视频帧进行采样得到nf帧视频帧,然后利用图像编码器对nf帧视频帧进行编码得到视频特征并发送至全局交互模块和局部交互模块;
7、全局交互模块用于计算视频-文本全局语义相似度sim1并发送至相似度融合模块,具体方法为:
8、采用softmax函数计算文本特征与帧特征之间的权重αk:
9、
10、其中,τ表示温度调节系数,上标t表示转置;
11、基于权重αk聚合帧特征得到文本引导的视频特征
12、
13、计算文本特征fx和视频特征之间的相似度,作为视频-文本全局语义相似度sim1;
14、局部交互模块用于计算视频-文本局部语义相似度sim2并发送至相似度融合模块;局部交互模块包括共享transformer编码器和相似度计算模块,其中:
15、共享transformer编码器包括nl个堆叠的transformer编码块,用于分别对词特征fw和视频特征fv进行特征编码,得到文本和视频细粒度的概念语义特征cx和cv,特征编码的方法分别为:
16、提取文本概念语义特征时,采用词特征fw作为键和值,采用文本待学习参数矩阵作为查询,nq表示预设维度,将最后一层输出的查询作为文本概念语义特征并发送至相似度计算模块。
17、提取视频概念语义特征时,采用视频特征fv作为键和值,采用视频待学习参数矩阵作为查询,将最后一层输出的查询作为视频概念语义特征并发送至相似度计算模块;
18、相似度计算模块用于计算文本概念语义特征cx和视频概念语义特征cv的相似度作为视频-文本局部语义相似度sim2;
19、相似度融合模块用于对视频-文本全局语义相似度sim1和视频-文本局部语义相似度sim2进行融合得到最终的匹配度s;
20、s3:采用步骤s1中的训练样本集对视频-文本跨模态匹配模型进行训练,得到训练好的视频-文本跨模态匹配模型;
21、s4:当需要进行视频-文本检索时,将待检索的文本/视频与备选视频/文本分别成对输入步骤s3训练好的视频-文本跨模态匹配模型,得到对应的匹配度,再基于匹配度筛选出与待检索的文本/视频相匹配的视频/文本。
22、本发明基于全局与局部语义的视频-文本检索方法,构建包括文本特征提取模块,视频特征提取模块,全局交互模块,局部交互模块和相似度融合模块的视频-文本跨模态匹配模型,全局交互模块用于对文本特征提取模块和视频特征提取模块所提取得到的文本特征和视频特征计算得到全局相似度,局部交互模块用于基于transformer编码器对文本的词特征和视频特征计算得到局部相似度,再由相似度融合模块将全局相似度和局部相似度融合得到视频-文本的匹配度。
23、本发明具有以下有益效果:
24、1)本发明通过设计了一个无参数的全局交互模块和一个共享的局部交互模块,这两个模块能够高效地捕捉全局和局部的语义信息,通过挖掘跨模态的潜在共享语义来优化文本-视频检索;
25、2)本发明还提出了互一致性损失和内部多样性损失,进一步提升了语义对齐和区分性;
26、3)通过实验发现,本发明不仅在性能上取得了显著提升,同时也大幅降低了计算成本,验证了其有效性和优越性。
1.一种基于全局与局部语义的视频-文本检索方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的视频-文本检索方法,其特征在于,所述步骤s2中文本编码器采用预训练好的clip模型中的文本编码器。
3.根据权利要求1所述的视频-文本检索方法,其特征在于,所述步骤s2中视频编码器采用预训练好的clip模型中的图像编码器。
4.根据权利要求1所述的视频-文本检索方法,其特征在于,所述步骤s2中特征相似度采用余弦相似度。
5.根据权利要求1所述的视频-文本检索方法,其特征在于,所述步骤s2中相似度融合的计算公式为:
6.根据权利要求1所述的视频-文本检索方法,其特征在于,所述步骤s3中视频-文本跨模态匹配模型训练过程中损失函数loss的计算公式为:
