本发明属于目标视频片段定位,尤其涉及一种基于语义对齐的目标视频片段定位方法、系统及产品。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、目标视频片段定位任务中,关键的任务就是能否进行有效的语义对齐,语义对齐旨在表达相同内容的视频与文本具有近似的向量表示。
3、为了实现有效的语义对齐,早期的方法大多采用全局查询语句级别的对齐作为语义的交互方式,但由于缺乏对多模态语义细节的有效表征,其定位的精度并不理想。为了弥补这一不足,提出通过逐帧与单词交互进行细粒度地跨模态特征聚合的方式,许多方法进一步引入了注意力机制,探索了使用注意力机制进行逐帧逐词交互以捕捉视觉线索和文本查询之间关系的不同方式。
4、为了更好地建模查询语句中局部短语信息与片段特征的语义一致性关联,有方法提出建立短语级表示和视觉特征之间的时间关系的方法,提升了片段检索的性能。为了进一步探讨局部短语在片段检索中的语义作用,还有方法提出采用自注意机制建模词语间的关系,提取局部短语特征进行局部-全局视频文本交互。在这一过程中,目标片段的视觉线索被突出显示,以抑制不相关的线索,同时将目标片段的局部上下文和其他片段的全局上下文联合建模,以正确理解实体之间的长距离关系。
5、然而,上述目标视频片段定位模型都忽略了一些问题:
6、1)采集时信息的缺失。由于部分采集设备存在的局限性,例如,摄像头的固有像素分辨率、在低光照条件下的适应能力,以及拍摄角度等因素,均可能对图像信息的完整性产生影响,导致信息的损失。同时环境因素也会造成影响,例如汽车、建筑物等遮挡或者是沙尘暴、暴雨等极端天气都会导致获取的信息不完整。
7、2)视觉信息的模糊性。需要进行定位的视频可能会有图像质量差、运动模糊、焦点模糊等问题,不能很好的反映出信息,从而对定位的效果造成比较大的影响。
8、3)语言描述的多样性。即便针对相同的视频片段,描述文本也可能因描述者的不同而展现出显著差异,这种主观性可能导致关键信息的遗漏,进而对视频片段的定位精度产生不利影响。
技术实现思路
1、为了解决上述背景技术中存在的至少一项技术问题,本发明提供了一种基于语义对齐的目标视频片段定位方法、系统及产品,其减轻多模态信息缺失和语义信息模糊对语义对齐过程的影响,能够主动补全缺失的模态信息的方法,从而实现目标视频片段与文本之间的语义对齐,进而实现准确的目标视频片段定位。
2、为了实现上述目的,本发明采用如下技术方案:
3、本发明的第一方面提供一种基于语义对齐的目标视频片段定位方法,包括如下步骤:
4、获取视频片段候选集和文本,对获取的视频片段和文本进行预处理;
5、分别对预处理后的视频片段和文本进行不同语义层次的特征提取,得到不同语义层次的视频和文本两种模态的语义特征;
6、基于不同语义层次的视频和文本两种模态的语义特征,通过计算对齐分布概率获得全局对齐损失函数和局部语义对齐损失函数;
7、根据全局对齐损失函数和局部语义对齐损失函数,进行语义对齐训练,得到语义对齐后的视频片段和文本语义特征;
8、根据语义对齐后的视频片段和文本语义特征,推测缺失的视频片段和文本语义特征,并补全缺失的模态语义特征对应的真实语义特征,得到视频和文本两种模态完整的语义特征;
9、根据视频和文本两种模态完整的语义特征替换输入的视频与文本特征;
10、基于替换后视频与文本特征,进行相似度计算,对目标视频片段进行定位。
11、进一步地,基于不同语义层次的视频和文本两种模态的语义特征,通过计算对齐分布概率获得全局对齐损失函数,包括:
12、基于视频模态和文本模态的全部语义特征,分别计算视频对齐文本的概率分布和文本对齐视频的概率分布;
13、基于视频对齐文本的概率分布和文本对齐视频的概率分布得到全局语义对齐的损失函数。
14、进一步地,基于不同语义层次的视频和文本两种模态的语义特征,通过计算对齐分布概率获得局部语义对齐损失函数,包括:
15、采用多头跨模态注意力机制分别计算视频模态和文本模态内每个层次语义特征的置信度;
16、对比两种模态对应的相同层次的语义特征的置信度,将相同层次的语义特征的置信度的最小值作为权重;
17、基于权重、视频对齐文本的概率分布和文本对齐视频的概率分布得到置信度增强的特征对齐目标,即局部语义对齐损失函数。
18、进一步地,推测缺失的模态语义特征,并补全缺失的模态语义特征对应的真实语义特征,包括:
19、将语义对齐后的视频模态和文本模态语义特征表示连接,得到全局语义变量;
20、将对应层次的语义对齐后的视频模态和文本模态内的语义模态表示连接,得到层次语义级别的语义变量;
21、基于全局语义变量和层次语义级别的语义变量,利用变分多模态自编码器通过编码器和解码器之间的隐藏层输出,生成伪模态全局语义特征与伪模态层次语义级特征;
22、通过伪模态全局语义特征与伪模态层次语义级特征定义重构目标,根据重构目标生成伪模态全局语义特征与伪模态层次语义级特征对应的真实语义特征。
23、进一步地,在推测缺失的模态语义特征,并补全缺失的模态语义特征对应的真实语义特征时,引入kullback-leibler散度正则化,采用kullback-leibler散度控制变分多模态自编码器中的参数。
24、进一步地,分别在事件、行为和主体三个层次上提取视频和文本两种模态的多语义特征。
25、进一步地,所述根据视频和文本两种模态完整的语义特征替换输入的视频与文本特征,包括:
26、将视频模态多个层次的语义特征与对应权重相乘得到的语义特征连接得到全局视频综合特征;
27、将文本模态多个层次的语义特征与对应权重相乘得到的语义特征连接得到全局文本综合特征;
28、采用全局视频综合特征替换输入的视觉特征,采用全局文本综合特征替换输入的文本特征。
29、本发明的第二方面提供一种基于语义对齐的目标视频片段定位系统,包括:
30、数据预处理模块,其用于获取视频片段候选集和文本,对获取的视频片段和文本进行预处理;
31、特征提取模块,其用于分别对预处理后的视频片段和文本进行不同语义层次的特征提取,到不同语义层次的视频和文本两种模态的语义特征;
32、语义对齐模块,其用于不同语义层次的视频和文本两种模态的语义特征,通过计算对齐分布概率获得全局对齐损失函数和局部语义对齐损失函数;根据全局对齐损失函数和局部语义对齐损失函数,进行语义对齐训练,得到语义对齐后的视频片段和文本语义特征;
33、缺失信息补全模块,其用于根据语义对齐后的视频片段和文本语义特征,推测缺失的视频片段和文本语义特征,并补全缺失的模态语义特征对应的真实语义特征,得到视频和文本两种模态完整的语义特征;
34、视频定位模块,其用于根据视频和文本两种模态完整的语义特征替换输入的视频与文本特征;基于替换后视频与文本特征,进行相似度计算,对目标视频片段进行定位。
35、进一步地,缺失信息补全模块中,推测缺失的模态语义特征,并补全缺失的模态语义特征对应的真实语义特征,包括:
36、将语义对齐后的视频模态和文本模态语义特征表示连接,得到全局语义变量;
37、将对应层次的语义对齐后的视频模态和文本模态内的语义模态表示连接,得到层次语义级别的语义变量;
38、基于全局语义变量和层次语义级别的语义变量,利用变分多模态自编码器通过编码器和解码器之间的隐藏层输出,生成伪模态全局语义特征与伪模态层次语义级特征;
39、通过伪模态全局语义特征与伪模态层次语义级特征定义重构目标,根据重构目标生成伪模态全局语义特征与伪模态层次语义级特征对应的真实语义特征。
40、本发明的第三方面提供一种程序产品。
41、一种程序产品,所述程序产品为计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的一种基于语义对齐的目标视频片段定位方法中的步骤。
42、与现有技术相比,本发明的有益效果是:
43、1、本发明基于不同层次上的视频和文本两种模态的语义特征,通过计算对齐分布概率获得全局对齐损失函数和局部语义对齐损失函数,通过有效的跨模态语义对齐建模,从而帮助实现准确的视频片段定位;
44、2、针对普遍存在的多模态信息缺失与语义信息模糊问题,本发明通过推测缺失的模态语义特征,并补全缺失的模态语义特征对应的真实语义特征,得到视频和文本两种模态完整的语义特征;能够减轻多模态信息缺失与语义信息模糊带来的负面影响,使模型在实际的应用中具有更好的效果,同时能够进一步的补全缺失模态信息,这将有助于获得完整的语义内容,从而实现更准确的定位。
45、本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
1.一种基于语义对齐的目标视频片段定位方法,其特征在于,包括如下步骤:
2.如权利要求1所述的一种基于语义对齐的目标视频片段定位方法,其特征在于,基于不同语义层次的视频和文本两种模态的语义特征,通过计算对齐分布概率获得全局对齐损失函数,包括:
3.如权利要求1所述的一种基于语义对齐的目标视频片段定位方法,其特征在于,基于不同语义层次的视频和文本两种模态的语义特征,通过计算对齐分布概率获得局部语义对齐损失函数,包括:
4.如权利要求1所述的一种基于语义对齐的目标视频片段定位方法,其特征在于,推测缺失的模态语义特征,并补全缺失的模态语义特征对应的真实语义特征,包括:
5.如权利要求4所述的一种基于语义对齐的目标视频片段定位方法,其特征在于,在推测缺失的模态语义特征,并补全缺失的模态语义特征对应的真实语义特征时,引入kullback-leibler散度正则化,采用kullback-leibler散度控制变分多模态自编码器中的参数。
6.如权利要求1所述的一种基于语义对齐的目标视频片段定位方法,其特征在于,分别在事件、行为和主体三个层次上提取视频和文本两种模态的多语义特征。
7.如权利要求1所述的一种基于语义对齐的目标视频片段定位方法,其特征在于,所述根据视频和文本两种模态完整的语义特征替换输入的视频与文本特征,包括:
8.一种基于语义对齐的目标视频片段定位系统,其特征在于,包括:
9.如权利要求8所述的一种基于语义对齐的目标视频片段定位系统,其特征在于,缺失信息补全模块中,推测缺失的模态语义特征,并补全缺失的模态语义特征对应的真实语义特征,包括:
10.一种程序产品,所述程序产品为计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于语义对齐的目标视频片段定位方法中的步骤。
