1.本发明涉及机器视觉技术领域,尤其是指一种基于核空间和隐式空间特征对齐的多目标跟踪方法、设备、装置及计算机存储介质。
背景技术:2.视觉是世界感知的重要组成部分,而大部分的视觉感知与对物体的检测和跟踪是不可分割的。因此,多目标跟踪在视觉任务中广泛应用于视频监控、自动驾驶、无人机等。多目标跟踪主要是完成对连续关键帧中物体的检测和定位,最终形成一个完整的轨迹。早期的多目标跟踪方法通过引入了一些人工约束来检测和定位对象,但随着目标场景变得复杂时,如拥挤的人群、环境光线的变化、快速移动的物体等,传统的多目标跟踪方法在完成跟踪任务时表现不佳。随着深度学习的快速发展,出现了大量二阶段的多目标跟踪方法。这些新方法取代了原来的人工约束,通过引入大量的数据训练,使网络学习最优的跟踪模型,可以适应各种复杂场景下的多目标跟踪。但是二阶段的跟踪体系结构其所需的特征相互独立,不可避免的增加了大量的计算负担,阻碍了各阶段之间的联合优化,影响跟踪效率。
3.因此,基于锚点和基于锚框的两种单阶段跟踪范式逐渐成为主流,他们都采用输入共享特征的方法来减少计算负担,提高联合优化效率。但是,这种共享特征的联合优化方式同样面临着一些问题。比如,在检测过程中区分人这一类物种所关注的是其本身的同质特征而忽略个体差异性,而重识别过程中对于区分每个人类个体,则需要更多关注其特有的个性化特征。因此,检测分支和重识别分支所需求的特征是存在差异性的,带来了不同任务对于输入特征和任务目标不匹配的问题,这种不匹配体现在检测分支和重识别分支对语义特征不同维度的分布不一致性,也就是核空间的不对齐现象,导致多目标跟踪精度较低。
技术实现要素:4.为此,本发明所要解决的技术问题在于克服现有技术中核空间的不对齐导致多目标跟踪精度较低的问题。
5.为解决上述技术问题,本发明提供了一种多目标跟踪方法,包括:
6.获取当前视频帧图像,并计算所述当前视频帧图像的共享特征;
7.在通道维度对所述共享特征进行全局平均池化,得到共享语义特征向量;
8.将所述共享语义特征向量通过维度变换获得一个代表浅层语义信息的低维向量和一个代表深层语义信息的高维向量;
9.对通道乱序重排后的低维向量和高维向量进行分裂和重组操作,得到分别适配检测分支和适配重识别分支的同时具有浅层和深层语义信息的多维语义向量;
10.将适配检测分支的多维语义向量和适配重识别分支的多维语义向量分别通过两组参数独立的全连接层、归一池化操作和sigmoid激活函数处理,完成多维语义向量的对齐;
11.将对齐后的两个多维语义向量分别与共享特征加权求和,获得多维度语义对齐的
检测特征和重识别特征;
12.根据所述检测特征和重识别特征计算得到当前帧检测框和当前帧外观嵌入向量;
13.判断所述当前视频帧图像是否为第一帧,若不是第一帧,则将所述当前帧检测框和所述当前帧外观嵌入向量与历史帧轨迹进行匹配关联;
14.继续处理下一视频帧图像,直至视频结束。
15.优选地,所述对通道乱序重排后的低维向量和高维向量进行分裂和重组操作,得到分别适配检测分支和适配重识别分支的同时具有浅层和深层语义信息的多维语义向量包括:
16.通过四个独立参数的全连接操作对所述通道乱序重排后的低维向量和高维向量分别采样,得到适配检测分支的浅层语义向量和深层语义向量以及适配重识别分支的浅层语义向量和深层语义向量;
17.分别对所述适配检测分支的浅层语义向量和深层语义向量以及所述适配重识别分支的浅层语义向量和深层语义向量进行组合,得到所述分别适配检测分支和适配重识别分支的同时具有浅层和深层语义信息的多维语义向量。
18.优选地,所述将对齐后的两个多维语义向量分别与共享特征加权求和,获得多维度语义对齐的检测特征和重识别特征后包括:
19.将所述重识别特征在空间维度的两个方向上进行轴向池化,得到两个轴向特征;
20.将所述两个轴向特征沿着通道维度方向进行聚合,得到聚合特征;
21.将所述聚合特征输入空间对齐模块中完成局部和全局信息的一致性对齐,得到聚合对齐特征;
22.将所述聚合对齐特征沿着通道维度的方向分裂成两个轴向对齐特征;
23.将所述两个轴向对齐特征经过线性变换和激活函数操作后先后与所述重识别特征加权融合,再与所述重识别特征残差连接,得到跨区域对齐的重识别特征。
24.优选地,所述将所述聚合特征输入空间对齐模块中完成局部和全局信息的一致性对齐,得到聚合对齐特征包括:
25.将所述聚合特征沿着聚合通道分组乱序重排,并经过两个全连接和激活函数操作完成空间轴向特征对齐;
26.将空间轴向特征对齐后的聚合特征沿空间轴向维度进行移位操作,并经过两个全连接和激活函数操作完成跨区域轴向特征对齐;
27.将所述跨区域轴向特征对齐后的聚合特征通过移位恢复和组恢复得到所述聚合对齐特征。
28.优选地,所述根据所述检测特征和重识别特征计算得到当前帧检测框和当前帧外观嵌入向量包括:
29.根据所述检测特征计算得到热力图张量、偏移分支张量和大小分支张量,进而得到所述当前帧检测框;
30.根据所述重识别特征计算得到外观嵌入张量,并提取得到当前帧外观嵌入向量。
31.优选地,所述根据所述检测特征和重识别特征计算得到当前帧检测框和当前帧外观嵌入向量后包括:
32.将所述热力图张量、所述偏移分支张量和所述大小分支张量合并,得到合并特征;
33.将所述当前帧外观嵌入向量进行线性变换和激活函数操作得到流行空间的第一投影向量和第二投影向量;
34.将所述合并特征与所述第一投影向量相乘,并进行线性变换和激活函数操作得到检测特征和重识别特征对齐的合并特征;
35.将所述检测特征和重识别特征对齐的合并特征与所述第二投影向量相乘,得到关联信息对齐的检测向量;
36.将所述关联信息对齐的检测向量进行拆解,得到关联信息对齐的热力图张量、偏移分支张量和大小分支张量,进而得到流形空间投影对齐的当前帧检测框。
37.优选地,所述将所述当前帧检测框和所述当前帧外观嵌入向量与历史帧轨迹进行匹配关联包括:
38.计算当前帧所有目标和历史帧目标的重识别嵌入亲和度矩阵,并结合卡尔曼滤波,为轨迹关联加入运动模型的约束;
39.利用匈牙利算法求解最优匹配,更新当前帧目标轨迹状态;
40.利用iou距离对未匹配的目标进行再匹配,更新当前帧目标轨迹状态。
41.本发明还提供了一种多目标跟踪的装置,包括:
42.共享特征计算模块,用于获取当前视频帧图像,并计算所述当前视频帧图像的共享特征;
43.共享语义特征向量计算模块,用于在通道维度对所述共享特征进行全局平均池化,得到共享语义特征向量;
44.维度变换模块,用于将所述共享语义特征向量通过维度变换获得一个代表浅层语义信息的低维向量和一个代表深层语义信息的高维向量;
45.多维语义向量计算模块,用于对通道乱序重排后的低维向量和高维向量进行分裂和重组操作,得到分别适配检测分支和适配重识别分支的同时具有浅层和深层语义信息的多维语义向量;
46.多维语义向量对齐模块,用于将适配检测分支的多维语义向量和适配重识别分支的多维语义向量分别通过两组参数独立的全连接层、归一池化操作和sigmoid激活函数处理,完成多维语义向量的对齐;
47.检测特征和重识别特征计算模块,用于将对齐后的两个多维语义向量分别与共享特征加权求和,获得多维度语义对齐的检测特征和重识别特征;
48.检测框和外观嵌入向量计算模块,用于根据所述检测特征和重识别特征计算得到当前帧检测框和当前帧外观嵌入向量;
49.匹配关联模块,用于判断所述当前视频帧图像是否为第一帧,若不是第一帧,则将所述当前帧检测框和所述当前帧外观嵌入向量与历史帧轨迹进行匹配关联;
50.循环处理模块,用于继续处理下一视频帧图像,直至视频结束。
51.本发明还提供了一种多目标跟踪的设备,包括:
52.存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种多目标跟踪方法的步骤。
53.本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种多目标跟踪方法的步骤。
54.本发明的上述技术方案相比现有技术具有以下优点:
55.共享特征满足了减少冗余计算和联合优化的需求,但同样带来了不同任务对于输入特征和任务目标不匹配的问题,这种不匹配体现在检测分支和重识别分支对语义特征不同维度的分布不一致性,也就是核空间的不对齐现象,本发明所述的多目标跟踪方法,首先对于共享特征,在通道维度完成全局平均池化,计算得到共享语义向量,并将这个共享语义向量通过维度变换分别获得一个代表浅层语义信息的低维向量和一个代表深层语义信息的高维向量。紧接着,通过乱序重排,高低维度向量分裂和重组等操作解耦共享语义向量,获得适配检测分支和重识别分支的高低维度对齐语义向量。最后,与共享特征加权求和,获得多维度语义对齐的检测特征和重识别特征。本发明一方面将检测分支和重识别分支解耦成两个不同的特征输入,另一方面通过浅层语义维度和深层语义维度的特征对齐来缓解子任务特征的不一致性,有效地缓解了联合优化过程中对特征关注焦点位置的竞争,提升了多目标跟踪精度。
附图说明
56.为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中:
57.图1是本发明一种多目标跟踪方法的实现流程图;
58.图2是本发明的多维语义对齐模块结构图;
59.图3是原始帧特征图;
60.图4是共享特征图;
61.图5是检测对齐特征图;
62.图6是重识别对齐特征图;
63.图7是本发明的跨区域嵌入对齐模块结构图;
64.图8是跨区域嵌入对齐前特征图;
65.图9是跨区域嵌入对齐后特征图;
66.图10是本发明的流形空间投影对齐模块结构图;
67.图11是流形空间投影对齐前特征图;
68.图12是流形空间投影对齐后特征图;
69.图13是本发明的整体框架图;
70.图14是mot20公共数据集上跟踪可视化结果图;
71.图15为本发明实施例提供的一种多目标跟踪方法的装置的结构框图。
具体实施方式
72.本发明的核心是提供一种多目标跟踪方法、装置、设备及计算机存储介质,通过核空间的对齐,提高了多目标跟踪的精度。
73.为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
74.请参考图1和图2,图1为本发明所提供的多目标跟踪方法的实现流程图,图2为多维语义对齐模块结构图;具体操作步骤如下:
75.s101:获取当前视频帧图像,并计算所述当前视频帧图像的共享特征;
76.以单帧读取的方式读取连续视频帧,以第t∈[1,n]帧为例,其输入大小为3
×ht
×wt
,其中n为视频序列的总帧数,h
t
和w
t
分别为第t帧的高度和宽度;
[0077]
采用卷积网络作为骨干网络计算第t帧的共享特征fb。
[0078]
s102:在通道维度c对所述共享特征进行全局平均池化,得到共享语义特征向量zc;
[0079]
s103:将所述共享语义特征向量通过维度变换获得一个代表浅层语义信息的低维向量z
l
和一个代表深层语义信息的高维向量zh;
[0080]
首先将共享特征通过全局平均池化操作得到语义向量z1∈r1×c。通过两组参数独立的全连接fc,归一化bn和relu激活函数操作,得到解耦的低维语义向量z
l
∈r1×
0.5c
和高维语义向量zh∈r1×
4c
。
[0081]
s104:对通道乱序重排后的低维向量和高维向量进行分裂和重组操作,得到分别适配检测分支和适配重识别分支的同时具有浅层和深层语义信息的多维语义向量;
[0082]
通过四个独立参数的全连接操作对所述通道乱序重排后的低维向量和高维向量分别采样,得到适配检测分支的浅层语义向量和深层语义向量以及适配重识别分支的浅层语义向量和深层语义向量
[0083]
分别对所述适配检测分支的浅层语义向量和深层语义向量以及所述适配重识别分支的浅层语义向量和深层语义向量进行组合,得到所述分别适配检测分支和适配重识别分支的同时具有浅层和深层语义信息的多维语义向量zd∈r1×
2.5c
和zr∈r1×
2.5c
。
[0084]
s105:将适配检测分支的多维语义向量和适配重识别分支的多维语义向量分别通过两组参数独立的全连接层、归一池化操作和sigmoid激活函数处理,完成多维语义向量的对齐;
[0085]
为提高语义特征分布的一致性表征,本发明分别通过两组参数独立的全连接fc,归一化bn和sigmoid激活函数操作完成语义向量的对齐。
[0086]
s106:将对齐后的两个多维语义向量和分别与共享特征加权求和,获得多维度语义对齐的检测特征和重识别特征
[0087]
再一次经过乱序重排操作提高语义向量的泛化能力,并利用这两个语义向量再一次经过乱序重排操作提高语义向量的泛化能力,并利用这两个语义向量对原始输入特征分别加权,加权之后再添加残差连接进行粗细粒度的特征融合,得到检测分支特征和重识别特征具体计算流程可以表示为和
[0088]
图3、4、5、6为本发明对一帧图像进行多维语义对齐后的可视化效果图,依次是原始帧图像、骨干网络提取到的共享特征图,对齐后的检测对齐特征图,重识别对齐特征图,
可以看到检测对齐特征图和重识别对齐特征图相对于共享特征图关注区域更加聚焦,并且聚焦的区域各有不同,这体现了不同分支对特征需求不同的属性。
[0089]
s107:根据所述检测特征和重识别特征计算得到当前帧检测框和当前帧外观嵌入向量;
[0090]
根据所述检测特征计算得到热力图张量o
heatmap
、偏移分支张量o
offset
和大小分支张量o
size
,进而得到所述当前帧检测框,其中,o
heatmap
用于物体中心点的定位。o
size
用于估计物体检测框的大小,o
offset
用于补偿共享特征在下采样过程中导致的中心点偏移量;
[0091]
根据所述重识别特征计算得到外观嵌入张量,并提取得到128维度的当前帧外观嵌入向量
[0092]
s108:判断所述当前视频帧图像是否为第一帧,若不是第一帧,则将所述当前帧检测框和所述当前帧外观嵌入向量与历史帧轨迹进行匹配关联;
[0093]
若当前帧为第一帧,则初始化目标轨迹;
[0094]
计算当前帧所有目标和历史帧目标的重识别嵌入亲和度矩阵,并结合卡尔曼滤波,为轨迹关联加入运动模型的约束;
[0095]
利用匈牙利算法求解最优匹配,更新当前帧目标轨迹状态;
[0096]
利用iou距离对未匹配的目标进行再匹配,更新当前帧目标轨迹状态,最终得到稳定的轨迹。
[0097]
s109:继续处理下一视频帧图像,直至视频结束。
[0098]
本发明首先对于共享特征fb,在通道维度c完成全局平均池化,计算得到共享语义向量zc,并将这个共享语义向量通过维度变换分别获得一个代表浅层语义信息的低维向量z
l
和一个代表深层语义信息的高维向量zh。紧接着,通过乱序重排,高低维度向量分裂和重组等操作解耦共享语义向量,获得适配检测分支和重识别分支的高低维度对齐语义向量。最后,与共享特征加权求和,获得多维度语义对齐的检测特征和重识别特征通过本发明提出的多维语义对齐模块,两个子分支任务将浅层和深层维度的语义特征对齐,并进行了独立的选择,有效地缓解了联合优化过程中对特征关注焦点位置的竞争。
[0099]
基于以上实施例,本实施例对步骤s106进行进一步详细说明:
[0100]
如图7所示,获得多维度语义对齐的检测特征和重识别特征后:
[0101]
跨区域嵌入向量对齐模块主要基于局部和全局感知的上下文信息,从而过滤掉噪声,实现跨区域嵌入对齐。考虑到输入特征具有高分辨率的特性,为降低计算负担,将所述重识别特征在空间维度h和w方向上进行轴向池化,得到两个轴向特征v1∈rc×w和v2∈rc×h;
[0102]
将所述两个轴向特征沿着通道维度c轴向进行聚合,得到聚合特征v
hw
∈rc×
(h+w)
,这样可以保证计算复杂度控制在o((h+w)c2)以内;与此同时,这样的操作也能够在一个空间方向上捕获长程依赖关系,并在另一个空间方向上保持精确的位置信息;
[0103]
将所述聚合特征输入空间对齐模块中完成局部和全局信息的一致性对齐,得到聚合对齐特征:
[0104]
将所述聚合特征v
hw
沿着聚合通道分组乱序重排(聚合特征的形状大小从原来的c
×
(h+w)变为其中g为分组的组数),并经过两个全连接和激活函数操作完成空
间轴向特征对齐;
[0105]
将空间轴向特征对齐后的聚合特征沿空间轴向维度进行移位操作(移位步长为s,一次移位的通道数为g,特征形状大小不变),并经过两个全连接和激活函数操作完成跨区域轴向特征对齐;
[0106]
将所述跨区域轴向特征对齐后的聚合特征通过移位恢复和组恢复得到所述聚合对齐特征
[0107]
将所述聚合对齐特征沿着通道维度的c轴向分裂成两个轴向对齐特征;
[0108]
将所述两个轴向对齐特征经过线性变换和激活函数操作后,得到和先后与所述重识别特征加权融合,再与所述重识别特征残差连接,得到跨区域对齐的重识别特征其用公式可表示为
[0109]
对于共享特征所在的空间维度h和w,首先将重识别特征按照这两个方向进行轴向池化,分别获得两个轴向特征vh∈c
×
w和vw∈c
×
h。紧接着,组合两个轴向特征,并经过一系列的重排操作完成跨区域的信息交互,从而实现空间维度上的特征对齐,得到嵌入向量本发明构建的跨区域嵌入对齐模块,能够有效的捕获空间维度上局部和全局的上下文信息。并在权衡局部和全局感知能力的同时,对齐空间特征,从而获得更加科学有效的一致性表征,有效的增加了行人重识别特征的判别能力和提高了跟踪的精度。
[0110]
图8、9为本发明对一帧图像进行跨区域嵌入对齐后的可视化效果图,对比两幅特征图,可以明显看到经过跨区域对齐后无论关注焦点还是感知范围都得到了明显提升,这说明该模块能够有效过滤噪声和捕获更多有效信息,平衡局部感知和全局感知的能力。
[0111]
基于以上实施例,本实施例对步骤s107进行进一步说明,具体如下:
[0112]
得到当前帧检测框和当前帧外观嵌入向量后:
[0113]
如图10所示,图10为流形空间投影对齐模块结构图,主要针对检测子任务和重识别子任务关联信息的特征对齐,由于上述两个分支的特征表达在显式空间中的特征表达是不一致的,所以并不能直接相乘或者相加来实现两者关联信息的对齐,需要将这两个特征投影到一个流形空间中通过非线性变换完成关联特征的对齐。
[0114]
将所述热力图张量、所述偏移分支张量和所述大小分支张量合并,得到合并特征
[0115]
将所述当前帧外观嵌入向量进行线性变换和激活函数操作得到流行空间的第一投影向量ek∈r
hw
×
128
和第二投影向量ev∈r
128
×
hw
;
[0116]
将所述合并特征与所述第一投影向量ek相乘(得到一个7
×
128维的投影向量,他代表着检测特征和再重识别特征所在流形空间中的表征),并进行线性变换和激活函数操作得到检测特征和重识别特征对齐的合并特征;
[0117]
将所述检测特征和重识别特征对齐的合并特征与所述第二投影向量ev相乘,得到关联信息对齐的检测向量
[0118]
将所述关联信息对齐的检测向量进行拆解,得到关联信息对齐的热力图张量
偏移分支张量和大小分支张量进而得到流形空间投影对齐的当前帧检测框。
[0119]
图11、12为经过流形空间投影对齐模块的可视化效果图。对比投影前后的特征图,可以明显看出检测目标的关注区域更加集中,这得益于再对齐两个分支的关联特征后,检测分支从重识别分支中获得了更多的补充信息,使得物体的定位更加精准。
[0120]
对于检测分支和重识别分支中相关联的特征表示,通过两次流形空间投影变换和加权融合,完成重识别分支输出到检测分支3个输出的关联特征隐式对齐,得到隐式空间对齐的检测输出空间对齐的检测输出和本发明中,检测分支和重识别分支所关注的目标是相同的,这也就意味着两者存在关联性,在流形空间中存在着一定的映射关系,因此引入流形空间投影对齐模块,能够有效协调两个子任务的联合优化,避免特征分布不对齐造成的竞争冲突。
[0121]
共享特征的联合优化方式面临着一些问题,比如,在检测过程中区分人这一类物种所关注的是其本身的同质特征而忽略个体差异性,而重识别过程中对于区分每个人类个体,则需要更多关注其特有的个性化特征。因此,检测分支和重识别分支所需求的特征是存在差异性的,这导致了他们在核空间和隐式空间中特征分布存在不对齐的现象,而如何获得适配特定分支任务且具有协调一致性的输入特征成为联合优化绕不开的话题。基于以上考虑,本发明提出了一种基于核空间和隐式空间特征对齐的跟踪框架(如图13),来缓解特征不对齐现象导致的优化冲突问题。首先,通过多维语义对齐模块和跨区域嵌入对齐模块,实现子任务核空间的对齐。通过该操作,检测分支和重识别分支可以分别获得各自独立的特征,并实现子任务特征在不同语义维度和嵌入维度上的一致对齐。其次,对于相关的分支任务,它们所关联的信息应该能够在一个共同的流形空间中找到相应的映射关系,并促进每个后续对象任务的成功优化。因此,本发明通过流形空间投影对齐模块实现不同子任务关联信息的特征对齐,从而满足多任务联合优化的协调一致性。本发明的主要目的是提出一种基于核空间和隐式空间特征对齐的多特征对齐跟踪框架mfatracker,在行人拥挤等复杂场景下,能够更好的完成多任务的联合优化,实现各分支子任务的最优解,从而提高多目标跟踪的精度和鲁棒性。
[0122]
基于以上实施例,本实施例为验证本发明的准确性和鲁棒性,本发明在公开的mot17和mot20数据集上进行了多次实验,具体如下:
[0123]
图14为跟踪器在mot20数据集上的跟踪结果图,从左至右分别取45、181、281帧的展示,其中左右不同帧上相同的行人被赋予同一个标识号。
[0124]
mot17数据集包含14个视频序列,1342条轨迹,其中有不同相机视角、不同天气情况和不同相机运动等干扰因素,人群密度分布较为平衡。mot20是一个较新的数据集,共含有8个视频序列,约13400帧。其平均人群密度为每帧246名行人,多是一些拥挤的场景,因此具有更大的挑战。
[0125]
实验分为两部分,一是线下消融验证,主要在mot17的训练集上完成,二是线上全集验证,主要在mot17和mot20的全集上完成。
[0126]
(一)线下消融验证:
[0127]
实验参数设置:基本设置与基线网络fairmot[3]一致,在完成crowdhuman数据集
上的预训练后,将mot17训练集的前一半序列帧作为训练集,后一半序列帧作为验证集。在训练阶段,输入图片统一调整为1088*608的尺寸大小,采用adam优化器进行迭代训练,训练过程中保证前20轮学习率为0.0001,最后10轮下降到0.00001。
[0128]
本发明提出的方法主要包含三个部分:1)多维语义对齐模块(msa);2)跨区域嵌入对齐模块(cea);3)流形空间投影对齐模块(mspa)。从表1的结果可以明显看出加入相应模块后,跟踪的精度和鲁棒性都得到了稳步提升。其中表1中的baseline表示基线网络模型,mota表示跟踪准确率指标,idf1表示目标身份正确性指标,ids表示同一目标身份切换的频次。
[0129]
表1在mot17验证集上的实验结果(mota
↑
,idf1
↑
,ids
↓
)
[0130]
网络配置mota
↑
idf1
↑
ids
↓
baseline71.173.2437baseline+msa71.974.3420baseline+msa+cea72.174.4402baseline+msa+mspa72.074.3416baseline+all72.374.4407
[0131]
(二)线上全集验证:
[0132]
线上数据集全集采用motchallenge公开数据集,网址为https://motchallenge.net/。实验参数设置:在mot17全集上训练时,参数设置与线下消融验证实验网络参数设置一致,不同的是使用前7个视频序列作为训练集,后7个视频序列作为测试集。在mot20全集上训练时,参数设置与基线网络保持一致,训练集采用mot20前4个视频序列,测试集采用其后4个视频序列。训练过程中前15轮作为微调,学习率保持在0.0001,后5轮下降为0.00001。测试结果如表2所示:
[0133]
表2在mot17和mot20上的多目标跟踪准确率mota结果
[0134]
数据集mot17(%)mot20(%)基线网络73.761.8本发明74.266.4
[0135]
请参考图15,图15为本发明实施例提供的一种多目标跟踪方法的装置的结构框图;具体装置可以包括:
[0136]
共享特征计算模块100,用于获取当前视频帧图像,并计算所述当前视频帧图像的共享特征;
[0137]
共享语义特征向量计算模块200,用于在通道维度对所述共享特征进行全局平均池化,得到共享语义特征向量;
[0138]
维度变换模块300,用于将所述共享语义特征向量通过维度变换获得一个代表浅层语义信息的低维向量和一个代表深层语义信息的高维向量;
[0139]
多维语义向量计算模块400,用于对通道乱序重排后的低维向量和高维向量进行分裂和重组操作,得到分别适配检测分支和适配重识别分支的同时具有浅层和深层语义信息的多维语义向量;
[0140]
多维语义向量对齐模块500,用于将适配检测分支的多维语义向量和适配重识别分支的多维语义向量分别通过两组参数独立的全连接层、归一池化操作和sigmoid激活函
数处理,完成多维语义向量的对齐;
[0141]
检测特征和重识别特征计算模块600,用于将对齐后的两个多维语义向量分别与共享特征加权求和,获得多维度语义对齐的检测特征和重识别特征;
[0142]
检测框和外观嵌入向量计算模块700,用于根据所述检测特征和重识别特征计算得到当前帧检测框和当前帧外观嵌入向量;
[0143]
匹配关联模块800,用于判断所述当前视频帧图像是否为第一帧,若不是第一帧,则将所述当前帧检测框和所述当前帧外观嵌入向量与历史帧轨迹进行匹配关联;
[0144]
循环处理模块900,用于继续处理下一视频帧图像,直至视频结束。
[0145]
本实施例的多目标跟踪装置用于实现前述的多目标跟踪方法,因此多目标跟踪装置中的具体实施方式可见前文多目标跟踪方法的实施例部分,例如,共享特征计算模块100,共享语义特征向量计算模块200,维度变换模块300,多维语义向量计算模块400,多维语义向量对齐模块500,检测特征和重识别特征计算模块600,检测框和外观嵌入向量计算模块700,匹配关联模块800,循环处理模块900,分别用于实现上述多目标跟踪方法中步骤s101,s102,s103,s104,s105,s106,s107,s108,s109,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
[0146]
本发明具体实施例还提供了一种多目标跟踪的设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种多目标跟踪方法的步骤。
[0147]
本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种多目标跟踪方法的步骤。
[0148]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0149]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0150]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0151]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0152]
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
技术特征:1.一种多目标跟踪方法,其特征在于,包括:获取当前视频帧图像,并计算所述当前视频帧图像的共享特征;在通道维度对所述共享特征进行全局平均池化,得到共享语义特征向量;将所述共享语义特征向量通过维度变换获得一个代表浅层语义信息的低维向量和一个代表深层语义信息的高维向量;对通道乱序重排后的低维向量和高维向量进行分裂和重组操作,得到分别适配检测分支和适配重识别分支的同时具有浅层和深层语义信息的多维语义向量;将适配检测分支的多维语义向量和适配重识别分支的多维语义向量分别通过两组参数独立的全连接层、归一池化操作和sigmoid激活函数处理,完成多维语义向量的对齐;将对齐后的两个多维语义向量分别与共享特征加权求和,获得多维度语义对齐的检测特征和重识别特征;根据所述检测特征和重识别特征计算得到当前帧检测框和当前帧外观嵌入向量;判断所述当前视频帧图像是否为第一帧,若不是第一帧,则将所述当前帧检测框和所述当前帧外观嵌入向量与历史帧轨迹进行匹配关联;继续处理下一视频帧图像,直至视频结束。2.根据权利要求1所述的多目标跟踪方法,其特征在于,所述对通道乱序重排后的低维向量和高维向量进行分裂和重组操作,得到分别适配检测分支和适配重识别分支的同时具有浅层和深层语义信息的多维语义向量包括:通过四个独立参数的全连接操作对所述通道乱序重排后的低维向量和高维向量分别采样,得到适配检测分支的浅层语义向量和深层语义向量以及适配重识别分支的浅层语义向量和深层语义向量;分别对所述适配检测分支的浅层语义向量和深层语义向量以及所述适配重识别分支的浅层语义向量和深层语义向量进行组合,得到所述分别适配检测分支和适配重识别分支的同时具有浅层和深层语义信息的多维语义向量。3.根据权利要求1所述的多目标跟踪方法,其特征在于,所述将对齐后的两个多维语义向量分别与共享特征加权求和,获得多维度语义对齐的检测特征和重识别特征后包括:将所述重识别特征在空间维度的两个方向上进行轴向池化,得到两个轴向特征;将所述两个轴向特征沿着通道维度方向进行聚合,得到聚合特征;将所述聚合特征输入空间对齐模块中完成局部和全局信息的一致性对齐,得到聚合对齐特征;将所述聚合对齐特征沿着通道维度的方向分裂成两个轴向对齐特征;将所述两个轴向对齐特征经过线性变换和激活函数操作后先后与所述重识别特征加权融合,再与所述重识别特征残差连接,得到跨区域对齐的重识别特征。4.根据权利要求3所述的多目标跟踪方法,其特征在于,所述将所述聚合特征输入空间对齐模块中完成局部和全局信息的一致性对齐,得到聚合对齐特征包括:将所述聚合特征沿着聚合通道分组乱序重排,并经过两个全连接和激活函数操作完成空间轴向特征对齐;将空间轴向特征对齐后的聚合特征沿空间轴向维度进行移位操作,并经过两个全连接和激活函数操作完成跨区域轴向特征对齐;
将所述跨区域轴向特征对齐后的聚合特征通过移位恢复和组恢复得到所述聚合对齐特征。5.根据权利要求1所述的多目标跟踪方法,其特征在于,所述根据所述检测特征和重识别特征计算得到当前帧检测框和当前帧外观嵌入向量包括:根据所述检测特征计算得到热力图张量、偏移分支张量和大小分支张量,进而得到所述当前帧检测框;根据所述重识别特征计算得到外观嵌入张量,并提取得到当前帧外观嵌入向量。6.根据权利要求5所述的多目标跟踪方法,其特征在于,所述根据所述检测特征和重识别特征计算得到当前帧检测框和当前帧外观嵌入向量后包括:将所述热力图张量、所述偏移分支张量和所述大小分支张量合并,得到合并特征;将所述当前帧外观嵌入向量进行线性变换和激活函数操作得到流行空间的第一投影向量和第二投影向量;将所述合并特征与所述第一投影向量相乘,并进行线性变换和激活函数操作得到检测特征和重识别特征对齐的合并特征;将所述检测特征和重识别特征对齐的合并特征与所述第二投影向量相乘,得到关联信息对齐的检测向量;将所述关联信息对齐的检测向量进行拆解,得到关联信息对齐的热力图张量、偏移分支张量和大小分支张量,进而得到流形空间投影对齐的当前帧检测框。7.根据权利要求1所述的多目标跟踪方法,其特征在于,所述将所述当前帧检测框和所述当前帧外观嵌入向量与历史帧轨迹进行匹配关联包括:计算当前帧所有目标和历史帧目标的重识别嵌入亲和度矩阵,并结合卡尔曼滤波,为轨迹关联加入运动模型的约束;利用匈牙利算法求解最优匹配,更新当前帧目标轨迹状态;利用iou距离对未匹配的目标进行再匹配,更新当前帧目标轨迹状态。8.一种多目标跟踪的装置,其特征在于,包括:共享特征计算模块,用于获取当前视频帧图像,并计算所述当前视频帧图像的共享特征;共享语义特征向量计算模块,用于在通道维度对所述共享特征进行全局平均池化,得到共享语义特征向量;维度变换模块,用于将所述共享语义特征向量通过维度变换获得一个代表浅层语义信息的低维向量和一个代表深层语义信息的高维向量;多维语义向量计算模块,用于对通道乱序重排后的低维向量和高维向量进行分裂和重组操作,得到分别适配检测分支和适配重识别分支的同时具有浅层和深层语义信息的多维语义向量;多维语义向量对齐模块,用于将适配检测分支的多维语义向量和适配重识别分支的多维语义向量分别通过两组参数独立的全连接层、归一池化操作和sigmoid激活函数处理,完成多维语义向量的对齐;检测特征和重识别特征计算模块,用于将对齐后的两个多维语义向量分别与共享特征加权求和,获得多维度语义对齐的检测特征和重识别特征;
检测框和外观嵌入向量计算模块,用于根据所述检测特征和重识别特征计算得到当前帧检测框和当前帧外观嵌入向量;匹配关联模块,用于判断所述当前视频帧图像是否为第一帧,若不是第一帧,则将所述当前帧检测框和所述当前帧外观嵌入向量与历史帧轨迹进行匹配关联;循环处理模块,用于继续处理下一视频帧图像,直至视频结束。9.一种多目标跟踪的设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述一种多目标跟踪方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种多目标跟踪方法的步骤。
技术总结本发明所提供的一种多目标跟踪方法首先对于共享特征,在通道维度完成全局平均池化,计算得到共享语义向量,并将这个共享语义向量通过维度变换分别获得一个代表浅层语义信息的低维向量和一个代表深层语义信息的高维向量。紧接着,通过乱序重排,高低维度向量分裂和重组等操作解耦共享语义向量,获得适配检测分支和重识别分支的高低维度对齐语义向量。最后,与共享特征加权求和,获得多维度语义对齐的检测特征和重识别特征。通过本发明提出的多维语义对齐模块,两个子分支任务将浅层和深层维度的语义特征对齐,并进行了独立的选择,有效地缓解了联合优化过程中对特征关注焦点位置的竞争。置的竞争。置的竞争。
技术研发人员:孔军 刘加林 蒋敏
受保护的技术使用者:江南大学
技术研发日:2022.06.17
技术公布日:2022/11/1