一种基于深度神经网络的单目标长时跟踪方法与流程

专利2023-03-28  132



1.本发明属于视觉目标跟踪技术领域,尤其涉及一种基于深度神经网络的单目标长时跟踪方法。


背景技术:

2.单目标跟踪是指在视频中跟踪指定的一个目标,该目标在初始时由人为指定,后续由跟踪算法利用视频或者图像序列的上下文信息,对指定目标进行位置和尺度的估计。单目标跟踪算法的应用领域广泛,包括智能视频监控、无人驾驶、机器人领域,无人机领域等。目标跟踪算法的应用场景比较多样化,比如在人流多的商场,马路,高速公路,天空等,因此它面临一些比较难的挑战,比如光照变化、目标形变、遮挡、复杂背景等。
3.目前在基于深度神经网络的跟踪算法中,由于基于孪生网络的跟踪算法在速度和准确度方面有良好表现受到了广泛的研究。出现了基于注意力机制的方法,基于rpn网络尺度估计的方法,基于时空建模的方法等。但在现实中长时跟踪过程中,目标的外观通常会发生动态变化,甚至快速变化,目标会被遮挡等,目前的方法在长时跟踪过程中存在目标形变和被遮挡情况下跟踪不理想的问题,比如跟飘现象。


技术实现要素:

4.针对上述存在的问题,本发明提供了一种基于rmad即基于pnr值的模板库更新和尺度回归网络的尺度估计,基于匈牙利匹配算法抗干扰的长时跟踪算法,以提高跟踪算法对目标形变,目标被遮挡等情况下跟踪的精确度和鲁棒性。
5.本发明公开的基于深度神经网络的单目标长时跟踪方法,包括以下步骤:
6.获取跟踪目标图像和跟踪搜索区域图像,搭建基于孪生网络的特征提取网络,进行特征提取;
7.在线学习模型:在跟踪过程中,通过pnr得分选择目标图像加入模板库,然后送入模型学习网络进行模型学习和更新;
8.目标尺度估计:将模型目标特征图和搜索特征图进行卷积得到一张响应图,把响应图送入尺度回归网络得到尺度位置得分图,获取目标尺度;
9.目标重捕获:跟踪过程中,对目标的状态进行判断,判断目标是否被遮挡,或者丢失,当目标丢失时扩大目标搜索范围,进行目标重捕获;
10.抗干扰匹配跟踪:在跟踪过程中,记录目标和疑似目标的位置、尺度、置信度和纹理特征信息,当出现干扰物时,采用匈牙利匹配算法对当前预估的跟踪位置和历史跟踪轨迹进行跟踪匹配,选择跟历史轨迹最匹配的跟踪位置,从而排除干扰物的影响,保障对目标的长时跟踪。
11.进一步的,所述孪生网络采用resnet50作为骨干网。
12.进一步的,所述模型学习网络的损失函数为:
[0013][0014][0015][0016]
其中vj是训练图像的特征图,cj表示目标中心坐标,目的是要求出模型f,目标图像用ac来表示,当图像中的像素为背景像素时ac≈0,为目标时ac≈1,s=v*f,表示目标置信度得分,yc表示每个坐标位置的得分,yc采用高斯分布来进行初始化,yc,ac,ηc参数通过在线训练进行学习。
[0017]
进一步的,所述pnr的计算公式如下:
[0018][0019][0020]
其中s

max
表示分类得分响应图s

中的最大值,s

min
表示分类得分响应图s

中最小值,ms表示除去最大响应值后s

的均值,t
pnr
为所有历史pnr值的均值,ts′
为所有历史s

max
的均值。
[0021]
进一步的,尺度回归网络按照如下算法进行训练:
[0022]
损失函数为:
[0023][0024]
l
ciou
=-ln(ciou)
[0025][0026]
其中l
ciou
是ciou损失,用(x
l
,y
l
)表示真实目标框的左上角点,(xr,yr)表示真实目标框的右下角点,(xc,yc)表示中心点坐标,则
[0027][0028][0029][0030][0031]
根据分类得分图得到最高得分的目标位置,然后在其周围取top-k个目标框的均值作为最后目标的框。
[0032]
进一步的,根据目标的分类得分进行目标状态判断:当得分小于0.25时判断目标被遮挡了或者当前没有找到目标,这时启用计数器,当计数器大于5时表示目标丢失,再根据目标大小每隔2帧把搜索区域扩大1倍,用分类网络寻找目标,当目标得分大于0.8时认为找到目标;当搜索时间超过一定帧数时认为目标丢失。
[0033]
进一步的,跟踪过程出现多个疑似目标时,将疑似目标的信息保存下来,所述信息包括中心点位置、尺度、分类置信度和siltp特征。
[0034]
进一步的,对于一个给定位置(xc,yc),所述siltp特征的编码公式为:
[0035][0036]
其中gc为中心像素的灰度值,gk为中心像素领域内半径为r的圆中的其它k个像素,s为分段函数,ε=0.3:
[0037][0038]
进一步的,所述匈牙利匹配算法中的代价由余弦相似度计算向量间的相似度,
[0039][0040]
其中obji向量为疑似目标的中心点位置、尺度、分类置信度、siltp特征值组成,tr
t
向量为跟踪轨迹的最近一点的中心点位置,尺度,分类置信度,siltp特征值。
[0041]
与现有技术相比,本发明的有益效果如下:
[0042]
本发明的模板库更新是根据分类得分响应图的pnr值把可靠的目标模板加入模板库,减少模型漂移现象;
[0043]
尺度估计采用尺度回归网使得尺度更加稳定和准确;
[0044]
设计了目标的长时跟踪策略,目标丢失后启用动态扩大搜索范围和重识别;
[0045]
采用抗干扰匹配算法,减少相似物干扰,使得跟踪算法可以长时跟踪目标。
附图说明
[0046]
图1是本发明的流程示意图;
[0047]
图2相似物出现时分类得分图;
[0048]
图3本发明的深度神经网络的结构图;
[0049]
图4本发明的跟踪结果图。
具体实施方式
[0050]
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
[0051]
为了实现上述目的,本发明采用了如下技术方案:
[0052]
s1获取跟踪目标图像和跟踪搜索区域图像,搭建基于孪生网络的特征提取网络,进行特征提取。
[0053]
s2在线学习模型:在跟踪过程中,通过pnr得分选择目标图像加入模板库,然后送入模型学习网络进行模型学习和更新。
[0054]
s3目标尺度估计:将模型目标特征图和搜索特征图进行卷积得到一张响应图,把响应图送入尺度回归网络得到尺度位置得分图,获取目标尺度。
[0055]
s4目标重捕获:跟踪过程中,对目标的状态进行判断,判断目标是否被遮挡,或者
丢失,当目标丢失时扩大目标搜索范围,进行目标重捕获。
[0056]
s5抗干扰匹配跟踪:在跟踪过程中,记录目标和疑似目标的位置,尺度,置信度和纹理特征信息,当出现干扰物时,采用匈牙利匹配算法对当前预估的跟踪位置和历史跟踪轨迹进行跟踪匹配,选择跟历史轨迹最匹配的跟踪位置,从而排除干扰物的影响,保障对目标的长时跟踪。
[0057]
下面结合附图对本发明做进一步描述。
[0058]
实施例1
[0059]
如图1所示,本发明构建了一种基于rmad深度神经网络的单目标长时跟踪算法,其基本思想是利用孪生网络提取目标和搜索区域的深度特征,对目标特征建立模板库,采用在线学习模型的方法获得目标模版特征,由目标模板特征和搜索区域特征进行卷积得到分类得分图,获取到目标的位置信息。然后用尺度回归网络确定目标尺寸;通过跟踪状态判断机制,在目标丢失时扩大搜索范围重新进行搜索。当出现干扰物时,采用匈牙利匹配算法进行跟踪匹配,排除干扰物的影响。
[0060]
具体包括如下步骤:
[0061]
s1搭建基于孪生网络的特征提取网络:采用resnet50作为其主干网,该网络的输入由跟踪目标图像和跟踪搜索区域图像两部分构成,输入经过该网络后得到跟踪目标的特征图和搜索区域的特征图。
[0062]
s2在获取到第一步的结果后,把特征图送入分类网络中,得到分类得分图:该分类得分网络由一个在线学习的模型网络和一个相关卷积网络组成。在线学习的模型网络输入为一个有50帧目标特征模板的模板集合,模板集里包含15帧初始目标特征模板和后续跟踪过程中的目标特征模板,每隔20帧在线学习一次。在线学习的模型网络具体按照如下算法进行训练:
[0063]
1)其采用的损失函数为
[0064][0065][0066]
其中vj是训练图像的特征图,cj表示目标中心坐标。目的是要求出模型f,目标图像用ac来表示,当图像中的像素为背景像素时ac≈0,为目标时ac≈1。s=v*f,表示目标置信度得分,yc表示每个坐标位置的得分,yc采用高斯分布来进行初始化。其中yc,ac,ηc参数通过在线训练进行学习。
[0067]
然后根据分类得分响应图s

的pnr峰值信噪比得分来判断该目标特征图像是否加入模板库。当pnr值大于阈值t
pnr
并且分类得分也大于阈值ts′
时,把当前目标特征图加入模板库。当模板库满了则替换掉除初始模板外的最旧的模板,其pnr的计算公式如下:
[0068]
[0069][0070]
其中s

max
表示分类得分响应图s

中的最大值,s

min
表示分类得分响应图s

中最小值,ms表示除去最大响应值后s

的均值,t
pnr
为所有历史pnr值的均值,ts′
为所有历史s

max
的均值。
[0071]
s3通过尺度回归网络计算跟踪目标的矩形框:获取步骤(2)的模型目标特征图,将模型目标特征图和搜索特征图进行卷积得到一张响应图,把响应图送入尺度回归网络得到一张四维位置得分图aw×h×4,其中的每个点由一个四维向量组成,t(i,j)=(l,t,r,b)表示目标中心点(i,j)到目标矩形框四边的距离。尺度回归网络具体按照如下算法进行训练:
[0072]
其损失函数为
[0073]
l
ciou
=-ln(ciou)
[0074][0075]
其中l
ciou
是ciou损失,用(x
l
,y
l
)表示真实目标框的左上角点,(xr,yr)表示真实目标框的右下角点,(xc,yc)表示中心点坐标,则
[0076][0077]
根据分类得分图得到最高得分的目标位置,然后在其周围取top-k个目标框的均值作为最后目标的框。
[0078]
s4根据目标的分类得分进行目标状态判断:当得分小于0.25时判断目标被遮挡了或者当前没有找到目标。这时启用计数器,当计数器大于5时表示目标丢失,这时根据目标大小每隔2帧把搜索区域扩大1倍,再用分类网络寻找目标,当目标得分大于0.8时认为找到目标。当搜索时间超过一定帧数时认为目标丢失。
[0079]
s5抗干扰匹配:当分类得分图上会出现多个高于一定阈值的峰值点时如图2所示,表示跟踪过程出现多个疑似目标,这时把疑似目标的信息obji都保存下来,信息包括中心点位置,尺度,分类置信度,siltp特征,用匈牙利匹配算法对目标的历史跟踪轨迹tr
t
(p1,p2,

p
t
)进行匹配得到最后的跟踪结果。其中siltp(scale invariant local ternary pattern)算子是lbp算子的改进版,它对局部图像的噪声以及光照变化具有更强的鲁棒性,具备更强的纹理识别特性。对于一个给定位置(xc,yc),siltp的编码公式为:
[0080][0081]
其中gc为中心像素的灰度值,gk为中心像素领域内r(为半径的圆)的其他n个像素,s为分段函数,ε=0.3:
[0082][0083]
目标纹理特征的提取方法为:取目标图像,进行灰度变换,计算目标图像中每个像
素点的siltp值,采用4邻域,逆时针计算。匈牙利匹配中的代价由余弦相似度计算,其公式为:
[0084][0085]
其中obji向量为疑似目标的信息(中心点位置,尺度,分类置信度,siltp特征值),tr
t
向量为跟踪轨迹的最近一点的信息(中心点位置,尺度,分类置信度,siltp特征值)。
[0086]
与现有技术相比,本发明的有益效果如下:
[0087]
本发明的模板库更新是根据分类得分响应图的pnr值把可靠的目标模板加入模板库,减少模型漂移现象;
[0088]
尺度估计采用尺度回归网使得尺度更加稳定和准确;
[0089]
设计了目标的长时跟踪策略,目标丢失后启用动态扩大搜索范围和重识别;
[0090]
采用抗干扰匹配算法,减少相似物干扰,使得跟踪算法可以长时跟踪目标。
[0091]
本文所使用的词语“优选的”意指用作实例、示例或例证。本文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本技术中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“x使用a或b”意指自然包括排列的任意一个。即,如果x使用a;x使用b;或x使用a和b二者,则“x使用a或b”在前述任一示例中得到满足。
[0092]
而且,尽管已经相对于一个或实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
[0093]
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的存储方法。
[0094]
综上所述,上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

技术特征:
1.一种基于深度神经网络的单目标长时跟踪方法,其特征在于,包括以下步骤:获取跟踪目标图像和跟踪搜索区域图像,搭建基于孪生网络的特征提取网络,进行特征提取;在跟踪过程中,通过pnr得分选择目标图像加入模板库,送入模型学习网络进行模型学习和更新,得到模型目标特征图和搜索特征图;将模型目标特征图和搜索特征图进行卷积得到响应图,将所述响应图送入尺度回归网络得到尺度位置得分图,获取目标尺度;在跟踪过程中,对目标状态进行判断,判断目标是否被遮挡或丢失,当目标被遮挡或丢失时扩大目标搜索范围,进行目标重捕获;在跟踪过程中,记录目标和疑似目标的位置、尺度、置信度和纹理特征信息,当出现干扰物时,采用匈牙利匹配算法对当前预估的跟踪位置和历史跟踪轨迹进行跟踪匹配,选择跟历史轨迹最匹配的跟踪位置,从而排除干扰物的影响,保障对目标的长时跟踪。2.根据权利要求1所述的基于深度神经网络的单目标长时跟踪方法,其特征在于,所述孪生网络采用resnet50作为骨干网。3.根据权利要求1所述的基于深度神经网络的单目标长时跟踪方法,其特征在于,所述模型学习网络的损失函数为:学习网络的损失函数为:学习网络的损失函数为:其中v
j
是训练图像的特征图,c
j
表示目标中心坐标,目的是要求出模型f,目标图像用a
c
来表示,当图像中的像素为背景像素时a
c
≈0,为目标时a
c
≈1,s=v*f,表示目标置信度得分,y
c
表示每个坐标位置的得分,y
c
采用高斯分布来进行初始化,y
c
,a
c

c
参数通过在线训练进行学习。4.根据权利要求1所述的基于深度神经网络的单目标长时跟踪方法,其特征在于,所述pnr的计算公式如下:pnr的计算公式如下:其中s

max
表示分类得分响应图s

中的最大值,s

min
表示分类得分响应图s

中最小值,m
s
表示除去最大响应值后s

的均值,t
pnr
为所有历史pnr值的均值,t
s

为所有历史s

max
的均值。5.根据权利要求1所述的基于深度神经网络的单目标长时跟踪方法,其特征在于,尺度回归网络按照如下算法进行训练:损失函数为:
l
ciou
=-ln(ciou)其中l
ciou
是ciou损失,用(x
l
,y
l
)表示真实目标框的左上角点,(x
r
,y
r
)表示真实目标框的右下角点,(x
c
,y
c
)表示中心点坐标,则)表示中心点坐标,则)表示中心点坐标,则)表示中心点坐标,则根据分类得分图得到最高得分的目标位置,然后在其周围取top-k个目标框的均值作为最后目标的框。6.根据权利要求1所述的基于深度神经网络的单目标长时跟踪方法,其特征在于,根据目标的分类得分进行目标状态判断:当得分小于0.25时判断目标被遮挡了或者当前没有找到目标,这时启用计数器,当计数器大于5时表示目标丢失,再根据目标大小每隔2帧把搜索区域扩大1倍,用分类网络寻找目标,当目标得分大于0.8时认为找到目标;当搜索时间超过一定帧数时认为目标丢失。7.根据权利要求1所述的基于深度神经网络的单目标长时跟踪方法,其特征在于,跟踪过程出现多个疑似目标时,将疑似目标的信息保存下来,所述信息包括中心点位置、尺度、分类置信度和siltp特征。8.根据权利要求7所述的基于深度神经网络的单目标长时跟踪方法,其特征在于,对于一个给定位置(x
c
,y
c
),所述siltp特征的编码公式为:其中g
c
为中心像素的灰度值,g
k
为中心像素领域内半径为r的圆中的其它k个像素,s为分段函数,ε=0.3:9.根据权利要求8所述的基于深度神经网络的单目标长时跟踪方法,其特征在于,所述匈牙利匹配算法中的代价由余弦相似度计算向量间的相似度,其中obj
i
向量为疑似目标的中心点位置、尺度、分类置信度、siltp特征值组成,tr
t
向量为跟踪轨迹的最近一点的中心点位置,尺度,分类置信度,siltp特征值。

技术总结
本发明属于目标跟踪技术领域,公开了基于深度神经网络的单目标长时跟踪方法,包括:获取跟踪目标图像和跟踪搜索区域图像,搭建基于孪生网络的特征提取网络,进行特征提取;在跟踪过程中,通过PNR得分选择目标图像加入模板库,送入模型学习网络进行模型学习和更新,将模型目标特征图和搜索特征图进行卷积得到响应图,将响应图送入尺度回归网络得到尺度位置得分图,获取目标尺度;当目标被遮挡或丢失时进行目标重捕获;在跟踪过程中,记录目标和疑似目标的信息,当出现干扰物时,选择跟历史轨迹最匹配的跟踪位置。本发明减少模型漂移现象;使得尺度估计更加稳定准确;采用重搜索机制和抗干扰匹配技术使得算法适合长时目标跟踪。踪。踪。


技术研发人员:黄飞 彭蓉华 宁平
受保护的技术使用者:长沙超创电子科技有限公司
技术研发日:2022.07.14
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-2087.html

最新回复(0)