基于孪生网络的卫星视频目标跟踪方法、设备及软件产品

专利2025-07-01 54

本发明属于遥感图像处理，涉及一种卫星视频目标跟踪方法、设备及软件产品，尤其涉及一种基于孪生网络结合时序信息和轨迹预测的卫星视频目标跟踪方法、设备及软件产品。

背景技术：

1、卫星视频单目标跟踪技术是在初始帧选定一个感兴趣的目标，在后续帧中持续给出该目标所处的状态。目标跟踪通常被用于军事战略决策、灾害应急、智慧交通等多个领域[1],[2]。由于卫星视频数据具有图幅范围大的特点，目标难以“逃逸”成像范围，故卫星视频目标跟踪具有广泛的应用前景，尤其是在国防军事领域有重要价值。

2、相较于传统相机，卫星视频面临着新的挑战，主要体现在三个方面：1)目标微小，特征模糊；2)大量相似性目标且背景杂乱；3)遮挡问题严重。现有的卫星视频目标跟踪方法致力于解决上述三方面问题。现有工作主要可分为两大类别：首先，是基于传统核滤波方法[3],[4]，这种方法通过在线训练一个滤波器提取目标特征并对搜索图像进行滤波，响应值最高的位置即为目标所在位置。然而，传统核滤波方法提取的手工特征难以表达目标深层次的丰富信息，跟踪性能不够鲁棒。其次，是基于深度学习的方法，主流的工作是基于孪生网络[5],[8],[9]和transformer的深度学习算法[6]。当前深度学习算法利用卷积神经网络分别提取模板图像和搜索图像间的特征，然后，利用基于注意力机制的方法融合两特征间的信息，然而，这种直接将富含大量冗余信息的特征进行信息交互会导致目标特征难以被突出[10]。在应对频繁的遮挡问题上，当前的工作主[7][11]要是人工设定遮挡判断条件，再结合卡尔曼滤波或其扩展预测目标轨迹，这种方式增加了模型的复杂度，降低了模型泛化性。总的来说现有方法仍存在三点不足：1)不充分的判别性特征；2)解决遮挡的方法复杂；3)过多的超参数，模型泛化性差。

3、参考文献：

4、[1]j.shao,b.du,c.wu,m.gong,and t.liu,‘hrsiam:high-resolution siamesenetwork,towards space-borne satellite video tracking’,ieee trans.imageprocess.,vol.30,pp.3056–3068,2021.

5、[2]g.kopsiaftis and k.karantzalos,‘vehicle detection and trafficdensity monitoring from very high resolution satellite video data’,inproc.ieee int.geosci.remote sens.symp.(igarss),jul.2015,pp.1881–1884.

6、[3]j.shao,b.du,c.wu,and l.zhang,‘tracking objects from satellitevideos:a velocity feature based correlation filter’,ieee trans.geosci.remotesens.,vol.57,no.10,pp.7860–7871,oct.2019.

7、[4]y.chen,y.tang,z.yin,t.han,b.zou,and h.feng,‘single object trackingin satellite videos:a correlation filter-based dual-flow tracker’,ieeej.sel.topics appl.earth observ.remote sens.,vol.15,pp.6687–6698,2022.

8、[5]b.li,j.yan,w.wu,z.zhu,and x.hu,‘high performance visual trackingwith siamese region proposal network’,in proc.ieee/cvfconf.comput.vis.pattern recognit.(cvpr),jun.2018,pp.8971–8980.

9、[6]p.lai,m.zhang,g.cheng,s.li,x.huang,and j.han,‘target-awaretransformer for satellite video object tracking’,ieee trans.geosci.remotesens.,vol.62,pp.1–10,2024.

10、[7]y.li,c.bian,and h.chen,‘object tracking in satellite videos:correlation particle filter tracking method with motion estimation by kalmanfilter’,ieee trans.geosci.remote sens.,vol.60,pp.1–12,2022.

11、[8]j.yang,z.pan,z.wang,b.lei,and y.hu,‘siammdm:an adaptive fusionnetwork with dynamic template for real-time satellite video single objecttracking’,ieee trans.geosci.remote sens.,vol.61,pp.1–19,2023.

12、[9]y.wu et al.,‘cslt:contourlet-based siamese learning tracker fordim and small targets in satellite videos’,ieee trans.geosci.remote sens.,vol.61,pp.1–13,2023.

13、[10]w.song et al.,‘a joint siamese attention-aware network forvehicle object tracking in satellite videos’,ieee trans.geosci.remote sens.,vol.60,pp.1–17,2022.

14、[11]s.xuan,s.li,m.han,x.wan,and g.-s.xia,‘object tracking insatellite videos by improved correlation filters with motion estimations’,ieee trans.geosci.remote sens.,vol.58,no.2,pp.1074–1086,feb.2020

技术实现思路

1、本发明目的旨在提升卫星视频目标跟踪的准确性、可靠性和效率性，为卫星视频目标跟踪的研究和应用提供有力支持，提供了一种基于孪生网络结合时序信息和轨迹预测的卫星视频目标跟踪方法、设备及软件产品。

2、本发明的方法采用的技术方案是：一种基于孪生网络的卫星视频目标跟踪方法，包括以下步骤：

3、步骤1：基于第一帧的模板图像搜索图像时序信息为其中，i＝0,1,2,...n代表时序信息序列，c，h，w分别为图像的维度，长度和宽度。利用孪生网络的特征提取模块，提取模板图像s、搜索图像t和时序信息ti中目标的通用特征下标n分别代表resnet50最后3层block的输出，上标l代表不同的输入图像；l∈t,s,ti；n＝3,4,5；

4、步骤2：利用孪生网络的时序信息模块，对模板特征和时序信息特征两者进行信息交互，得到突出的模板深层特征

5、步骤3：将搜索图像特征中的两个相对深层特征进行融合得到搜索图像深层融合特征然后，对和分别执行深度互相关操作，得到浅层特征响应图rlow和深层特征响应图rhigh；最后对rlow和rhigh进行融合，得到最终响应图rfinal；

6、步骤4：基于头部回归模块，利用rfinal得到分类图mcls、目标中心图mcen和边界框回归图mreg；

7、步骤5：将mcls和mcen进行逐元素相乘，得到定位图mloc；结合定位图mloc最大响应位置，从边界框回归图的相应位置中得到目标具体位置和大小；

8、步骤6：将定位图mloc输入到遮挡判断模块，决定最终输出。

9、作为优选，步骤1中，首先使用后2个block修改后的resnet50特征提取网络提取模板图像s、搜索图像t和时序信息ti中目标的通用特征然后利用1×1大小的2维卷积核conv对通道进行降维，得到统一尺度的3个多尺度特征图

10、作为优选，步骤2中，所述时序信息模块，首先将模板特征和时序信息特征中的后2个相对更深层的特征进行连接concat操作，并利用1×1大小的2维卷积核conv进行深层信息融合操作，得到深层融合特征l＝t,ti；然后对模板特征和时序信息特征两者进行信息交互其中，分别表示模板深层融合特征和时序信息深层融合特特征，unit是基本单元，norm是归一化操作，两个基本单元unit堆叠后残差连接构成时序信息模块；

11、基本单元unit由注意力机制和多层感知机ffn构成，基本结构为：

12、

13、xf1＝xcf+ffn(xcf),

14、ffn(xcf)＝(max(0,w1xcf+b1))w2+b2,

15、其中，pos是位置编码，attn是注意力机制，xcf是两深层融合特征信息交互后的特征、ffn(xcf)是对交互后的特征进行高维求解和增加非线性，xf1是基本单元unit的输出。w1，b1，w2，b2分别是线性层1和线性层2的权重和偏差；将模板图像和时序信息中的深层融合特征输入时序信息模块，得到突出的模板深层特征

16、作为优选，步骤3中，

17、

18、rfinal＝conv(concat(rlow,rhigh))；

19、其中，＊代表深度互相关操作，concat表示连接操作，conv为1×1大小的2维卷积核。

20、作为优选，步骤4中，所述头部回归模块，由3×3大小的二维卷积核、归一化层和激活函数堆叠4层而成，再由一层3×3大小的二维卷积核进行输出，分别得到分类图mcls，目标中心图mcen，边界框回归图mreg。

21、作为优选，步骤5中，利用softmax函数将分类图mcls进行概率转化，目标中心图mcen进行归一化处理后，两者逐元素相乘，得到定位图mloc＝softmax(mcls)*mcen；定位图mloc代表目标出现在某一位置的概率，利用argmax函数得到定位图mloc中目标出现概率最大位置(i,j)＝argmax(mloc)；最后，从边界框回归图mreg的相应位置中得到目标具体位置和大小。

22、作为优选，步骤6中，将定位图mloc输入到遮挡判断模块中执行下述操作：

23、

24、otherwise；visible

25、其中，ψ代表遮挡判断函数，其下标代表不同的判断条件；ψnum是衡量定位图的高值群数量，ψarea是衡量定位图高值群面积；tgtarea是目标面积；occlusion、visible分别表示目标被遮挡和可见。

26、若判断结果为遮挡则进入到轨迹预测模块：

27、

28、其中，代表多项式拟合函数，xpre，ypre是轨迹预测模块预测目标当前帧中心位置，k代表仅当当前帧t大于k时调用轨迹预测模块，最终输出结果为xpre，ypre和步骤5所得到的目标大小，反之则直接输出步骤5得出的结果。

29、作为优选，步骤4中所述头部回归模块，拥有三个分支，具有三部分损失函数，训练过程中采用的损失函数为：

30、

31、其中，λ1，λ2是权重，是分类损失，是中心损失，是回归损失；yi代表mcls中每个特征点的真实标签，若存在目标为1，否则为0,n代表总的特征点数量、代表边界框回归图每个特征点与相应的真实值边界框的上下左右边距、mreg(i,j,:)代表边界框回归图每个特征点的边界框坐标、mcen(i,j)代表目标中心图每个特征点的得分。是一个二元函数，代表像素是否处在真实框内，在真实框内值为1，反之则为0；liou是计算预测框与真实框间的交并比函数，c(i,j)代表该像素点的中心值得分；分别代表预测框与真实框中心点的上下左右边距。

32、本发明的设备采用的技术方案是：一种基于孪生网络的卫星视频目标跟踪设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现所述基于孪生网络的卫星视频目标跟踪方法。

33、本发明的软件产品采用的技术方案是：一种软件产品，包括计算机程序，所述计算机程序被处理器执行时实现所述基于孪生网络的卫星视频目标跟踪方法。

34、本发明的优点和积极效果包括：

35、(1)为了提取更具有判别性的目标特征，本发明引入时序信息，通过所提出的时序信息模块对目标模板特征进行增强，突出判别性特征，皆在实现模板图像与搜索图像间更可靠的匹配，从而提升模型性能。

36、(2)为了解决遮挡和提升模型效率，本发明引入了一种简单但有效的方式对目标轨迹进行预测。本发明利用多项式拟合目标历史轨迹并预测目标当前位置，皆在提升模型应对遮挡能力和实时跟踪的效率。

37、(3)为了减少模型超参数，本发明舍弃了特征融合和结果融合的策略，并提出一种基于目标大小自适应的遮挡判断模块，皆在避免在不同数据集上的人工调整，提升模型的泛化性和鲁棒性。

技术特征：

1.一种基于孪生网络的卫星视频目标跟踪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于孪生网络的卫星视频目标跟踪方法，其特征在于：步骤1中，首先使用后2个block修改后的resnet50特征提取网络提取模板图像s、搜索图像t和时序信息ti中目标的通用特征然后利用1×1大小的2维卷积核conv对通道进行降维，得到统一尺度的3个多尺度特征图

3.根据权利要求1所述的基于孪生网络的卫星视频目标跟踪方法，其特征在于：步骤2中，所述时序信息模块，首先将模板特征和时序信息特征中的后2个相对更深层的特征进行连接concat操作，并利用1×1大小的2维卷积核conv进行深层信息融合操作，得到深层融合特征然后对模板特征和时序信息特征两者进行信息交互其中，分别表示模板深层融合特征和时序信息深层融合特特征，unit是基本单元，norm是归一化操作，两个基本单元unit堆叠后残差连接构成时序信息模块；

4.根据权利要求1所述的基于孪生网络的卫星视频目标跟踪方法，其特征在于：步骤3中，

5.根据权利要求1所述的基于孪生网络的卫星视频目标跟踪方法，其特征在于：步骤4中，所述头部回归模块，由3×3大小的二维卷积核、归一化层和激活函数堆叠4层而成，再由一层3×3大小的二维卷积核进行输出，分别得到分类图mcls，目标中心图mcen，边界框回归图mreg。

6.根据权利要求1所述的基于孪生网络的卫星视频目标跟踪方法，其特征在于：步骤5中，利用softmax函数将分类图mcls进行概率转化，目标中心图mcen进行归一化处理后，两者逐元素相乘，得到定位图mloc＝softmax(mcls)*mcen；定位图mloc代表目标出现在某一位置的概率，利用argmax函数得到定位图mloc中目标出现概率最大位置(i,j)＝argmax(mloc)；最后，从边界框回归图mreg的相应位置中得到目标具体位置和大小。

7.根据权利要求1所述的基于孪生网络的卫星视频目标跟踪方法，其特征在于：步骤6中，将定位图mloc输入到遮挡判断模块中执行下述操作：

8.根据权利要求1-7任一项所述的基于孪生网络的卫星视频目标跟踪方法，其特征在于：步骤4中所述头部回归模块，拥有三个分支，训练过程中采用的损失函数为：

9.一种基于孪生网络的卫星视频目标跟踪设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述基于孪生网络的卫星视频目标跟踪方法。

10.一种软件产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述基于孪生网络的卫星视频目标跟踪方法。

技术总结
本发明公开了一种基于孪生网络的卫星视频目标跟踪方法、设备及软件产品，基于孪生网络、时序信息模块、轨迹预测模块和遮挡判断模块来完成目标跟踪任务。本发明基于孪生网络，提取模板图像、搜素图像和时序信息特征。通过引入的时序信息和时序信息模块，本发明提取到更具有判别性的模板特征，提升模型精确匹配的能力；此外，本发明通过引入基于目标大小自适应的遮挡判断模块和一种简单但有效地轨迹预测模块，有效地解决了目标被频繁遮挡的问题，进一步提升了模型的效率和泛化性。

技术研发人员：董燕妮,周佳伟,张玉香,李雪,杜博
受保护的技术使用者：武汉大学
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-15531.html

专利

最新回复(0)