本发明涉及计算机视觉,特别是涉及一种基于仿生记忆链解决目标遮挡的端到端视频目标检测方法。
背景技术:
1、在计算机视觉领域中,视频目标检测是一个非常活跃并具有挑战性的研究方向,已经在近年的研究中取得了显著进展。视频目标检测旨在定位并分类连续视频帧中的目标,对自动驾驶、视频监控、通用视频理解的发展有着至关重要的意义。然而,视频中的目标往往会被其他目标或环境因素遮挡,这给检测带来了巨大的挑战。值得注意的是,存在遮挡的场景下的单帧特征非常有限,使用通用目标检测方法进行逐帧检测往往精度较低。
2、为了解决单帧特征中的缺陷,特别是遮挡,现有的视频目标检测方法通常利用堆叠式或流式建模来融合时间特征。其中,堆叠式建模在不同时间t时,将当前帧与可见时间范围(固定大小)内的历史帧融合,用于检测当前帧内的目标。这种方法计算量大,没有利用即时时间窗口之外的视觉特征,导致特征融合效率低下,降低了对长期遮挡的适应性。流式建模以固定大小的特征块表征所有历史帧信息,在时间t时,继承t-1时刻的特征块并与当前帧融合,融合后的特征块用于检测当前帧内的目标。这种方法通常无法对所有历史帧分配不同的权重,导致特征融合效率低,并且精度受限。
3、鉴于此,克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。
技术实现思路
1、本发明要解决的技术问题是:现有的视频目标检测方法通常利用堆叠式或流式建模来融合时间特征,堆叠式建模计算量大,没有利用即时时间窗口之外的视觉特征,导致特征融合效率低下,降低了对长期遮挡的适应性,流式建模无法对所有历史帧分配不同的权重,导致特征融合效率低,并且精度受限。
2、本发明采用如下技术方案:
3、第一方面,本发明提供了一种基于仿生记忆链解决目标遮挡的端到端视频目标检测方法,包括:
4、对原始视频数据集中所有图像的感兴趣类别的目标进行实例级别的标注,标签为实例级别的包围框的左上及右下顶点和实例对应的目标类别,得到带标注的标准训练数据集;其中,所述实例级别的标注包括对局部遮挡的目标进行标注;
5、定义基于仿生记忆链和遮挡目标实例监督的端到端视频目标检测算法模型;根据所述带标注的标准训练数据集,计算预测标签,并设计损失函数,利用反向传播和梯度下降算法训练该基于仿生记忆链和遮挡目标实例监督的端到端视频目标检测算法模型;
6、利用训练好的模型对待检测视频进行视频目标检测。
7、优选的,所述定义基于仿生记忆链和遮挡目标实例监督的端到端视频目标检测算法模型,具体包括:
8、所述基于仿生记忆链和遮挡目标实例监督的端到端视频目标检测算法模型包括特征金字塔结构网络、跨尺度编码器、仿生记忆链、记忆缓存器、记忆解码器和检测头;其中,所述检测头包括边框回归网络和类别判别网络;
9、所述特征金字塔结构网络以hgnetv2-l网络为基础网络,通过在训练时冻结批量归一化层与第1层的所有卷积参数,对第{1,2,3,4,5}层分别配置{0,0.05,0.05,0.05,0.05}的学习率,输出第{3,4,5}层的特征得到多尺度特征;其中,所述多尺度特征包括三层不同尺度的特征;
10、所述跨尺度编码器对特征金字塔网络输出的三层不同尺度的特征分别使用自注意力计算得到尺度内交互特征{i1,i2,i3},并通过三层连续的组合操作,计算得到跨尺度融合特征作为输出;其中,所述组合操作包括:卷积与激活函数、批量归一化、矩阵加法和串联连接;
11、所述仿生记忆链由当前帧特征、上一帧特征、强印象、碎片记忆四个部分以1:1:1:1的通道比例串联组成,以跨尺度融合特征作为输入,同时从记忆缓存器中读取上一帧时写入的记忆信息作为输入,通过定义的关注、复述、传递、增强与检索操作计算得到四个部分对应的特征,并将该四部分特征串联为特征链,最终将特征链作为输出的同时写入记忆缓存器用于下一帧时的记忆更新;
12、所述记忆缓存器缓存不同帧时仿生记忆链的记忆信息,提供读取与写入操作,用于仿生记忆链的记忆更新;其中,所述记忆信息即特征链;
13、所述记忆解码器对仿生记忆链输出的特征链使用头数为8的多头交叉注意力计算得到跨尺度时序融合特征;
14、所述检测头对跨尺度时序融合特征以边框回归网络预测得到感兴趣实例的包围框,对跨尺度时序融合特征以类别判别网络得到感兴趣实例的类别判别;
15、算法模型总共包含6个检测任务头,在6个检测任务头完成实例的检测之后,得到算法模型最终的预测结果。
16、优选的,所述根据所述带标注的标准训练数据集,计算预测标签,具体包括:
17、以标准训练数据集itr作为识别网络模型的输入,利用特征金字塔网络模块提取多尺度特征;
18、根据特征金字塔模块输出的多尺度特征,利用跨尺度编码器编码得到跨尺度融合特征;
19、以跨尺度编码器编码得到的跨尺度融合特征为输入,以记忆缓存器读取的上一帧对应记忆信息为输入,利用仿生记忆链更新得到当前帧对应的记忆特征;
20、根据仿生记忆链得到的当前帧对应记忆特征,利用记忆缓存器写入该记忆特征用于下一帧的记忆更新;
21、根据仿生记忆链得到的当前帧对应记忆特征,利用记忆解码器解码得到当前帧对应的跨尺度时序融合特征;
22、根据记忆解码器解码得到的当前帧对应跨尺度时序融合特征,利用检测头进行感兴趣实例的包围框预测、类别判别,作为网络预测输出。
23、优选的,所述以标准训练数据集itr作为识别网络模型的输入,利用特征金字塔网络模块提取多尺度特征,具体包括:
24、将标准训练数据集itr中的图像输入特征金字塔网络自底向上的hgnetv2-l网络结构中,以网络中不改变特征图大小的卷积层单元定义为一个层级,即层级{p1,p2,p3,p4,p5},提取出每个层级最后输出的卷积特征c,即{c1,c2,c3,c4,c5};将{c3,c4,c5}作为多尺度特征输出,对应尺度分别为原图大小的{1/2,1/4,1/8}。
25、优选的,所述根据特征金字塔模块输出的多尺度特征,利用跨尺度编码器编码得到跨尺度融合特征,具体包括:
26、跨尺度编码器对特征金字塔网络输出的三层不同尺度的特征分别使用自注意力计算得到尺度内交互特征{i1,i2,i3},其中各层使用的自注意力的头数均为1;
27、并通过三层连续的组合操作计算得到跨尺度融合特征作为输出,其中卷积的步幅均为1,激活函数均为silu。
28、优选的,所述以跨尺度编码器编码得到的跨尺度融合特征为输入,以记忆缓存器读取的上一帧对应记忆信息为输入,利用仿生记忆链更新得到当前帧对应的记忆特征,具体包括:
29、所述仿生记忆链由当前帧特征、上一帧特征、强印象、碎片记忆四个部分以1:1:1:1的通道比例串联组成,即:
30、bmc=[f,s,p,c]
31、其中,bmc代表仿生记忆链,c代表当前帧特征,p代表上一帧特征,s代表强印象,f代表碎片记忆;上一帧特征与当前帧特征为记忆链中浅层部分,用于构建短期记忆;碎片记忆与强印象为记忆链中深层部分,用于构建长期记忆;
32、仿生记忆链输出的对应当前帧it的记忆特征记为[bmc]t,各部分对应记忆特征记为ft、st、pt与ct,t为帧序号;
33、在当前帧序号为t,即当前帧为it时,根据跨尺度编码器输出的跨尺度融合特征ft,以及从记忆缓存器中读取的上一帧对应记忆信息[bmc]t-1,通过定义的关注、复述、传递、增强与检索操作计算[bmc]t。
34、优选的,所述通过定义的关注、复述、传递、增强与检索操作计算[bmc]t,具体包括:
35、从上一帧对应记忆信息[bmc]t-1中获取ft-1、st-1、pt-1与ct-1;
36、采用卷积核尺寸为1,步幅为0的卷积算子对ft进行卷积得到ct;其中,ft为跨尺度融合特征;
37、采用卷积核尺寸为1,步幅为0的卷积算子对ct-1进行卷积得到pt;
38、将ct-1输入交叉注意力模块,同时将pt-1输入交叉注意力模块,由交叉注意力模块计算得到ct-1相对pt-1的强相似特征,并与st-1相加得到st;
39、将ct-1输入线性映射模块以减半通道数并压缩特征,同时将ft-1输入另一线性映射模块以减半通道数并压缩特征,将两个线性映射模块的输出进行串联连接得到ft;
40、通过串联连接ft、st、pt与ct得到仿生记忆链输出的对应当前帧it的记忆特征[bmc]t。
41、优选的,所述根据仿生记忆链得到的当前帧对应记忆特征,利用记忆缓存器写入该记忆特征用于下一帧的记忆更新,具体包括:
42、根据仿生记忆链得到的当前帧对应记忆特征[bmc]t,记忆缓存器通过分解[bmc]t得到ft、st、pt与ct,并逐个存储ft、st、pt与ct,用于下一帧时的记忆更新,即用于更新得到ft+1、st+1、pt+1与ct+1。
43、优选的,所述根据记忆解码器解码得到的当前帧对应跨尺度时序融合特征,利用检测头进行感兴趣实例的包围框预测、类别判别,作为网络预测输出,具体包括:
44、根据仿生记忆链得到的当前帧对应记忆特征[bmc]t,记忆解码器以[bmc]t为输入,同时以跨尺度编码器输出的跨尺度融合特征ft为输入,使用头数为8的多头交叉注意力计算得到当前帧的跨尺度时序融合特征;
45、检测头由边框回归网络、类别判别网络组成,其中检测头的数量为6;边框回归网络为多个线性映射层组成的输出维度为4的网络;类别判别网络为单个线性映射层组成的网络,其输出维度为感兴趣目标的总类别数;6个检测头共包含6个边框回归网络与6个类别判别网络;
46、各个边框回归网络的输出为预测的包围框坐标值(χ1,y1,χ2,y2),其中χ1与y1对应包围框左上角顶点的横纵坐标值,χ2与y2对应包围框右下角顶点的横纵坐标值;
47、各个类别判别网络的输出为n维向量,n值为标准训练数据集itr中感兴趣目标的总类别数,各个维度的取值大小对应该目标属于各个类别的概率,概率最大的类别即是判定归属的类别c;
48、在6个检测任务头完成实例的检测之后,得到算法模型最终的预测结果(χ1,y1,χ2,y2,c)。
49、优选的,所述设计损失函数,利用反向传播和梯度下降算法训练该基于仿生记忆链和遮挡目标实例监督的端到端视频目标检测算法模型,具体包括:
50、以预测标签(χ1,y1,χ2,y2,c)为网络预测输出,以标准数据集中样本标签为网络期望输出,通过匈牙利匹配算法,构建在300个网络预测输出和样本标签之间的对应关系;
51、以训练标签gt为网络期望输出,以预测标签为网络预测输出,针对构建的网络模型,计算期望输出和预测输出之间的目标损失函数:以所述匈牙利匹配算法的匹配结果为依据,在网络期望输出与网络预测输出之间计算损失函数,整体目标损失函数由边框回归损失、分类损失共同组成;
52、根据目标损失函数,利用反向传播以及梯度下降算法对模型进行迭代训练,最小化目标损失函数,实现最优网络模型及参数。
53、第二方面,本发明还提供了一种基于仿生记忆链解决目标遮挡的端到端视频目标检测装置,用于实现第一方面所述的基于仿生记忆链解决目标遮挡的端到端视频目标检测方法,所述装置包括:
54、至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述处理器执行,用于执行第一方面所述的基于仿生记忆链解决目标遮挡的端到端视频目标检测方法。
55、第三方面,本发明还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,用于完成第一方面所述的方法。
56、第四方面,提供了一种芯片,包括:处理器和接口,用于从存储器中调用并运行存储器中存储的计算机程序,执行如第一方面的方法。
57、第五方面,提供了一种包含指令的计算机程序产品,当该指令在计算机或处理器上运行时,使得计算机或处理器执行如第一方面的方法。
58、本发明通过构建基于仿生记忆链和遮挡目标实例监督的端到端视频目标检测算法模型,能够更高效的融合包括当前帧与所有历史帧在内的时序特征,并且可以进行端到端的训练,训练速度较快,还可表征所有历史帧信息,并根据历史帧与当前帧的相关性和时间接近度来自适应地加权记忆,对被遮挡的目标尤其长期被遮挡的目标具有强鲁棒性。
1.一种基于仿生记忆链解决目标遮挡的端到端视频目标检测方法,其特征在于,包括:
2.根据权利要求1所述的基于仿生记忆链解决目标遮挡的端到端视频目标检测方法,其特征在于,所述定义基于仿生记忆链和遮挡目标实例监督的端到端视频目标检测算法模型,具体包括:
3.根据权利要求1所述的基于仿生记忆链解决目标遮挡的端到端视频目标检测方法,其特征在于,所述根据所述带标注的标准训练数据集,计算预测标签,具体包括:
4.根据权利要求3所述的基于仿生记忆链解决目标遮挡的端到端视频目标检测方法,其特征在于,所述以标准训练数据集itr作为识别网络模型的输入,利用特征金字塔网络模块提取多尺度特征,具体包括:
5.根据权利要求3所述的基于仿生记忆链解决目标遮挡的端到端视频目标检测方法,其特征在于,所述根据特征金字塔模块输出的多尺度特征,利用跨尺度编码器编码得到跨尺度融合特征,具体包括:
6.根据权利要求3所述的基于仿生记忆链解决目标遮挡的端到端视频目标检测方法,其特征在于,所述以跨尺度编码器编码得到的跨尺度融合特征为输入,以记忆缓存器读取的上一帧对应记忆信息为输入,利用仿生记忆链更新得到当前帧对应的记忆特征,具体包括:
7.根据权利要求6所述的基于仿生记忆链解决目标遮挡的端到端视频目标检测方法,其特征在于,所述通过定义的关注、复述、传递、增强与检索操作计算[bmc]t,具体包括:
8.根据权利要求3所述的基于仿生记忆链解决目标遮挡的端到端视频目标检测方法,其特征在于,所述根据仿生记忆链得到的当前帧对应记忆特征,利用记忆缓存器写入该记忆特征用于下一帧的记忆更新,具体包括:
9.根据权利要求3所述的基于仿生记忆链解决目标遮挡的端到端视频目标检测方法,其特征在于,所述根据记忆解码器解码得到的当前帧对应跨尺度时序融合特征,利用检测头进行感兴趣实例的包围框预测、类别判别,作为网络预测输出,具体包括:
10.根据权利要求1所述的基于仿生记忆链解决目标遮挡的端到端视频目标检测方法,其特征在于,所述设计损失函数,利用反向传播和梯度下降算法训练该基于仿生记忆链和遮挡目标实例监督的端到端视频目标检测算法模型,具体包括:
