本发明属于检测识别,涉及一种基于对比学习的双路径融合的群体行为识别方法。
背景技术:
1、群体行为识别(group activity recognition,简称gar)通常是指在计算机视觉、机器学习和人工智能领域中,对群体(如人群、动物群、车辆群、网络用户群等)的集体活动、交互或协作行为模式进行自动检测、分析和理解的技术。该技术在多个领域有广泛的应用,其中包括:社会学、公共安全、智能交通管理、视频监控、体育分析、动物行为生态学研究和人群管理等。群体行为识别的关键在于:技术手段涉及深度学习、计算机视觉、多对象检测与追踪、行为建模态识别、图模型、时空序列分析等。随着ai技术的进步,群体行为识别正变得越来越精准,对城市管理、事件预测、安全策略、交通优化等有重要价值。
2、群体行为识别旨在识别视频场景中多个个体所进行的集体活动。由于群体行为识别在理解社会行为、分析体育视频和监控系统等方面有广泛应用,因此在计算机视觉领域引起了广泛关注。与传统的动作识别不同,群体行为识别涉及多个个体和个体之间的复杂交互,因此建模个体之间丰富的时空上下文信息对识别群体行为至关重要。
3、现有技术中的一些群体行为识别研究尝试使用卷积神经网络、循环神经网络、图卷积网络和transformer等捕捉个体之间的时间和空间交互关系。例如,arg使用个体在每帧中的外观和位置信息构建关系图。一些群体行为识别方法分开建模个体的时间和空间交互关系。此外,一些群体行为识别工作证明了集成多尺度特征(如亚群级别和场景级别)对提高模型性能的重要性。
4、然而,上述方法忽略了联合考虑时空注意力的重要性。此外,不同群体行为中个体之间的时间和空间交互顺序各不相同,因此采用互补的时空建模顺序来适应群体行为的多样性十分重要。dual-ai即是通过互补的时空双路径联合建模个体的时间和空间交互关系,并利用mac损失将双路径中的个体交互关联起来。然而,在双路径融合方面,它仅简单地将双路径的分类得分相加,没有深入探讨双分支的不同融合方法。同时,mac损失的设计也较为复杂。此外,它仅关注个体实例层级的交互,忽略了个体类别层级的交互。
5、因此,需要一种充分探索视频中多个个体之间复杂的时空交互关系的群体行为识别方法来解决上述问题。
技术实现思路
1、为了解决上述技术问题,本发明具体是通过如下技术方案来实现的。
2、一种基于对比学习的双路径融合的群体行为识别方法,包括以下步骤:
3、步骤1、利用inception-v3作为主干网络来提取视频片段的特征图;
4、步骤2、基于n个边界框,将roi-align应用于步骤1中提取的特征图的每帧以提取个体特征;
5、步骤3、使用全连接层将步骤2中提取的个体特征的维度转换为d-维向量,获取个体特征
6、步骤4、将步骤3中获取的个体特征输入到由时间编码器和空间编码器组成的双路径中,建模个体特征的时-空和空-时交互关系;
7、步骤5、将步骤4中由时间编码器和空间编码器组成的双路径的特征融合,充分发挥双路径互补的优势;
8、步骤6、根据真实动作标签区分个体特征,进行平均池化以获取个体类别级特征;
9、步骤7、使用具有多头注意力机制的编码器增强类别特征之间的交互;
10、步骤8、通过对比学习损失函数,将正样本对的损失函数用于使两条路径上对应的个体特征保持一致,减少噪声干扰,将负样本对的损失函数用于增加不同个体类别之间的差异性,减少类间混淆;
11、步骤9、分别对增强后的个体实例级特征和个体类别级特征进行最大池化,得到群体表征,用于群体行为分类。
12、优选的,所述步骤5中,基于transformer的时间编码器和空间编码器形成双路径融合网络,利用自注意力机制在捕获长范围依赖性方面的能力,编码器可全面捕获个体在时间和空间域内的交互关系,从而增强个体的时空特征,以不同的顺序堆叠时间编码器和空间编码器,搭建空间-时间和时间-空间的双路径结构。
13、更优的,所述时间编码器表示为时间编码器为将所有个体的特征{x”n|n=1,…,n}组装在一起;
14、其中:
15、
16、x”n=ffn(x’n) (3)
17、表示t帧中第n个个体的特征,利用基于自注意力机制的时间编码器来提取跨帧个体的时间动态,从而对跨帧的时间演变进行建模以获得时间上下文信息;spe指的是空间位置编码,用于添加场景中参与者的空域分布信息;wq,wk,wv是可学习的参数,形状为d×d;ffn是前馈网络,可以进一步增强编码器的学习能力。
18、更优的,所述空间编码器表示为空间编码器为将所有个体的特征{x”t|t=1,…,t}组装在一起;
19、其中:
20、
21、x”t=ffn(x't) (3-1)
22、表示t帧中第n个个体的特征,空间编码器使用时间维度作为批处理维度来对帧内个体之间的空间关系进行建模;输入第t帧中n个个体的特征向量采用多头自注意力机制来推断帧内个体之间的空间相互作用,从而增强个体的空域特征。
23、优选的,所述步骤5中,所述时间编码器和空间编码器组成的双路径的特征融合步骤为:
24、步骤5-1,基于个体实例级特征进行融合,结合捕捉时空线索方面的互补优势,更好地实现时空特征增强;时空特征xfus表示为:
25、xfus=xts+xst (6)
26、式(6)中,xts表示时-空路径,xst表示空-时双径;
27、步骤5-2,在融合个体实例级特征的基础上,设计个体类别级交互模块,将类别级特征进行融合;
28、步骤5-3,输入包括个体实例级融合后的时空特征和真实动作标签;
29、步骤5-4,将每一帧内n个个体的特征按照标签分成m类,并对各个类别内的所有个体进行平均池化,得到类别级个体特征
30、步骤5-5,将所有帧的特征打包成步骤5-6,使用带有多头自注意机制的编码器对类别间的交互进行建模,得到更新的类别级特征。
31、优选的,所述步骤8中,所述正样本对的损失函数表示为:lpos;
32、
33、式(8)、式(9)中,simi,j表示正样本对之间的余弦相似度,||·||表示向量的l2范数,
34、更优的,所述负样本对的损失函数表示为:lneg;
35、
36、式(10)中,si,j表示负样本对之间的余弦相似度;lneg将不同个体类别间的距离拉远。
37、优选的,所述步骤9中,网络以端到端的方式进行训练,以预测群体行为类别;个体和群体分类采用交叉熵损失,公式如下:
38、
39、式(11)中,表示个体实例级特征池化后进行群体行为分类的预测分数,表示个体类别级特征池化后进行群体行为分类的预测分数,表示个体动作分类的预测分数,yg和分别表示群体行为和个体动作的真实标签;λ是平衡这两个项的超参数;
40、随后,结合所有损失来训练框架:
41、l=lcls+l1 (12)
42、式(12)中,l1表示对比损失函数。
43、本发明的有益效果是:
44、1.本发明集成了互补的时空和空时上下文信息,并融合了多层次特征,有效地建模了视频场景中个体之间的复杂交互关系,因此本发明能够探索视频中多个个体之间复杂的时空交互关系。
45、2.本发明设计的对比学习损失函数,以维护双路径中同一个体的表征一致性,并扩大不同类别个体之间的差异性,从而减少个体类别混淆,提高群体行为识别效果。
1.一种基于对比学习的双路径融合的群体行为识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于对比学习的双路径融合的群体行为识别方法,其特征在于,所述步骤5中,基于transformer的时间编码器和空间编码器形成双路径融合网络,利用自注意力机制在捕获长范围依赖性方面的能力,编码器可全面捕获个体在时间和空间域内的交互关系,从而增强个体的时空特征,以不同的顺序堆叠时间编码器和空间编码器,搭建空间-时间和时间-空间的双路径结构。
3.根据权利要求2所述的一种基于对比学习的双路径融合的群体行为识别方法,其特征在于,所述时间编码器表示为时间编码器为将所有个体的特征{x″n|n=1,…,n}组装在一起;
4.根据权利要求3所述的一种基于对比学习的双路径融合的群体行为识别方法,其特征在于,所述空间编码器表示为空间编码器为将所有个体的特征{x″t|t=1,…,t}组装在一起;
5.根据权利要求1所述的一种基于对比学习的双路径融合的群体行为识别方法,其特征在于,所述步骤5中,所述时间编码器和空间编码器组成的双路径的特征融合步骤为:
6.根据权利要求1所述的一种基于对比学习的双路径融合的群体行为识别方法,其特征在于,所述步骤8中,所述正样本对的损失函数表示为:lpos;
7.根据权利要求6所述的一种基于对比学习的双路径融合的群体行为识别方法,其特征在于,所述负样本对的损失函数表示为:lneg;
8.根据权利要求1所述的一种基于对比学习的双路径融合的群体行为识别方法的制备方法,其特征在于,所述步骤9中,网络以端到端的方式进行训练,以预测群体行为类别;个体和群体分类采用交叉熵损失,公式如下:

