本发明涉及深度学习动作识别,尤其涉及一种基于时空通道注意力机制的陆地哺乳动物动作识别方法。
背景技术:
1、视频动作识别作为计算机视觉领域的一项重要技术,正逐步展现出其在多个领域的广泛应用价值,特别是在动物动作识别这一新兴方向上有着巨大潜力。动物动作识别不仅对于分析动物行为、理解动物习性至关重要,还能够促进生态保护策略的合理制定。目前,大熊猫、金丝猴、亚洲象等陆地哺乳动物是我国濒危动物的重点保护对象,然而,传统的动物行为观测和数据收集方法的范围和效率都较为有限,这强调了对深度学习模型等先进技术的需求,以达到从视频数据中有效精准地识别出动物行为的目的。
2、目前主流的视频动作识别的模型有以下三种:
3、第一种,双流网络,即将单个关键帧和多帧光流分别输入到两条分支网络,分别捕获时间与空间信息,将两条网络得到的分数加权平均处理,得到最终的识别结果。其缺点为光流信息的计算相对复杂且耗时,增加了时间与计算成本。
4、第二种,3d cnn(卷积神经网络),即将2d卷积网络扩展到3d(如n×n扩展到n×n×n),通过多个3d卷积模块对视频动作信息进行提取,缺点为计算复杂度高,训练和推理时间较长。
5、第三种,transformer网络,即完全依赖于注意力机制,不使用cnn网络,将视频每帧进行分割嵌入,将子图片进行位置编码,同时添加全局编码,在空间和时间维度上依次进行编码,实现长序列建模。其缺点为处理长视频时可能会受到内存限制和效率影响,实时监测难度较高。
6、以上方法的共性弊端主要体现在:
7、(1)对视频动作信息的特征提取方式较为单一,对动作识别的准确率有一定影响。
8、(2)现有的动作识别方法基本以识别人类动作为主,针对动物的动作识别方法少之又少。
9、因此,研发一种简单高效的模型,快速精准进行动物的动作识别,从而促进对陆地哺乳动物的行为监测与保护,是本领域技术人员亟需解决的问题。
技术实现思路
1、本技术提供了一种基于时空通道注意力机制的陆地哺乳动物动作识别方法,旨在解决市面上动物动作识别模型稀缺、动物动作识别准确率较低、效率较低等问题。
2、本发明采用的技术方案为:
3、一种基于时空通道注意力机制的陆地哺乳动物动作识别方法,该方法包括下列步骤:
4、设置动作识别模型
5、该动作识别模型包括:3d主干网络、2d主干网络、通道融合模块、第一卷积块、注意力机制模块、第二卷积块和分类层;
6、其中,3d主干网络以视频多帧图像为输入,用于提取输入视频的时空特征;
7、2d主干网络以视频的关键帧为输入,用于提取当前输入的关键帧的空间特征;
8、通道融合模块用于对时空特征和空间特征进行通道维度的特征融合,再将特征融合经第一卷积块得到最终的融合特征图;
9、注意力机制模块用于对最终的融合特征图进行自注意力计算,得到注意力特征图,再将注意力特征图经第二卷积块后得到输入分类层的分类特征图;
10、分类层用于对分类特征图进行动作识别预测,获取动作识别预测结果,包括:陆地哺乳动物动作类别、预测框(目标框)的置信度和预测框的位置信息;
11、动作识别模型训练
12、基于采集的训练数据集对动作识别模型进行深度学习训练,当满足预置的收敛条件(训练次数达到上限或者设置的损失函数收敛)时,得到用于目标动物的动作识别模型;
13、动作识别模型进行深度学习训练时采用的总损失函数为预测框回归函数、分类函数和置信度函数的加权和。
14、进一步的,预测框回归函数具体设置为:
15、
16、其中,lreg表示预测框回归函数,iou为真实框和预测框的交并比,为真实框和预测框的中心点的欧氏距离,b和分别代表真实框和预测框;
17、参数d的计算公式为:
18、第一距离辅助量第二距离辅助量w、h分别为真实框的宽度和高度,分别为预测框的宽度和高度;
19、参数参数
20、进一步的,动作识别模型进行深度学习训练时采用的总损失函数的表达式为:
21、l=iobjλobjlconf+inoobjλnoobjlconf+iobjλclslcls+iobjλreglreg
22、其中,l表示总损失函数,lconf为置信度函数,lcls为分类函数,iobj表示对应于正样本的掩码函数,若识别为正样本,则iobj=1,否则iobj=0,inoobj表示对应于负样本的掩码函数,若识别为负样本,则inoobj=1,否则inoobj=0;λobj、λnoobj、λcls、λreg分别为正样本的置信度函数的权重、负样本的置信度函数的权重、分类函数的权重、预测框回归函数的权重。
23、进一步的,3d主干网络可采用resnext网络。
24、进一步的,2d主干网络依次包括级联的2d卷积块、layer norm归一化层、convnext模块堆叠的第一堆叠模块、以及若干个由级联的下采样层和convnext模块为基础单元模块堆叠构成的第二堆叠模块;
25、其中,2d卷积块为级联的2d卷积层和激活函数;
26、convnext模块依次包括级联的深度可分卷积块、2d卷积块、layer norm归一化、leaky relu激活函数、锚点和缩放块和drop path块。
27、进一步的,下采样层为级联的layer norm归一化层与2d卷积块。
28、进一步的,第一堆叠模块中的convnext模块数为3,第二堆叠模块的数量为3个,其对应的基础单元模块的循环次数依次设置为3、27、3。
29、进一步的,通道融合模块为级联的卷积核大小分别为1×1和3×3的卷积层。
30、进一步的,注意力机制模块具体为:
31、将最终的融合特征图分别变换为维度为c3×h'w'和h'w'×3的两个张量,对张量c3×h'w'和h'w'×3进行矩阵相乘得到维度为c3×c3的注意力得分,再使用softmax函数对注意力得分进行归一化,再将维度为c3×h'w'的张量与归一化后的注意力得分相乘,得到维度为c3×h'×w'的注意力特征图;
32、其中,c3表示最终的融合特征图的通道数,h'、w'分别为最终的融合特征图的通道数高度和宽度。
33、进一步的,第一卷积块为级联的卷积核大小分别为1×1和3×3的卷积层。
34、进一步的,第二卷积块依次包括:卷积核大小为3×3的卷积层、过拟合层(即dropout层)和卷积核大小为1×1的卷积层。
35、本发明提供的技术方案至少带来如下有益效果:
36、本发明所能够将动物视频帧输入后进行高效的端到端预测,获得动物的位置与动作识别结果。本发明在现有基于深度学习的时空动作识别模型的基础上,对主干网络架构、损失函数组成等进行优化,一定程度上克服了原模型小样本动作、易混淆动作识别困难等问题,增强了模型泛化能力以及对陆地哺乳动物的识别准确率,提升了检测性能。
1.一种基于时空通道注意力机制的陆地哺乳动物动作识别方法,其特征在于,包括下列步骤:
2.如权利要求1所述的方法,其特征在于,预测框回归函数具体设置为:
3.如权利要求1或2所述的方法,其特征在于,动作识别模型进行深度学习训练时采用的总损失函数的表达式为:
4.如权利要求1所述的方法,其特征在于,2d主干网络依次包括级联的2d卷积块、layernorm归一化层、convnext模块堆叠的第一堆叠模块、以及若干个由级联的下采样层和convnext模块为基础单元模块堆叠构成的第二堆叠模块;
5.如权利要求4所述的方法,其特征在于,下采样层为级联的layer norm归一化层与2d卷积块。
6.如权利要求4所述的方法,其特征在于,第一堆叠模块中的convnext模块数为3,第二堆叠模块的数量为3个,其对应的基础单元模块的循环次数依次设置为3、27、3。
7.如权利要求1所述的方法,其特征在于,通道融合模块为级联的卷积核大小分别为1×1和3×3的卷积层。
8.如权利要求1所述的方法,其特征在于,注意力机制模块具体为:
9.如权利要求1所述的方法,其特征在于,第一卷积块为级联的卷积核大小分别为1×1和3×3的卷积层。
10.如权利要求1所述的方法,其特征在于,进一步的,第二卷积块依次包括:卷积核大小为3×3的卷积层、过拟合层和卷积核大小为1×1的卷积层。