1.本发明涉及视频异常检测技术领域,具体为一种基于注意力机制的视频异常检测算法。
背景技术:2.现存的视频异常检测算法,主要有两大类,其一是基于图像重建的方法,通过对自编码器(autoencoder)进行图像重建,首先对自编码器进行训练,使其能够提取训练集图片的特征并进行重建,而异常图片由于有其他特征无法很好的重建,从而达到区分异常的目的;另一类主要使用预训练模型如resn et-50在imagenet上训练的分类网络,进行特征提取,然后使用聚类的方式来区分正常和异常,前者训练过程提取的特征容易冗余,发生过拟合,后者则缺乏一定的适应性,导致精度不高。
3.综上所述,本发明通过设计一种基于注意力机制的视频异常检测深度学习算法来解决存在的问题。
技术实现要素:4.本发明的目的在于提供一种基于注意力机制的视频异常检测算法,以解决上述背景技术中提出的问题。
5.为实现上述目的,本发明提供如下技术方案:
6.一种基于注意力机制的视频异常检测算法,包括数据构建、数据预处理、图像重构网络、特征注意力机制、网络训练模块和异常区域得分模块,其步骤具体如下:
7.步骤s1,数据构建、数据预处理和图像重构网络:视频异常检测的开源数据集主要是ucsd ped2、cuhk avenue、shanghai tech,如需在自己的数据集上进行训练,需要将数据格式准备为与上述三个数据集一致,对数据进行预处理后输入图像重构网络;
8.步骤s2:特征注意力机制:首先通过一个注意力模块来收集水平和垂直方向的上下文信息,然后通过将生成的特征图从第一个注意力模块送入另一个注意力模块,具体单个循环注意力机制,简称为cau;
9.步骤s3:网络训练模块和异常区域得分模块:融合了resnet50主干网络和循环注意力机制的得到新的主干网络,提取融合了上下文信息的特征作为原型的输入,原型经过多头注意力机制得到异常区域的得分,进行损失函数的计算。
10.作为本发明优选的方案,所述图像重构网络主要是有下采样编码网络和上采样解码网络,其中下采样主要由卷积层和池化层构成,每经过一次池化,特征图大小变为一半,上采样主要由反卷积构成,每经过一层反卷积,特征尺度变为两倍,如此形成左右对称的下采样和上采样网络结构,也就是所谓的u-net;网络的输入为连续多帧图片,编码网络对输入进行下采样,得到小尺度的特征,然后由解码网络进行上采样,得到原图的重构图。
11.作为本发明优选的方案,所述损失函数的计算具体流程如下:
12.训练阶段的关键是损失函数,网络训练过程也就是损失函数最小化的过程,并且
在apu模块包含两大部分损失函数,分别特征重建项损失和帧预测项损失的约束,如公式(1)所示:
[0013][0014]
其中帧层面的损失函数即l2 loss,如公式(2)所示:
[0015][0016]
而特征层面的约束由三个部分构成(公式(3)),三个部分分别如公式(4)(5)(6)
[0017][0018][0019][0020][0021]
上述式中的λ均为超参数,为各个部分损失所占的比重,可根据实验结果进行调节。
[0022]
与现有技术相比,本发明的有益效果是:
[0023]
1、本发明中,通过设计基于注意力机制的视频异常检测算法,首先在网络的设计上,修改轻量化的网络架构resnet,将resnet最后两个下采样删除,并在第二个和第三个卷积块后加入注意力模块,注意力模块的加入,使得网络更加关注图像中的关键区域,忽略不相关的区域,从而得到训练速度快,精度高的网络,最终实现精度和速度双提升,并且在开源数据集上位于榜首位置。
附图说明
[0024]
图1为本发明单个cau注意力机制结构示意图;
[0025]
图2为本发明损失函数的计算具体流程结构示意图。
具体实施方式
[0026]
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0027]
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述,给出了本发明的若干实施例,但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
[0028]
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件,当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件,本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
[0029]
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同,本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明,本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0030]
请参阅图1-2,本发明提供一种技术方案:
[0031]
本方案提供一种基于注意力机制的视频异常检测算法,利用注意力机制引导模型更加关注图像的重点区域,从而提高了异常检测的准确率,本方案主要包括以下步骤,数据构建,数据预处理,图像重构网络,特征注意力机制,网络训练模块和异常区域得分模块,从而得到异常区域的结果
[0032]
下面对采用的技术方案进行说明:
[0033]
数据构建、数据预处理、图像重构网络、特征注意力机制、网络训练模块和异常区域得分模块。
[0034]
s1,数据构建、数据预处理和图像重构网络:视频异常检测的开源数据集主要是ucsd ped2、cuhk avenue、shanghai tech,如需在自己的数据集上进行训练,需要将数据格式准备为与上述三个数据集一致,对数据进行预处理后输入图像重构网络;
[0035]
图像重构网络主要是有下采样编码网络和上采样解码网络,其中下采样主要由卷积层和池化层构成,每经过一次池化,特征图大小变为一半,上采样主要由反卷积构成,每经过一层反卷积,特征尺度变为两倍,如此形成左右对称的下采样和上采样网络结构,也就是所谓的u-net;
[0036]
网络的输入为连续多帧图片,编码网络对输入进行下采样,得到小尺度的特征,然后由解码网络进行上采样,得到原图的重构图;
[0037]
步骤s2:特征注意力机制:注意力机制的作用是在特征层面进行特征挑选,去处冗余特征,保留有用特征,降低过拟合的风险,大大提高模型的鲁棒性,注意力机制的本质是权重系数,通过对重要程度进行学习,来达到特征挑选的目的,从而提高模型效果,并降低过拟合,本方案提出一个循环注意力机制(cau),首先通过一个注意力模块来收集水平和垂直方向的上下文信息,然后通过将生成的特征图从第一个注意力模块送入另一个注意力模块,具体单个cau注意力机制的示意图1如下所示;
[0038]
步骤s3:网络训练模块和异常区域得分模块:融合了resnet50主干网络和循环注意力机制的得到新的主干网络,提取融合了上下文信息的特征作为原型的输入,原型经过多头注意力机制得到异常区域的得分,进行损失函数的计算具体流程如下,见图2:
[0039]
训练阶段的关键是损失函数,网络训练过程也就是损失函数最小化的过程,本方案在apu模块包含两大部分损失函数,分别特征重建项损失和帧预测项损失的约束,如公式(1)所示:
[0040][0041]
其中帧层面的损失函数即l2 loss,如公式(2)所示:
[0042][0043]
而特征层面的约束由三个部分构成(公式(3)),三个部分分别如公式(4)(5)(6)
[0044]
[0045][0046][0047][0048]
上述式中的λ均为超参数,为各个部分损失所占的比重,可根据实验结果进行调节。
[0049]
实施例:
[0050]
正样本:没有缺陷的正常视频样本;负样本:有缺陷的样本
[0051]
step1:数据准备和重构网络
[0052]
视频异常检测的开源数据集主要是ucsd ped2、cuhk avenue、shanghai tech,如需在自己的数据集上进行训练,需要将数据格式准备为与上述三个数据集一致,对数据进行预处理后输入图像重构网络。
[0053]
step2:训练阶段
[0054]
首先作正样本图像特征提取:输入图像大小为256*256*3,经过两次卷积和relu后特征大小为256*256*64,再输入到cau注意力机制模块,将cau模块与第一次的卷积和relu进行特征拼接,再进行maxpool操作,得到128*128*128,重复以上操作两次,得到3个有效特征层,大小分别为256*256*64,128*128*128,64*64*256,至此,特征提取encoder完成,将encoder最后一层作为decoder的输入,进行两次上采样并与上两个有效特征层进行concat操作,得到decoder的结果,即最后丰富语义的特征。再输入到apu模块并利用损失函数进行监督,当损失函数趋于收敛的时候说明训练完成,最后得到最终的异常区域得分。
[0055]
step3:测试阶段
[0056]
针对测试图片,即同样resnet50用提取被测图片的特征表示,送入网络推理,得到重构图片,计算重构信噪比(psnr)并归一化后得到异常分值,将异常分值和真值进行比较计算auc即得到最终精度,其中psnr的计算方式如下:
[0057][0058]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:1.一种基于注意力机制的视频异常检测算法,包括数据构建、数据预处理、图像重构网络、特征注意力机制、网络训练模块和异常区域得分模块,其步骤具体如下:步骤s1,数据构建、数据预处理和图像重构网络:视频异常检测的开源数据集主要是ucsd ped2、cuhk avenue、shanghai tech,如需在自己的数据集上进行训练,需要将数据格式准备为与上述三个数据集一致,对数据进行预处理后输入图像重构网络;步骤s2:特征注意力机制:首先通过一个注意力模块来收集水平和垂直方向的上下文信息,然后通过将生成的特征图从第一个注意力模块送入另一个注意力模块,具体单个循环注意力机制,简称为cau;步骤s3:网络训练模块和异常区域得分模块:融合了resnet50主干网络和循环注意力机制的得到新的主干网络,提取融合了上下文信息的特征作为原型的输入,原型经过多头注意力机制得到异常区域的得分,进行损失函数的计算。2.根据权利要求1所述的一种基于注意力机制的视频异常检测算法,其特征在于:所述图像重构网络主要是有下采样编码网络和上采样解码网络,其中下采样主要由卷积层和池化层构成,每经过一次池化,特征图大小变为一半,上采样主要由反卷积构成,每经过一层反卷积,特征尺度变为两倍,如此形成左右对称的下采样和上采样网络结构,也就是所谓的u-net;网络的输入为连续多帧图片,编码网络对输入进行下采样,得到小尺度的特征,然后由解码网络进行上采样,得到原图的重构图。3.根据权利要求1所述的一种基于注意力机制的视频异常检测算法,其特征在于:所述损失函数的计算具体流程如下:训练阶段的关键是损失函数,网络训练过程也就是损失函数最小化的过程,并且在apu模块包含两大部分损失函数,分别特征重建项损失和帧预测项损失的约束,如公式(1)所示:其中帧层面的损失函数即l2 loss,如公式(2)所示:而特征层面的约束由三个部分构成(公式(3)),三个部分分别如公式(4)(5)(6)而特征层面的约束由三个部分构成(公式(3)),三个部分分别如公式(4)(5)(6)而特征层面的约束由三个部分构成(公式(3)),三个部分分别如公式(4)(5)(6)而特征层面的约束由三个部分构成(公式(3)),三个部分分别如公式(4)(5)(6)上述式中的λ均为超参数,为各个部分损失所占的比重,可根据实验结果进行调节。
技术总结本发明涉及视频异常检测技术领域,尤其为一种基于注意力机制的视频异常检测算法,包括数据构建、数据预处理、图像重构网络、特征注意力机制、网络训练模块和异常区域得分模块,本发明通过设计基于注意力机制的视频异常检测算法,首先在网络的设计上,修改轻量化的网络架构Resnet,将Resnet最后两个下采样删除,并在第二个和第三个卷积块后加入注意力模块,注意力模块的加入,使得网络更加关注图像中的关键区域,忽略不相关的区域,从而得到训练速度快,精度高的网络,最终实现精度和速度双提升,并且在开源数据集上位于前列位置。并且在开源数据集上位于前列位置。并且在开源数据集上位于前列位置。
技术研发人员:姚健 孙盛婷 胡超 邬伟杰 顾剑锋 赖盛鑫 贺盼博
受保护的技术使用者:联通(上海)产业互联网有限公司
技术研发日:2022.06.21
技术公布日:2022/11/1