一种基于曲形度量模型的双流视频异常检测方法

专利2023-05-27  132



1.本发明涉及无监督异常检测技术领域,具体为一种基于曲形度量模型的双流视频异 常检测方法。


背景技术:

2.异常检测在计算机视觉中占有重要的地位,并在视频监控、活动识别和场景理解等方面 显示了广泛的应用潜力。然而,异常检测仍然面临许多困难和挑战,由于异常事件的无限 性和罕见性,采集各类异常事件成本高且几乎不可行。考虑到这一点,训练集中只给出正 常数据,而测试集中包含正常和异常数据。因此,在无监督的前提下,异常检测的目的是 学习正常事件中的特征表示从而对测试集中的异常事件进行检测。


技术实现要素:

3.本部分的目的在于概述本发明的实施方式的一些方面以及简要介绍一些较佳实施方 式。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部 分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
4.鉴于上述和/或现有异常检测中存在的问题,提出了本发明。
5.因此,本发明的目的是提供一种基于曲形度量模型的双流视频异常检测方法,能够对 动态信息和静态信息及信息间的关联进行视频异常检测。
6.为解决上述技术问题,根据本发明的一个方面,本发明提供了如下技术方案:
7.一种基于曲形度量模型的双流视频异常检测方法包括以下步骤:
8.s1、加载视频,将视频每五帧分为一个视频序列;
9.s2、对每个视频序列的第一帧x
fif
作为输入帧,将其输入到静态模块中进行操作;
10.s3、对每个视频序列的前四帧x
clips
,将其输入到动态模块中进行操作;
11.s4、对于动态模块输出和静态模块输出决策模块将二者结合起来产生对最后 一帧x
lif
的预测帧
12.优选的,所述s2和s4中的静态模块都包括静态编码器ds、k-mean++聚类模块和静 态解码器ds,所述静态编码器ds连接k-mean++聚类模块,所述k-mean++聚类模块连接 静态解码器ds;所述静态编码器es和静态解码器ds都去除了每个深度残差块内的两个归 一化层,在深度残差块后附加归一化层,同时将带泄露线性整流单元替换所有深度残差块 的线性整流单元;
13.s2中,所述静态编码器es将输入帧x
fif
转化为中级外观及对象zs表示,静态编码器es并输出至静态解码器ds和k-mean++聚类模块部分;
[0014][0015]
所述静态解码器es将中级外观及对象表示zs转化为第一帧的重建帧并输出决
策 模块;
[0016][0017]
其中:表示静态编码器es参数,表示静态解码器ds的参数;
[0018]
计算输入帧和第一帧的重建帧之间的均方误差,其中静态编码器es和静态解 码器ds的损失函数ls都定义为:
[0019][0020]
聚类模块将中级外观及对象表示zs作为输入并计算其与聚类中心c之间的距离dc作 为输出至决策模块;
[0021]
设对于包含k个聚类簇的聚类模块来说,已经选取了n个初始聚类中心,其中 n∈(0,k),则在选取第n+1个聚类中心时距离当前个聚类中心越远的点会有更高的概 率被选为第n+1个聚类中心;
[0022]
模型通过最小化数据表示zs和聚类中心之间c的距离来优化聚类中心;
[0023]
将每个聚类中心视为训练数据集中的正常时空模式;设k表示簇的数目,ck表示簇k 的表示,c={c1,c2,...,ck}表示所有簇的集合,对于给定的中级外观及对象表示zs,将其归 一化至[0,1]区间并表示为r,计算r和每个聚类中心ck之间的欧氏距离:
[0024][0025]
其中h表示特征图的空间维度行数大小w表示特征图的空间维度列数大小,γ是可调 超参数,k-means++聚类策略目标函数l
cluster
定义为:
[0026][0027]
将最后一帧x
lif
输入到静态编码器es中,得到中间表示z
lif
,然后将其归一化为r
lif
,最 后计算r
lif
与聚类中心c之间的欧式距离,其表示为:
[0028][0029]
其中,h∈[0,h
lif
],w∈[0,w
lif
],h
lif
和w
lif
都表示特征映射r
lif
的空间维度。
[0030]
优选的,所述静态编码器和静态解码器都由四个深度残差块组成。
[0031]
优选的,所述动态模块包括动态编码器em、记忆模块和动态解码器dm,所述动态编 码器em连接记忆模块,所述记忆模块连接动态解码器dm;所述动态编码器em和动态解码 器dm都是由四个深度残差块组成,将带泄露线性整流单元替换所有深度残差块的线性整 流单元;所述动态编码器em将输入连续视频帧x
clips
的rgb差分转化为中级运动表示zm并 输出至记忆模块;
[0032][0033]
其中,表示动态编码器的参数;
[0034]
记忆模块对沿特征图维度抽取实值向量,对其中运动对象特征和对应的运动模式特征 进行关联记忆;
[0035]
对于动态编码器em第i深度残差块产生的运动特征,注意力模块首先将其输入到卷积 层:
[0036][0037]
其中,表示动态编码器em第i深度残差块所产生的特征图矩阵,fn表示经过卷积滤 波器后第i深度残差块所产生的特征图,h表示动态编码器em第i深度残差块所产生的特 征图的行数,w表示动态编码器em第i深度残差块所产生的特征图的列数,w
t
表示卷积滤 波器的权重参数,将卷积滤波器来嵌入输入特征并计算沿特征维度的方差,沿空间维度操 作归一化,以生成相应的注意图:
[0038][0039][0040]
其中,var表示特征图方差矩阵,att表示加上被方差突出后的特征图矩阵,exp(
·
)表 示以数学常数e为底的指数函数,var(h,w)其中表示空间位置(h,w)处特征图的方差,d表 示第d个特征图,d表示第i层的特征图数;
[0041]
所述记忆模块将中级运动表示zm记忆、重建并输出重建后的中级运动表示输出到 动态解码器dm;
[0042]
记忆模块设计为矩阵m∈rn×c,包含n个固定维数的实值向量,对于动态编码器em产 生的运动表示,从特征图维度产生大小为1
×1×
c的实值向量,每个实值向量中包含运动对 象特征和相应的运动模式特征,记忆模块将这些特征进行关联记忆,并根据之前记录的特 征信息对进行重建;
[0043]
记忆模块涉及读取操作和写入操作;
[0044]
对于读取操作,利用内存中已保存的正常模式的运动对象特征和对应的运动模式特征, 将当前动态编码器产生的运动表示重建;
[0045]
对于从zm产生的查询项和内存项mi,可以计算出对应的匹配概率αi:
[0046][0047]
其中是和mi的余弦相似度,表示为:
[0048][0049]
在内存中使用有限数量的正常模式进行重建有助于在异常情况下产生较大的重建误 差,但是一些异常可能仍然有机会通过包含许多微小元素的α的复杂组合而得到很好地重 建,α表示所有αi的集合;
[0050]
采用了硬收缩操作来提高的稀疏性,所以对于αi,进一步简化为:
编码器em和动态解码器dm将运动对象特征与正常运动数据的运动模式特征相关联;
[0073]
计算最后一帧x
lif
和预测帧间的曲形度量距离,即对最后一帧的预测误差df作为输 出;
[0074]
对于给定的测试视频序列,无论是曲形度量距离df还是聚类距离dc,都可以单独作 为评判视频帧正常/异常程度的一个标准;
[0075]
结合静态分支的输出和动态分支的输出来生成预测帧计算与实际帧x
lif
之间的欧氏距离,曲形度量方法表示为:
[0076][0077]
其中为与实际帧x
lif
之间的欧式距离;
[0078]
将最后一帧的预测误差df与输出的聚类距离dc相乘并将结果取倒数产生一个综合性 损失值s:
[0079]
s=1/dfdc;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(24);
[0080]
将产生的综合性损失值s归一化至[0,1]区间内,即产生了对每一帧的规则性得分 score(t);
[0081][0082]
与现有技术相比,本发明的有益效果在于:
[0083]
1、本发明能够能够减少在获取不同视频帧差异时丢失的有用信息。
[0084]
2、本发明能够更好的衡量复杂的场景之间的差异。
[0085]
3、本发明能够更合理地反映了复杂场景之间的差异,获得了更多有用的认知信息。
附图说明
[0086]
为了更清楚地说明本发明实施方式的技术方案,下面将将结合附图和详细实施方式对 本发明进行详细说明,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对 于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得 其它的附图。其中:
[0087]
图1为本发明检测框架图;
[0088]
图2为本发明检测方法流程图;
[0089]
图3为本发明静态模块网络架构;
[0090]
图4为本发明动态模块网络架构;
[0091]
图5为本发明记忆结构及操作;
[0092]
图6为本发明非欧几里得距离示例;
[0093]
图7为本发明函数f(loss)和u(loss)曲线示例(曲线随着ρ数值的的增加从上向下分布);
[0094]
图8为本发明函数g(loss)和v(loss)曲线示例(曲线随着参数ρ数值的的增加从右向左 分布);
[0095]
图9为本发明在三个数据集上的异常检测曲线示例;
[0096]
图10为本发明使用不同模块时模型的预测误差图示例;
[0097]
图11为本发明综合性能(auc和实时性)的比较。
具体实施方式
[0098]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具 体实施方式做详细的说明。
[0099]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用 其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况 下做类似推广,因此本发明不受下面公开的具体实施方式的限制。
[0100]
其次,本发明结合示意图进行详细描述,在详述本发明实施方式时,为便于说明,表 示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应 限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0101]
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式 作进一步地详细描述。
[0102]
参考图1,本发明提供一种基于曲形度量模型,其包括:输入模块、静态模块、动态 模块、决策模块;输入模块的输出端分别与静态模块、动态模块输入端连接,静态模块、 动态模块输出端连接决策模块。
[0103]
静态模块包括静态编码器ds、k-mean++聚类模块和静态解码器ds,静态编码器ds连 接k-mean++聚类模块,k-mean++聚类模块连接静态解码器ds;
[0104]
动态模块包括动态编码器em、记忆模块和动态解码器dm,动态编码器em连接记忆模 块,记忆模块连接动态解码器dm。
[0105]
静态编码器和静态解码器都由四个深度残差块组成。
[0106]
参考图2,一种基于曲形度量模型的双流视频异常检测方法包括以下步骤:
[0107]
s1、加载视频,将视频每五帧分为一个视频序列;
[0108]
s2、对每个视频序列的第一帧x
fif
作为输入帧,将其输入到静态模块中进行操作;
[0109]
s3、对每个视频序列的前四帧x
clips
,将其输入到动态模块中进行操作;
[0110]
s4、对于动态模块输出和静态模块输出决策模块将二者结合起来产生对最后 一帧x
lif
的预测帧
[0111]
参考图3,静态编码器es和静态解码器ds都去除了每个深度残差块内的两个归一化层, 在深度残差块后附加归一化层,同时将带泄露线性整流单元替换所有深度残差块的线性整 流单元;
[0112]
s2中,静态编码器es将输入帧x
fif
转化为中级外观及对象表示zs,静态编码器es并 输出至静态解码器ds和k-mean++聚类模块部分;
[0113][0114]
静态解码器es将中级外观及对象表示zs转化为第一帧的重建帧并输出决策模块;
[0115]
[0116]
其中:表示静态编码器es参数,表示静态解码器ds的参数;
[0117]
计算输入帧和第一帧的重建帧之间的均方误差,其中静态编码器es和静态解 码器ds的损失函数ls定义为:
[0118][0119]
聚类模块将中级外观及对象表示zs作为输入并计算其与聚类中心c之间的距离dc作 为输出至决策模块;
[0120]
设聚类模块一共有k个聚类簇数,已经选取了n个初始聚类中心,其中n∈(0,k), 则在选取第n+1个聚类中心时距离当前个聚类中心越远的点会有更高的概率被选为第 n+1个聚类中心;
[0121]
模型通过最小化数据表示zs和聚类中心之间c的距离来优化聚类中心;
[0122]
将每个聚类中心视为训练数据集中的正常时空模式;设k表示簇的数目,ck表示簇k 的表示,c={c1,c2,...,ck}表示所有簇的集合,对于给定的中级外观及对象表示zs,将其归 一化至[0,1]区间并表示为r,计算r和每个聚类中心ck之间的欧氏距离:
[0123][0124]
其中h表示特征图的空间维度行数大小w表示特征图的空间维度列数大小,γ是可调 超参数,k-means++聚类策略目标函数l
cluster
定义为:
[0125][0126]
将最后一帧x
lif
输入到静态编码器es中,得到中间表示z
lif
,然后将其归一化为r
lif
,最 后计算r
lif
与聚类中心c之间的欧式距离,其表示为:
[0127][0128]
其中,h∈[0,h
lif
],w∈[0,w
lif
],h
lif
和w
lif
都表示特征映射r
lif
的空间维度。
[0129]
参考图4,动态编码器em和动态解码器dm都是由四个深度残差块组成,将带泄露线 性整流单元替换所有深度残差块的线性整流单元;
[0130]
动态编码器em将输入连续视频帧x
clips
的rgb差分转化为中级运动表示zm并输出至记 忆模块;
[0131][0132]
其中,表示动态编码器的参数;
[0133]
记忆模块对沿特征图维度抽取实值向量,对其中运动对象特征和对应的运动模式特征 进行关联记忆;
[0134]
对于动态编码器em第i深度残差块产生的运动特征,注意力模块首先将其输入到卷积 层:
[0135][0136]
其中,h表示动态编码器em第i深度残差块所产生的特征图的行数,w表示动态编码 器em第i深度残差块所产生的特征图的列数,w
t
表示卷积滤波器的权重参数,表示动态 编码器em第i深度残差块所产生的特征图矩阵;fn表示通过卷积滤波器后的第i深度残差 块所产生的特征图矩阵;将卷积滤波器来嵌入输入特征并计算沿特征维度的方差,沿空间 维度操作归一化,以生成相应的注意图:
[0137][0138][0139]
其中,var(h,w)其中表示空间位置(h,w)处特征图的方差,d表示第d个特征图,d表 示第i层的特征图数;
[0140]
参考图5,记忆模块将中级运动表示zm记忆、重建并输出重建后的中级运动表示输 出到动态解码器dm;
[0141]
记忆模块设计为矩阵m∈rn×c,包含n个固定维数的实值向量,对于动态编码器em产 生的运动表示,从特征图维度产生大小为1
×1×
c的实值向量,每个实值向量中包含运动对 象特征和相应的运动模式特征,记忆模块将这些特征进行关联记忆,并根据之前记录的特 征信息对进行重建;
[0142]
记忆模块涉及读取操作和写入操作;
[0143]
对于从zm产生的查询项和内存项mi,可以计算出对应的匹配概率αi:
[0144][0145]
其中是和mi的余弦相似度,表示为:
[0146][0147]
在内存中使用有限数量的正常模式进行重建有助于在异常情况下产生较大的重建误 差,但是一些异常可能仍然有机会通过包含许多微小元素的α的复杂组合而得到很好地重 建,α表示所有αi的集合;
[0148]
采用了硬收缩操作来提高的稀疏性,所以对于αi,进一步简化为:
[0149][0150][0151]
其中,δ表示一个接近于0的数,ε表示一个足够小的数,具体定义为ε∈[1/n,3/n], 是对α的重建结果,对归一化,是对αi的重建结果,最终可表示为表示 对
的重建结果。
[0152][0153][0154]
记忆模块的损失函数l
memory
表示为交叉熵的形式:
[0155][0156]
对于写入操作,利用当前正常模式中的各种关联特征更新内存的内容;
[0157]
同式(12),对于内存项mi和从zm产生的可以计算其出对应的匹配概率β
t

[0158][0159]
mi最终可表示为:
[0160][0161]
动态流解码器dm将重建的中级运动表示作为输入并以最后一帧x
lif
和第一帧的预 测的rgb差分作为输出至决策模块;
[0162][0163]
其中,表示动态解码器的参数;
[0164]
动态编码器em和运动解码器dm之间存在跳跃连接,将动态解码器dm中的每个深度残 差块处理的是上采样运动表示和低水平特征的串联;
[0165]
防止生成的结果过度平滑计算生成的rgb差分和真实值x
diff
间的欧式距离以及他 们之间的梯度损失,运动自动编码器的损失函数定义为:
[0166][0167]
其中,gd表示视频帧沿空间x轴和y轴的图像梯度。
[0168]
总损失函数:将式(3)、(5)、(17)、(21)中的损失函数结合起来,并引入曲形度量,所有 的损失函数组成的总损失函数如下:
[0169][0170]
其中,λr和λm都为可调超参数,静态损失ls约束模型生成普通的单帧。动态损失lm约束模型计算输入视频帧x
fif
与最后一帧x
lif
的rgb差值;聚类损失l
cluster
强制静态编码器 es和静态解码器ds建立场景特征和对象特征之间的关联,记忆模块损失l
memory
则促使动态 编码器em和动态解码器dm将运动对象特征与正常运动数据的运动模式特征相关联;
[0171]
计算最后一帧x
lif
和预测帧间的曲形度量距离,即对最后一帧的预测误差df作为输 出;
[0172]
对于给定的测试视频序列,无论是曲形度量距离df还是聚类距离dc,都可以单独作 为评判视频帧正常/异常程度的一个标准;
[0173]
结合静态分支的输出和动态分支的输出来生成预测帧计算与实际帧
x
lif
之间的欧氏距离,曲形度量方法表示为:
[0174][0175]
其中为与实际帧x
lif
之间的欧式距离;
[0176]
将最后一帧的预测误差df与输出的聚类距离dc相乘并将结果取倒数产生一个综合性 损失值s:
[0177]
s=1/dfdc;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(24);
[0178]
将产生的综合性损失值s归一化至[0,1]区间内,即产生了对每一帧的规则性得分 score(t);
[0179][0180]
参考图6-8,以下理论推导证明了曲形度量的有效性。在实际的路径规划问题中,两 地之间的距离不是用单纯的直线距离(欧几里得距离)来衡量的,两地之间的路线由于众 多因素的影响通常是弯曲曲折的。受这一现象的影响和启发,且如图6所示,从流形的角 度来看,高维数据实际上是嵌入在低维流形中的。因此,引入了一种曲形度量来衡量帧间 的差异,不需要复杂的计算和大量的内存。引入的曲形度量的具体形式可以表示为:
[0181][0182]
其中,loss表示通过欧几里得度量产生的损失,loss表示引入曲形度量后产生的损失。 由于模型只在正常样本上进行训练,在测试阶段输入正常样本时,模型的损失会很小,通 常接近于0。相反,当输入异常样本时,模型不能很好地重构或预测输入样本,造成很大 的损失。通过计算,可以得到loss和loss之间的关系如下:
[0183][0184][0185]
为了进一步研究提出的曲形度量,将其分为两类情况——ρ∈(0,1)和ρ∈(1,+∞),以便 进行详尽的讨论。
[0186]
ρ∈(0,1)时的探讨:当ρ∈(0,1)的时候,由式(26)可知此时loss=1-ρ
loss
,对loss和 loss做差并构造函数f(loss):
[0187]
f(loss)=loss-loss=1-ρ
loss-loss
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(29)
[0188]
对函数f(loss)进行一次求导和二次求导,有:
[0189]
f'(loss)=-lnρ
·
ρ
loss-1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(30)
[0190]
f”(loss)=-(lnρ)2·
ρ
loss
<0,loss≥0
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(31)
[0191]
从式(31)可知函数f'(loss)在区间(0,+∞)单调递减,考虑到参数的不同取值ρ,我 们将这个问题分为三种情况进行探讨:
[0192]
1/e<ρ<1
[0193]
对任意loss>0,有f'(loss)<f'(loss)|
loss=0
=-lnρ-1<0,所以此时函数f
(loss)在区间 (0,+∞)单调递减。同样对于任意loss≥0,有f(loss)<f(loss)|
loss=0
=ρ-1<0。所以当 1/e<ρ<1且loss>0时,无论是输入正常样本还是异常样本模型所产生loss的皆被缩小了。
[0194]
ρ=1/e
[0195]
对任意loss>0,有f'(loss)<f'(loss)|
loss=0
=-lnρ-1=0,所以此时函数f(loss)在区间 (0,+∞)单调递减。同样对于任意loss≥0,有f(loss)<f(loss)|
loss=0
=1/e-1<0,又由式(29) 可知,loss

0时,loss和loss可以认为是相等的。即此时模型产生的loss既没有被放大 也没有被缩小,而当ρ=1/e且loss>0时,输入样本后模型产生的loss皆被缩小了。
[0196]
0<ρ<1/e
[0197]
f'(loss)|
loss=0
=-lnρ-1>0,令f'(loss)=0,有:
[0198][0199]
记所以此时函数f(loss)在区间(0,loss
p
)单调递增,在区间 (loss
p
,+∞)单调递减,又因为:
[0200]
f(loss)|
loss=0
=0
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(33)
[0201][0202][0203]
所以函数f(loss)在区间(loss
p
,+∞)存在一个零点,记此零点为loss
zero
。由此可以认为 输入样本后模型产生的在区间(0,loss
zero
)上被放大了,而在区间(loss
zero
,+∞)上被缩小了。 令图7左、图7右分别给出了函数f(loss)和u(loss)在ρ取不同值时分 布曲线。
[0204]
考虑实际情况中模型产生的损失通常位于零到零点几的范围内,并结合图7与上述三 种情况的分析,可以得出以下结论:
[0205]
ρ∈(0,1/e)时,从图7左、图7右中ρ取0.05、0.1以及0.15时的三条曲线可以看出: 输入样本模型产生的loss较小时,将会被放大,且loss越小其被放大的倍数就越大;与之 恰恰相反的是模型产生的loss较大时则会被缩小,且loss越大其被缩小的倍数就越大。当ρ 的值趋向于0时,区间(0,loss
zero
)将迅速增加,这意味着所有的loss将被放大,且loss的值越 大,其被放大的倍数就越小。同样,当ρ的值趋向于1/e时,区间(0,loss
zero
)将迅速减小。此 时可以认为所有的loss将被缩小,且loss的值越大,其被缩小的倍数就越大。另外,当loss 的值既不趋向于0又不趋向于1/e时,存在一种小的loss会被放大,大的loss会被缩小的情 形。
[0206]
ρ=1/e时,从图7左、图7右中ρ取1/e时的曲线可以看出:第一,当输入样本模型 产生的loss趋近于0时,可以认为loss既没有被缩小也没有被放大。第二,输入样本模型 产生的loss较小时却不趋近于0时,loss将会被放大,且loss越小其被放大的倍数就越大。 第
三,模型产生的loss较大时则会被缩小,且loss越大其被缩小的倍数就越大。
[0207]
ρ∈(1/e,1)时,从图7左、图7右中ρ取0.5、0.7以及0.9时的曲线可以看出:输入样 本模型产生的loss皆被缩小了,且loss越大其被缩小的倍数就越大。
[0208]
因为模型只在正常数据上训练,所以在测试阶段期望输入正常样本时模型产生的loss 可以尽可能小,而输入异常样本时模型产生的loss则尽可能大,即希望通过引入这种新型 的度量方式可以使得模型对于正常和异常样本产生更大的区分度。而当ρ在区间(0,1)取值 时,通过上述分析可以推断此时模型对于正常和异常样本的区分度不升反降。
[0209]
ρ∈(1,+∞)时的探讨:当ρ∈(1,+∞)的时候,由式(26)可知此时loss=ρ
loss-1,对loss 和loss做差并构造函数g(loss):
[0210]
g(loss)=loss-loss=ρ
loss-1-loss
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(36)
[0211]
对函数f(loss)进行一次求导和二次求导,有:
[0212]
g'(loss)=lnρ
·
ρ
loss-1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(37)
[0213]
g”(loss)=(lnρ)2·
ρ
loss
>0,loss>0
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(38)
[0214]
从式(38)可知函数g'(loss)在区间(0,+∞)单调递减,考虑到参数的不同取值ρ,我 们将这个问题分为三种情况进行探讨:
[0215]
ρ>e
[0216]
对任意loss>0,有g'(loss)<g'(loss)|
loss=0
=lnρ-1>0,所以此时函数g(loss)在区间 (0,+∞)单调递增。同样对于任意loss≥0,有f(loss)>f(loss)|
loss=0
=ρ-1>0。所以当ρ>e 且loss≥0时,无论是输入正常样本还是异常样本模型所产生loss的皆被放大了。
[0217]
ρ=e
[0218]
对任意loss>0,有g'(loss)>g'(loss)|
loss=0
=lnρ-1=0,所以此时函数g(loss)在区间 (0,+∞)单调递减。同样对于任意loss>0,有g(loss)<g(loss)|
loss=0
=e-1>0,又由式(29) 可知,loss

0时,loss和loss可以认为是相等的。即此时模型产生的loss既没有被放大 也没有被缩小,而当ρ=e且loss>0时,输入样本后模型产生的loss皆被放大了。
[0219]
1<ρ<e
[0220]
g'(loss)|
loss=0
=lnρ-1<0,令g'(loss)=0,有:
[0221][0222]
记所以此时函数g(loss)在区间(0,loss
p
)单调递减,在区间 (loss
p
,+∞)单调递增,又因为:
[0223]
g(loss)|
loss=0
=0
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(40)
[0224][0225][0226]
所以函数g(loss)在区间(loss
p
,+∞)存在一个零点,记此零点为loss
zero
。由此可以认为 输入样本后模型产生的在区间(0,loss
zero
)上被缩小了,而在区间(loss
zero
,+∞)上
被放大了。 令图8左、图8右分别给出了函数g(loss)和v(loss)在ρ取不同值时分 布曲线。考虑实际情况中模型产生的损失通常位于零到零点几的范围内,并结合图8与上述 三种情况的分析,可以得出以下结论:
[0227]
1<ρ<e时,从图8左、图8右中ρ取1.5、1.8、2.1、2.4时的曲线可以看出:输入样 本后模型产生的loss较小时,loss将会被缩小;与之相对的当模型产生的loss很大时loss则 会被放大。此外当ρ向1靠近时,区间(0,loss
zero
)会迅速增大,即当输入样本后模型产生较 大的loss时loss同样会被缩小,由于输入样本模型产生的loss的量级原因,此时可以认为 所有的loss都被缩小了,但是数值越小的loss被缩小的倍数越小,所以此时引入近似流形 距离参数并不可以使得模型对正常和异常样本的区分度增加。同样当ρ取值逼近e时,区 间(0,loss
zero
)会迅速减小,此时通过实验选择合适的接近的ρ值将正常样本产生的较小的 loss缩小,将异常样本产生的较大的loss放大,从而使得模型对正常和异常样本得区分度 可以到达最佳的状态。
[0228]
ρ=e时,从图8左、图8右中ρ取e时的曲线可以看出:当输入样本模型产生的loss 趋近于0时,可以认为loss既没有被缩小也没有被放大;模型产生的loss越大时其被放大 的倍数也越大;对于一个训练良好的模型来说,在测试阶段输入正常样本产生的通常会接 近于0,所以ρ取e时模型对正常样本和异常样本同样会有着极佳的区分度。
[0229]
ρ>e时,从图8左、图8右中ρ取3和5时曲线可以看出:输入样本后模型产生的loss 都将被放大,且loss越大其被放大的倍数就越大,因此相比于未引进近似流形距离参数ρ时 的情况,模型对于正常和异常样本的区分也将获得显著的提升。
[0230]
综上所述,当引入新的度量并且参数ρ在区间(1,+∞)内取值时,上述分析中的大多数 情况表明,模型对正常和异常样本的分异程度将进一步提升。
[0231]
虽然在上文中已经参考实施方式对本发明进行了描述,然而在不脱离本发明的范围的 情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在 结构冲突,本发明所披露的实施方式中的各项特征均可通过任意方式相互结合起来使用, 在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的 考虑。因此,本发明并不局限于文中公开的特定实施方式,而是包括落入权利要求的范围 内的所有技术方案。

技术特征:
1.一项基于曲形度量模型的双流视频异常检测方法,其特征在于,所述方法包括:s1、加载视频,将视频每五帧分为一个视频序列;s2、对每个视频序列的第一帧x
fif
作为输入帧,将其输入到静态模块中进行操作;s3、对每个视频序列的前四帧x
clips
,将其输入到动态模块中进行操作;s4、对于动态模块输出和静态模块输出决策模块将二者结合起来产生对最后一帧x
lif
的预测帧2.根据权利要求1所述的一项基于曲形度量模型的双流视频异常检测方法,其特征在于,所述s2和s4中的静态模块都包括静态编码器d
s
、k-mean++聚类模块和静态解码器d
s
,所述静态编码器d
s
连接k-mean++聚类模块,所述k-mean++聚类模块连接静态解码器d
s
;所述静态编码器e
s
和静态解码器d
s
都去除了每个深度残差块内的两个归一化层,在深度残差块后附加归一化层,同时将带泄露线性整流单元替换所有深度残差块的线性整流单元;s2中,所述静态编码器e
s
将输入帧x
fif
转化为中级外观及对象z
s
表示,静态编码器e
s
并输出至静态解码器d
s
和k-mean++聚类模块部分;所述静态解码器e
s
将中级外观及对象表示z
s
转化为第一帧的重建帧并输出决策模块;其中:表示静态编码器e
s
参数,表示静态解码器d
s
的参数;计算输入帧和第一帧的重建帧之间的均方误差,其中静态编码器e
s
和静态解码器d
s
的损失函数l
s
都定义为:聚类模块将中级外观及对象表示z
s
作为输入并计算其与聚类中心c之间的距离d
c
作为输出至决策模块;设对于包含k个聚类簇的聚类模块来说,已经选取了n个初始聚类中心,其中n∈(0,k),则在选取第n+1个聚类中心时距离当前个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心;模型通过最小化数据表示z
s
和聚类中心之间c的距离来优化聚类中心;将每个聚类中心视为训练数据集中的正常时空模式;设k表示簇的数目,c
k
表示簇k的表示,c={c1,c2,...,c
k
}表示所有簇的集合,对于给定的中级外观及对象表示z
s
,将其归一化至[0,1]区间并表示为r,计算r和每个聚类中心c
k
之间的欧氏距离:其中h表示特征图的空间维度行数大小w表示特征图的空间维度列数大小,γ是可调超参数,k-means++聚类策略目标函数l
cluster
定义为:
将最后一帧x
lif
输入到静态编码器e
s
中,得到中间表示z
lif
,然后将其归一化为r
lif
,最后计算r
lif
与聚类中心c之间的欧式距离,其表示为:其中,h∈[0,h
lif
],w∈[0,w
lif
],h
lif
和w
lif
都表示特征映射r
lif
的空间维度。3.根据权利要求2所述的一种基于曲形度量模型的双流视频异常检测方法,其特征在于,所述静态编码器和静态解码器都由四个深度残差块组成。4.根据权利要求1所述的一种基于曲形度量模型的双流视频异常检测方法,其特征在于,所述动态模块包括动态编码器e
m
、记忆模块和动态解码器d
m
,所述动态编码器e
m
连接记忆模块,所述记忆模块连接动态解码器d
m
;所述动态编码器e
m
和动态解码器d
m
都是由四个深度残差块组成,将带泄露线性整流单元替换所有深度残差块的线性整流单元;所述动态编码器e
m
将输入连续视频帧x
clips
的rgb差分转化为中级运动表示z
m
并输出至记忆模块;其中,表示动态编码器的参数;记忆模块对沿特征图维度抽取实值向量,对其中运动对象特征和对应的运动模式特征进行关联记忆;对于动态编码器e
m
第i深度残差块产生的运动特征,注意力模块首先将其输入到卷积层:其中,表示动态编码器e
m
第i深度残差块所产生的特征图矩阵,f
n
表示经过卷积滤波器后第i深度残差块所产生的特征图,h表示动态编码器e
m
第i深度残差块所产生的特征图的行数,w表示动态编码器e
m
第i深度残差块所产生的特征图的列数,w
t
表示卷积滤波器的权重参数,将卷积滤波器来嵌入输入特征并计算沿特征维度的方差,沿空间维度操作归一化,以生成相应的注意图:以生成相应的注意图:其中,var表示特征图方差矩阵,att表示加上被方差突出后的特征图矩阵,exp(
·
)表示以数学常数e为底的指数函数,var(h,w)其中表示空间位置(h,w)处特征图的方差,d表示第d个特征图,d表示第i层的特征图数;所述记忆模块将中级运动表示z
m
记忆、重建并输出重建后的中级运动表示输出到动态解码器d
m

记忆模块设计为矩阵m∈r
n
×
c
,包含n个固定维数的实值向量,对于动态编码器e
m
产生的运动表示,从特征图维度产生大小为1
×1×
c的实值向量,每个实值向量中包含运动对象特征和相应的运动模式特征,记忆模块将这些特征进行关联记忆,并根据之前记录的特征信息对进行重建;记忆模块涉及读取操作和写入操作;对于读取操作,利用内存中已保存的正常模式的运动对象特征和对应的运动模式特征,将当前动态编码器产生的运动表示重建;对于从z
m
产生的查询项和内存项m
i
,可以计算出对应的匹配概率α
i
:其中是和m
i
的余弦相似度,表示为:在内存中使用有限数量的正常模式进行重建有助于在异常情况下产生较大的重建误差,但是一些异常可能仍然有机会通过包含许多微小元素的α的复杂组合而得到很好地重建,α表示所有α
i
的集合;采用了硬收缩操作来提高的稀疏性,所以对于α
i
,进一步简化为:,进一步简化为:其中,δ表示一个接近于0的数,ε表示一个足够小的数,具体定义为ε∈[1/n,3/n],是对α的重建结果,对归一化,是对α
i
的重建结果,最终可表示为表示对的重建结果。建结果。记忆模块的损失函数l
memory
表示为交叉熵的形式:对于写入操作,利用当前正常模式中的各种关联特征更新内存的内容;同式(12),对于内存项m
i
和从z
m
产生的可以计算其出对应的匹配概率β
t
:m
i
的重建结果最终可表示为的重建结果最终可表示为所述动态流解码器d
m
将重建的中级运动表示作为输入并以最后一帧x
lif
和第一帧的
预测的rgb差分作为输出至决策模块;其中,表示动态解码器的参数;动态编码器e
m
和运动解码器d
m
之间存在跳跃连接,将动态解码器d
m
中的每个深度残差块处理的是上采样运动表示和低水平特征的串联;防止生成的结果过度平滑计算生成的rgb差分和真实值x
diff
间的欧式距离以及他们之间的梯度损失,运动自动编码器的损失函数l
m
定义为:其中,g
d
表示视频帧沿空间x轴和y轴的图像梯度。5.根据权利要求1所述的一种基于曲形度量模型的双流视频异常检测方法,其特征在于,总损失函数:将式(3)、(5)、(17)、(21)中的损失函数结合起来,并引入曲形度量,所有的损失函数组成的总损失函数loss
total
如下:其中,λ
r
和λ
m
都为可调超参数,静态损失l
s
约束模型生成普通的单帧。动态损失l
m
约束模型计算输入视频帧x
fif
与最后一帧x
lif
的rgb差值;聚类损失l
cluster
强制静态编码器e
s
和静态解码器d
s
建立场景特征和对象特征之间的关联,记忆模块损失l
memory
则促使动态编码器e
m
和动态解码器d
m
将运动对象特征与正常运动数据的运动模式特征相关联;计算最后一帧x
lif
和预测帧间的曲形度量距离,即对最后一帧的预测误差d
f
作为输出;对于给定的测试视频序列,无论是曲形度量距离d
f
还是聚类距离d
c
,都可以单独作为评判视频帧正常/异常程度的一个标准;结合静态分支的输出和动态分支的输出来生成预测帧计算与实际帧x
lif
之间的欧氏距离,曲形度量方法表示为:其中为与实际帧x
lif
之间的欧式距离;将最后一帧的预测误差d
f
与输出的聚类距离d
c
相乘并将结果取倒数产生一个综合性损失值s:s=1/d
f
d
c

ꢀꢀꢀꢀ
(24);将产生的综合性损失值s归一化至[0,1]区间内,即产生了对每一帧的规则性得分score(t);

技术总结
本发明属于无监督异常检测技术领域,具体为一种基于曲形度量模型的双流视频异常x


技术研发人员:李洪均 王云龙 孙晓虎 李超波 陈俊杰
受保护的技术使用者:南通大学
技术研发日:2022.06.24
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-2870.html

最新回复(0)