1.本技术涉及人工智能技术的强化学习技术领域,具体而言,本技术涉及一种基于强化学习的视频分类方法、装置和计算机设备。
背景技术:2.如今,基于人工智能的视频分类技术被广泛应用在视频安防、异常识别等方面。由于强化学习可以很好地对序列数据进行预测,因此可以应用于视频分类任务。而随着机器学习技术的不断发展及技术需求的不断提高,人们要求机器学习模型除了具备良好的识别和预测能力之外,还希望能够建立起用户与其内部机制的沟通。现有技术中有一些视频分类强化模型,通过视觉显著性模型与视觉聚焦区域结合,得到视频的分类预测结果。但由于在这些方案中,图像显著性区域与决策归因区域存在差距,因而无法提供较好的可解释性;另外,由于显著性检测模型的权重在训练过程中保持不变,且其自身也不具有聚焦功能,因此,当智能体预测的视线关注点错误时,则其视线聚焦区域也会出错,这将导致最终提取的用于识别的特征图出现偏差,从而使得视频分类的准确度降低。
技术实现要素:3.本技术的主要目的为提供一种基于强化学习的视频分类方法、装置和计算机设备,可提高视频分类方法中视频分类模型的可解释性及视频分类的准确度。
4.为了实现上述发明目的,本技术提供一种基于强化学习的视频分类方法,包括:
5.获取待分类视频的当前视频帧和视觉关注点,其中,所述视觉关注点基于上一视频帧获得;
6.将所述当前视频帧和所述上一视频帧的分类得分输入归因模型,生成特征图和第一注意力图,其中,所述归因模型的损失函数包括面积损失子函数;
7.根据所述当前视频帧和所述视觉关注点生成视觉关注图;
8.将所述视觉关注图输入视觉显著性模型生成第二注意力图;
9.将所述第二注意力图与所述第一注意力图融合,生成第三注意力图;
10.根据所述第三注意力图和所述特征图生成特征向量;
11.根据所述特征向量获取当前视频帧的分类得分和下一视频帧的视觉关注点。
12.在一些实施例中,所述将所述第二注意力图与所述第一注意力图融合,生成第三注意力图,包括:
13.设定权重值ρ;
14.将所述ρ设为所述第二注意力图的权重,(1-ρ)设为所述第一注意力图的权重;
15.根据所述ρ、(1-ρ)、所述第二注意力图和所述第一注意力图生成所述第三注意力图。
16.在一些实施例中,所述将所述当前视频帧和所述上一视频帧的分类得分输入归因模型,生成特征图和第一注意力图,包括:
17.将所述当前视频帧输入卷积神经网络,生成特征图。
18.在一些实施例中,所述将所述当前视频帧和所述上一视频帧的分类得分输入归因模型,生成特征图和第一注意力图,还包括:
19.通过第一卷积层将所述特征图的通道数变为c,获得第一子特征图;
20.通过第二卷积层将所述特征图的通道数变为1,获得第二子特征图;
21.根据所述第一子特征图获得第一条件概率分布;
22.根据所述第二子特征图获得第二条件概率分布;
23.将所述第一条件概率分布和所述第二条件概率分布结合,获得联合分布概率;
24.将所述上一视频帧的分类得分代入所述联合分布概率,生成所述第一注意力图。
25.在一些实施例中,所述根据所述第三注意力图和所述特征图生成特征向量,包括:
26.将所述特征图与所述第三注意力图聚合,生成聚合图;
27.将所述聚合图和所述特征图合并,生成所述特征向量。
28.在一些实施例中,所述归因模型基于最大期望算法进行训练。
29.本技术还提供一种视频分类装置,包括:
30.获取模块,用于获取实时视频的当前视频帧和视频帧关注点,其中,所述视频帧关注点基于上一视频帧获得;
31.第一注意力图生成模块,用于将所述当前视频帧输入归因模型,生成所述第一注意力图,其中,所述归因模型的损失函数包括面积损失子函数;
32.第一特征图生成模块,用于将所述当前视频帧输入所述归因模型,生成所述第一特征图;
33.视觉关注图生成模块,用于根据所述当前视频帧和预设关注点的值生成视觉关注图;
34.第二注意力图生成模块,用于将所述视觉关注图输入视觉显著性模型生成第二注意力图;
35.第三注意力图生成模块,用于将所述第二注意力图与所述第一注意力图融合生成第三注意力图;
36.特征向量生成模块,用于根据所述第三注意力图和所述第一特征图生成特征向量;
37.分类得分和视觉关注点获取模块,用于根据所述特征向量获取分类得分和下一视频帧的视觉关注点。
38.本技术还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例提供的基于强化学习的可解释性方法的步骤。
39.本技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例提供的基于强化学习的可解释性方法的步骤。
40.本技术所提供的一种基于强化学习的视频分类方法、装置、计算机设备及存储介质,获取待分类视频的当前视频帧和视觉关注点;将当前视频帧和上一视频帧的分类得分输入归因模型,生成特征图和第一注意力图,其中,归因模型的损失函数包括面积损失子函
数;根据当前视频帧和视觉关注点生成视觉关注图;将视觉关注图输入视觉显著性模型生成第二注意力图;将第二注意力图与第一注意力图融合,生成第三注意力图;根据第三注意力图和特征图生成特征向量;根据特征向量获取当前视频帧的分类得分和下一视频帧的视觉关注点。由于归因模型天然具有可解释性,因此其与视觉显著性模型结合生成的第三注意力图,不仅可以解释视频帧中的显著区域,且可以解释为每一步的预测结果作出贡献的区域及视线关注区域,因此提高了视频分类方法中视频分类模型的可解释性;另外,由于在归因模型的损失函数中增加了面积损失子函数,因此使其具备了聚焦功能,即使基于上一视频帧所得到视线关注点出错,其与归因模型的结果融合之后也可以显示出视线聚焦区域,不至于完全失焦,从而使得最终生成的特征向量更为准确,从而提高视频分类的准确性。
附图说明
41.图1为本技术一实施例的基于强化学习的视频分类方法的流程示意图;
42.图2为本技术一实施例的基于强化学习的视频分类方法中步骤s20的流程示意图;
43.图3为本技术一实施例的基于强化学习的视频分类方法中步骤s50的流程示意图;
44.图4为本技术一实施例的视频分类装置的结构示意框图;
45.图5为本技术一实施例的计算机设备的结构示意框图。
具体实施方式
46.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
47.现有技术中的视频分类方法,在观察环境中模拟了自下而上和自上而下的视觉注意机制,使得所提出的随机多任务智能体的决策可以用注意区域进行可视化解释。
48.参照图1,本技术实施例提供一种视频分类方法,包括步骤s10-s70,对于该视频分类方法的各个步骤的详细阐述如下。
49.在其中一个实施例中,该视频分类方法包括:
50.s10、获取待分类视频的当前视频帧和视觉关注点,其中,所述视觉关注点基于上一视频帧获得;
51.s20、将所述当前视频帧和所述上一视频帧的分类得分输入归因模型,生成特征图和第一注意力图,其中,所述归因模型的损失函数包括面积损失子函数;
52.s30、根据所述当前视频帧和所述视觉关注点生成视觉关注图;
53.s40、将所述视觉关注图输入视觉显著性模型生成第二注意力图;
54.s50、将所述第二注意力图与所述第一注意力图融合,生成第三注意力图;
55.s60、根据所述第三注意力图和所述特征图生成特征向量;
56.s70、根据所述特征向量获取当前视频帧的分类得分和下一视频帧的视觉关注点。
57.如上述步骤s10所述,可对待分类视频进行稀疏分段采样获得当前视频帧,例如,每隔n个视频帧选取一帧作为用于视频识别的有效视频帧,其中,n的取值由实际的分类需求进行选取,例如当用于监控的异常识别时,可将n的取值选取为较小值,以避免遗漏重要
信息。合理的稀疏分段采样可去除待分类视频中的大量冗余,提高识别效率,且不至于丢失视频中的重要信息。
58.在一些视频分类任务中(如监控视频的异常识别),监控对象及其所在的局部区域通常包含了绝大部分的监控效用信息,是分类模型始终关注并感兴趣的区域(roi),由其产生的局部视觉信息是引导分类决策的关键。而roi之外的背景区域几乎不含监控效用信息,对分类结果的影响微乎其微,因此,只要保证待分类视频中有效视频帧的图像的roi视觉信息能够满足分类需求即可。因此,可以基于视网膜中央凹视觉的处理方法对有效视频帧图像进行处理,即视网膜中央凹处理,通过模仿人眼在视觉感知过程中的信息处理机制来对有效视频帧图像中的监控效用信息进行筛选,从而降低图像的数据量,提高分类效率。处理后的图像能够在富含监控效用信息的roi上保持高分辨率,以满足视频分类决策的需求,而远离roi的背景区域分辨率则逐渐降低,在减少非监控效用信息量的同时也能反映整体的图像内容,从而辅助监控行为得以正常进行。
59.而要使有效视频帧中图像的显示分辨率与视觉感知分辨率保持一致,首先需要确定视觉关注点,即视网膜中央凹在图像上的对应位置,从而调整图像的空间分辨率分布,使其符合视网膜中央凹视觉。在本技术实施例中,当前视频帧的视觉关注点基于上一视频帧获得,即分类模型在输出上一视频帧的分类结果时,亦输出一视觉关注点,该视觉关注点用于对当前视频帧的图像进行预处理。
60.如上述步骤s20所述,在本技术实施例中,将待分类视频的当前视频帧输入归因模型生成第一注意力图和特征图,其中,第一注意力图用以模拟自下而上的注意力机制。自下而上的注意力机制以及自上而下的注意力机制被广泛用于图像描述和视觉问答等领域,以提升模型在更深层次的图像理解和多步推理中的表现,因此,在本技术实施例中的视频分类方法中,通过引入归因模型生成第一注意力图以使分类模型具有更好的解释性。由于归因模型天然具有可解释性,因此由其生成的注意力图(attentionmap)不仅解释了图像中的显著区域,而且解释了为每一步的预测结果作出贡献的区域,以及视线关注区域,因此该注意力图可以直接作为视频分类模型的动态归因图。
61.在一实施例中,归因模型可以基于类激活映射模型(cam)设计,类激活映射模型采用全局平均池化,以热力图的形式呈现出模型通过哪些像素点得知图像归属于某个类别,使得分类模型透明化和具有可解释性。
62.在另一实施例中,归因模型也可以基于具有更可解释性的类激活潜在映射模型(calm)设计。类激活潜在映射模型在类激活映射模型的基础上添加了隐变量z,用于表征图像x上每一像素的位置,并利用ml算法、em算法等学习已知分类结果y的前提下位置z的概率分布。
63.需要注意的是,为了使得上述的归因模型具有聚焦功能,在归因模型训练的过程中,损失函数中增加了面积损失子函数。具体的,例如,当利用em算法学习已知分类结果y的前提下位置z的概率分布时,则归因模型的总损失函数为
64.l=l
em
+λl
area
65.其中,l
em
为根据em算法得到的归因模型的损失函数,l
area
为面积损失子函数,λ为超参数。λ的取值范围为[0,1],λ越大,则图像越聚焦。
[0066]
如上述步骤s30所述,本实施例可通过视觉中心凹模块,根据当前视频帧及视觉关
注点对当前视频帧图像进行预处理,生成视觉关注图。需要注意的是,上述视觉中心凹模块为现有技术,在此不做赘述。
[0067]
如上述步骤s40所述,本技术实施例的视觉显著性模型可选用ittl视觉显著性模型。ittl视觉显著性模型是根据早期灵长类动物的视觉神经系统设计的一种视觉注意模型。该模型首先利用高斯采样方法构建图像的颜色、亮度和方向的高斯字塔,然后利用高斯金字塔计算图像的亮度特征图、颜色特征图和方向特征图,最后结合不同尺度的特征图即可获得亮度、颜色和方向显著图,相加得到最终的视觉显著图。该方法不需要训练学习的过程,仅通过纯数学方法,便可完成显著图的计算。本技术实施例中,以视觉显著性模型模拟自上而下的注意力机制生成第二注意力图(即视觉显著图)。
[0068]
如上述步骤s50所述,本技术实施例中,将由归因模型(即自下而上的注意力机制)生成的第一注意力图和视觉显著性模型(即自上而下的注意力机制)生成的第二注意力图融合,生成第三注意力图,作为视觉分类模型的总注意力图。通过自上而下的注意力机制和自下而上的注意力机制的结合,使得视频分类具有更好的可解释性。
[0069]
如上述步骤s60-s70所述,在本实施例中,根据第三注意力图和特征图生成特征向量,将该特征向量输入强化学习模型中的视频分类智能体中,从而获取当前视频帧的分类得分和下一视频帧的视觉关注点。
[0070]
为了同时执行视频分类和视觉关注点预测,在本实施例的视频分类智能体中,输入的特征向量与两个任务共享,这样可以带来两个优点:首先,特征向量的共享建立了两个任务之间的因果关系,因此,由视觉关注点预测任务调节的视觉注意可以更方便地解释视频分类结果;其次,明显节省了环境和代理之间的通信工作量,尤其是当特征向量是高维的时候。对上述视频分类智能体设置一稠密的分类奖励和一稀疏的视觉关注奖励,以鼓励准确和可解释的决策。
[0071]
本技术所提供的一种基于强化学习的视频分类方法,获取待分类视频的当前视频帧和视觉关注点;将当前视频帧和上一视频帧的分类得分输入归因模型,生成特征图和第一注意力图,其中,归因模型的损失函数包括面积损失子函数;根据当前视频帧和视觉关注点生成视觉关注图;将视觉关注图输入视觉显著性模型生成第二注意力图;将第二注意力图与第一注意力图融合,生成第三注意力图;根据第三注意力图和特征图生成特征向量;根据特征向量获取当前视频帧的分类得分和下一视频帧的视觉关注点。由于归因模型天然具有可解释性,因此其与视觉显著性模型结合生成的第三注意力图,不仅可以解释视频帧中的显著区域,且可以解释为每一步的预测结果作出贡献的区域及视线关注区域,因此提高了视频分类方法中视频分类模型的可解释性;另外,由于在归因模型的损失函数中增加了面积损失子函数,因此使其具备了聚焦功能,即使基于上一视频帧所得到视线关注点出错,其与归因模型的结果融合之后也可以显示出视线聚焦区域,不至于完全失焦,从而使得最终生成的特征向量更为准确,从而提高视频分类的准确性。
[0072]
在一实施例中,所述将所述当前视频帧和所述上一视频帧的分类得分输入归因模型,生成特征图和第一注意力图,具体包括:
[0073]
将所述当前视频帧输入卷积神经网络,生成特征图。
[0074]
卷积神经网络是一种多层的监督学习神经网络,隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能的核心模块。该网络模型通过采用梯度下降法最小化损失函
数对网络中的权重参数逐层反向调节,通过频繁的迭代训练提高网络的精度。卷积神经网络的低隐层是由卷积层和最大池采样层交替组成,高层是全连接层对应传统多层感知器的隐含层和逻辑回归分类器。第一个全连接层的输入是由卷积层和子采样层进行特征提取得到的特征图像。最后一层输出层是一个分类器,可以采用逻辑回归,softmax回归甚至是支持向量机对输入图像进行分类。
[0075]
在一实施例中,请参照图2,所述将所述当前视频帧和所述上一视频帧的分类得分输入归因模型,生成特征图和第一注意力图,还具体包括如下步骤:
[0076]
s201、通过第一卷积层将所述特征图的通道数变为c,获得第一子特征图;
[0077]
s202、通过第二卷积层将所述特征图的通道数变为1,获得第二子特征图;
[0078]
s203、根据所述第一子特征图获得第一条件概率分布;
[0079]
s204、根据所述第二子特征图获得第二条件概率分布;
[0080]
s205、将所述第一条件概率分布和所述第二条件概率分布结合,获得联合分布概率;
[0081]
s206、将所述上一视频帧的分类得分代入所述联合分布概率,生成所述第一注意力图。
[0082]
如上述s201-s206所述,在本实施例中,分别通过两个卷积层将卷积神经网络提取到的特征图的通道数变为c和1,其中c为类别数。对c
×h×
w的第一子特征图沿通道作softmax(归一化)得到第一条件概率分布g
yz
=p(y|x,z);对1
×h×
w的第二子特征作l1标准化得到第二条件概率分布hz=p(z|x);hz经广播后与g
yz
逐元素相乘得到联合概率分布p(y,z|x)。则归因模型输出的归因图(即第一注意力图)则为其中,y为归因模型训练时输入的训练图像的类别,为本技术实施例中输入图像x(即当前视频帧)的真实类别,h为输入图像x的高度,w为输入图像x的高度。
[0083]
若设p
θ
′
(z|x,y)为已知输入图像x的分类结果为y的条件下z的概率分布,示例性地,根据em算法得到归因模型的损失函数为
[0084][0085]
其中,θ为归因模型的参数,θ
′
为z的分布参数。根据贝叶斯公式,
[0086][0087]
所以
[0088][0089]
此外,为了使归因本身具有聚焦功能,本方案在损失函数中添加面积损失:
[0090][0091]
故归因模型的总损失函数为l=l
em
+λl
area
。
[0092]
在一实施例中,请参照图3,所述将所述第二注意力图与所述第一注意力图融合,
生成第三注意力图,可具体包括如下步骤:
[0093]
s501、设定权重值ρ;
[0094]
s502、将所述ρ设为所述第二注意力图的权重,(1-ρ)设为所述第一注意力图的权重;
[0095]
s503、根据所述ρ、(1-ρ)、所述第二注意力图和所述第一注意力图生成所述第三注意力图。
[0096]
如上述步骤s501-s503所述,在本技术实施例中,为了结合自上而下的注意力机制和自下而上的注意力机制,设定了权重值ρ,以使得第三注意力图为第一注意力图和第二注意力图的加权和,具体的:
[0097]
s=(1-ρ)s
bu
+ρs
td
[0098]
其中,s为第三注意力图,s
bu
为第一注意力图,s
td
为第二注意力图。第一注意力图和第二注意力图的权重由分类结果控制,其中,m限制了第二注意力图的最大权重。
[0099]
由于第一注意力图与第二注意力图都依赖于视频分类智能体的行为(action),因此该方法可通过将环境的即时观察和视频分类智能体之前的决策一起考虑,动态地融合自上而下的注意力机制和自下而上的注意力机制。与一般的静态注意力融合方式相比较,本技术的视频分类方法比手动设置固定权重因子的方式具有更准确的视频分类性能;此外,由于注意机制是为视频分类而明确制定的,因此可以通过最终的注意力图解释当前帧中的哪个区域像素对上一帧分类结果的重要程度,从而直观地解释视频分类智能体的最终决定(即行动)。
[0100]
在一实施例中,所述根据所述第三注意力图和所述特征图生成特征向量,包括:
[0101]
将所述特征图与所述第三注意力图聚合,生成聚合图;
[0102]
将所述聚合图和所述特征图合并,生成所述特征向量。
[0103]
具体的,将第三注意力图与特征图的各通道的元素进行乘积,生成聚合图;使用cat函数将该聚合图与特征图串联,并经过相应的数学处理,生成特征向量。
[0104]
在一实施例中,所述归因模型基于最大期望算法(em算法)进行训练。而在另外的实施例中,归因模型也可基于如最大似然算法(ml算法)等可以满足设计需求的算法训练,在此不做限定。
[0105]
在一实施例中,为了增加归因模型的训练样本从而使得归因模型的输出更为准确,可将待分类视频中的上一视频帧和该上一视频帧的分类得分输入归因模型,对归因模型进行训练。
[0106]
请参照图4,本技术实施例中还提供一种视频分类装置,包括:
[0107]
获取模块11,用于获取待分类视频的当前视频帧和视觉关注点,其中,所述视觉关注点基于上一视频帧获得;
[0108]
特征图和第一注意力图生成模块12,用于将所述当前视频帧和所述上一视频帧的分类得分输入归因模型,生成特征图和第一注意力图,其中,所述归因模型的损失函数包括面积损失子函数;
[0109]
视觉关注图生成模块13,用于根据所述当前视频帧和所述视觉关注点生成视觉关注图;
[0110]
第二注意力图生成模块14,用于将所述视觉关注图输入视觉显著性模型生成第二注意力图;
[0111]
第三注意力图生成模块15,用于将所述第二注意力图与所述第一注意力图融合,生成第三注意力图;
[0112]
特征向量生成模块16,根据所述第三注意力图和所述特征图生成特征向量;
[0113]
分类得分和视觉关注点获取模块17,用于根据所述特征向量获取当前视频帧的分类得分和下一视频帧的视觉关注点。
[0114]
在本技术实施例中,可对待分类视频进行稀疏分段采样获得当前视频帧,例如,每隔n个视频帧选取一帧作为用于视频识别的有效视频帧,其中,n的取值由实际的分类需求进行选取,例如当用于监控的异常识别时,可将n的取值选取为较小值,以避免遗漏重要信息。合理的稀疏分段采样可去除待分类视频中的大量冗余,提高识别效率,且不至于丢失视频中的重要信息。
[0115]
在一些视频分类任务中(如监控视频的异常识别),监控对象及其所在的局部区域通常包含了绝大部分的监控效用信息,是分类模型始终关注并感兴趣的区域(roi),由其产生的局部视觉信息是引导分类决策的关键。而roi之外的背景区域几乎不含监控效用信息,对分类结果的影响微乎其微,因此,只要保证待分类视频中有效视频帧的图像的roi视觉信息能够满足分类需求即可。因此,可以基于视网膜中央凹视觉的处理方法对有效视频帧图像进行处理,即视网膜中央凹处理,通过模仿人眼在视觉感知过程中的信息处理机制来对有效视频帧图像中的监控效用信息进行筛选,从而降低图像的数据量,提高分类效率。处理后的图像能够在富含监控效用信息的roi上保持高分辨率,以满足视频分类决策的需求,而远离roi的背景区域分辨率则逐渐降低,在减少非监控效用信息量的同时也能反映整体的图像内容,从而辅助监控行为得以正常进行。
[0116]
而要使有效视频帧中图像的显示分辨率与视觉感知分辨率保持一致,首先需要确定视觉关注点,即视网膜中央凹在图像上的对应位置,从而调整图像的空间分辨率分布,使其符合视网膜中央凹视觉。在本技术实施例中,当前视频帧的视觉关注点基于上一视频帧获得,即分类模型在输出上一视频帧的分类结果时,亦输出一视觉关注点,该视觉关注点用于对当前视频帧的图像进行预处理。
[0117]
在一实施例中,将待分类视频的当前视频帧输入归因模型生成第一注意力图和特征图,其中,第一注意力图用以模拟自下而上的注意力机制。自下而上的注意力机制以及自上而下的注意力机制被广泛用于图像描述和视觉问答等领域,以提升模型在更深层次的图像理解和多步推理中的表现,因此,在本技术实施例中的视频分类方法中,通过引入归因模型生成第一注意力图以使分类模型具有更好的解释性。由于归因模型天然具有可解释性,因此由其生成的注意力图(attentionmap)不仅解释了图像中的显著区域,而且解释了为每一步的预测结果作出贡献的区域,以及视线关注区域,因此该注意力图可以直接作为视频分类模型的动态归因图。
[0118]
在一实施例中,归因模型可以基于类激活映射模型(cam)设计,类激活映射模型采用全局平均池化,以热力图的形式呈现出模型通过哪些像素点得知图像归属于某个类别,使得分类模型透明化和具有可解释性。
[0119]
在另一实施例中,归因模型也可以基于具有更可解释性的类激活潜在映射模型
(calm)设计。类激活潜在映射模型在类激活映射模型的基础上添加了隐变量z,用于表征图像x上每一像素的位置,并利用ml算法、em算法等学习已知分类结果y的前提下位置z的概率分布。
[0120]
需要注意的是,为了使得上述的归因模型具有聚焦功能,在归因模型训练的过程中,损失函数中增加了面积损失子函数。具体的,例如,当利用em算法学习已知分类结果y的前提下位置z的概率分布时,则归因模型的总损失函数为
[0121]
l=l
em
+λl
area
[0122]
其中,l
em
为根据em算法得到的归因模型的损失函数,l
area
为面积损失子函数,λ为超参数。λ的取值范围为[0,1],λ越大,则图像越聚焦。
[0123]
本技术实施例可通过视觉中心凹模块,根据当前视频帧及视觉关注点对当前视频帧图像进行预处理,生成视觉关注图。需要注意的是,上述视觉中心凹模块为现有技术,在此不做赘述。
[0124]
在一实施中,视觉显著性模型选用ittl视觉显著性模型。ittl视觉显著性模型是根据早期灵长类动物的视觉神经系统设计的一种视觉注意模型。该模型首先利用高斯采样方法构建图像的颜色、亮度和方向的高斯字塔,然后利用高斯金字塔计算图像的亮度特征图、颜色特征图和方向特征图,最后结合不同尺度的特征图即可获得亮度、颜色和方向显著图,相加得到最终的视觉显著图。该方法不需要训练学习的过程,仅通过纯数学方法,便可完成显著图的计算。本技术实施例中,以视觉显著性模型模拟自上而下的注意力机制生成第二注意力图(即视觉显著图)。
[0125]
本技术实施例中,将由归因模型(即自下而上的注意力机制)生成的第一注意力图和视觉显著性模型(即自上而下的注意力机制)生成的第二注意力图融合,生成第三注意力图,作为视觉分类模型的总注意力图。通过自上而下的注意力机制和自下而上的注意力机制的结合,使得视频分类具有更好的可解释性。
[0126]
根据第三注意力图和特征图生成特征向量,将该特征向量输入强化学习模型中的视频分类智能体中,从而获取当前视频帧的分类得分和下一视频帧的视觉关注点。
[0127]
为了同时执行视频分类和视觉关注点预测,在本实施例的视频分类智能体中,输入的特征向量与两个任务共享,这样可以带来两个优点:首先,特征向量的共享建立了两个任务之间的因果关系,因此,由视觉关注点预测任务调节的视觉注意可以内省地解释视频分类结果;其次,明显节省了环境和代理之间的通信工作量,尤其是当特征向量是高维的时候。对上述视频分类智能体设置一稠密的分类奖励和一稀疏的视觉关注奖励,以鼓励准确和可解释的决策。
[0128]
可以理解地,本技术中提出的视频分类装置的各组成部分可以实现上述任一实施例提供的视频分类方法任一项的功能,具体结构不再赘述。
[0129]
参照图5,本技术实施例中还提供一种计算机设备,其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述任一实施例提供的基于强化学习的视频分类方法的相关数据。该计算机设备的网络接口用于与外部的终端通过网
络连接通信。该计算机程序被处理器执行时以实现上述任一实施例提供的基于强化学习的视频分类方法。
[0130]
本技术实施例中还提供一种计算机可读存储介质,该计算机可读存储介质可以是非易失性的,也可以是易失性的,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例提供的基于强化学习的视频分类方法。
[0131]
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、扩增型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0132]
综上所述,本技术所提供的一种基于强化学习的视频分类方法、装置、计算机设备及存储介质,获取待分类视频的当前视频帧和视觉关注点;将当前视频帧和上一视频帧的分类得分输入归因模型,生成特征图和第一注意力图,其中,归因模型的损失函数包括面积损失子函数;根据当前视频帧和视觉关注点生成视觉关注图;将视觉关注图输入视觉显著性模型生成第二注意力图;将第二注意力图与第一注意力图融合,生成第三注意力图;根据第三注意力图和特征图生成特征向量;根据特征向量获取当前视频帧的分类得分和下一视频帧的视觉关注点。由于归因模型天然具有可解释性,因此其与视觉显著性模型结合生成的第三注意力图,不仅可以解释视频帧中的显著区域,且可以解释为每一步的预测结果作出贡献的区域及视线关注区域,因此提高了视频分类方法中视频分类模型的可解释性;另外,由于在归因模型的损失函数中增加了面积损失子函数,因此使其具备了聚焦功能,即使基于上一视频帧所得到视线关注点出错,其与归因模型的结果融合之后也可以显示出视线聚焦区域,不至于完全失焦,从而使得最终生成的特征向量更为准确,从而提高视频分类的准确性。
[0133]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0134]
以上所述仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
技术特征:1.一种基于强化学习的视频分类方法,其特征在于,用于视频分类,包括:获取待分类视频的当前视频帧和视觉关注点,其中,所述视觉关注点基于上一视频帧获得;将所述当前视频帧和所述上一视频帧的分类得分输入归因模型,生成特征图和第一注意力图,其中,所述归因模型的损失函数包括面积损失子函数;根据所述当前视频帧和所述视觉关注点生成视觉关注图;将所述视觉关注图输入视觉显著性模型生成第二注意力图;将所述第二注意力图与所述第一注意力图融合,生成第三注意力图;根据所述第三注意力图和所述特征图生成特征向量;根据所述特征向量获取当前视频帧的分类得分和下一视频帧的视觉关注点。2.根据权利要求1所述的基于强化学习的视频分类方法,其特征在于,所述将所述第二注意力图与所述第一注意力图融合,生成第三注意力图,包括:设定权重值ρ;将所述ρ设为所述第二注意力图的权重,(1-ρ)设为所述第一注意力图的权重;根据所述ρ、(1-ρ)、所述第二注意力图和所述第一注意力图生成所述第三注意力图。3.根据权利要求1所述的基于强化学习的视频分类方法,其特征在于,所述将所述当前视频帧和所述上一视频帧的分类得分输入归因模型,生成特征图和第一注意力图,包括:将所述当前视频帧输入卷积神经网络,生成特征图。4.根据权利要求3所述的基于强化学习的视频分类方法,其特征在于,所述将所述当前视频帧和所述上一视频帧的分类得分输入归因模型,生成特征图和第一注意力图,还包括:通过第一卷积层将所述特征图的通道数变为c,获得第一子特征图;通过第二卷积层将所述特征图的通道数变为1,获得第二子特征图;根据所述第一子特征图获得第一条件概率分布;根据所述第二子特征图获得第二条件概率分布;将所述第一条件概率分布和所述第二条件概率分布结合,获得联合分布概率;将所述上一视频帧的分类得分代入所述联合分布概率,生成所述第一注意力图。5.根据权利要求1所述的基于强化学习的视频分类方法,其特征在于,所述根据所述第三注意力图和所述特征图生成特征向量,包括:将所述特征图与所述第三注意力图聚合,生成聚合图;将所述聚合图和所述特征图合并,生成所述特征向量。6.根据权利要求1所述的基于强化学习的视频分类方法,其特征在于,所述归因模型基于最大期望算法进行训练。7.根据权利要求6所述的基于强化学习的视频分类方法,其特征在于,还包括:将所述上一视频帧和所述上一视频帧的分类得分输入所述归因模型,用于对所述归因模型进行训练。8.一种视频分类装置,其特征在于,包括:获取模块,用于获取待分类视频的当前视频帧和视觉关注点,其中,所述视觉关注点基于上一视频帧获得;特征图和第一注意力图生成模块,用于将所述当前视频帧和所述上一视频帧的分类得
分输入归因模型,生成特征图和第一注意力图,其中,所述归因模型的损失函数包括面积损失子函数;视觉关注图生成模块,用于根据所述当前视频帧和所述视觉关注点生成视觉关注图;第二注意力图生成模块,用于将所述视觉关注图输入视觉显著性模型生成第二注意力图;第三注意力图生成模块,用于将所述第二注意力图与所述第一注意力图融合,生成第三注意力图;特征向量生成模块,根据所述第三注意力图和所述特征图生成特征向量;分类得分和视觉关注点获取模块,用于根据所述特征向量获取当前视频帧的分类得分和下一视频帧的视觉关注点。9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征是,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于强化学习的视频分类方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征是,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于强化学习的视频分类方法的步骤。
技术总结本申请为人工智能技术的强化学习技术领域,本申请提供了一种基于强化学习的视频分类方法、装置和计算机设备,其中,方法包括:获取待分类视频的当前视频帧和视觉关注点;将当前视频帧和上一视频帧的分类得分输入归因模型,生成特征图和第一注意力图,归因模型的损失函数包括面积损失子函数;根据当前视频帧和视觉关注点生成视觉关注图;将视觉关注图输入视觉显著性模型生成第二注意力图;将第二注意力图与所述第一注意力图融合,生成第三注意力图;根据第三注意力图和特征图生成特征向量;根据特征向量获取当前视频帧的分类得分和下一视频帧的视觉关注点。上述的方法、装置和计算机设备具有更好的可解释性和更高的准确度。设备具有更好的可解释性和更高的准确度。设备具有更好的可解释性和更高的准确度。
技术研发人员:郑喜民 胡浩楠 舒畅 陈又新
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2022.07.12
技术公布日:2022/11/1