视频识别方法和相关产品与流程

专利2025-01-12 101

1.本公开涉及视频识别技术领域，尤其涉及视频识别方法和相关产品。

背景技术：

2.现有的视频识别技术大多依赖剪辑后的视频作为输入。然而，现实世界中的大多数视频，即使是短视频，也都是未经剪辑的，包含大量无关的帧。一种常用的方法是直接使用视频中的一个中心片段作为视频识别的输入，该方法假设中心片段是最相关的事件并且可以作为一个干净的剪辑视频。而另一种方法则对视频进行均匀分割，并对所有输出进行平均，以进行视频类别预测，这种方法通常比较复杂，并且需要对视频中的所有视频分段进行处理。
3.如何准确且快速地提取视频中的显著信息一直是需要解决的问题。

技术实现要素：

4.在第一方面，提供了一种视频识别方法。用于视频识别的该方法包括以下内容。通过提供视频的多个片段作为神经网络的三维(three-dimensional，3d)卷积神经网络(convolutional neural network，cnn)的输入，获得片段描述符原始集合，其中，神经网络包括3d cnn和至少一个第一全连接层，并且多个片段中的每个片段包括至少一个帧。确定与片段描述符原始集合对应的注意力向量。基于片段描述符原始集合和注意力向量获得片段描述符增强集合。将片段描述符增强集合输入至少一个第一全连接层，并基于至少一个第一全连接层的输出执行视频识别。
5.在第二方面，提供了一种用于训练神经网络的方法。用于训练神经网络的该方法包括以下内容。通过提供视频的多个片段作为神经网络的3d cnn的输入，获得片段描述符原始集合，其中，神经网络包括3d cnn和至少一个第一全连接层，3d cnn包括至少一个卷积层和至少一个第二全连接层，并且多个片段中的每个片段包括至少一个帧。确定与片段描述符原始集合对应的注意力向量。基于片段描述符原始集合和注意力向量获得片段描述符增强集合。将片段描述符增强集合输入至少一个第一全连接层，并获得神经网络的输出。通过基于神经网络的损失更新神经网络的参数来训练神经网络，其中，网络的参数包括至少一个第一全连接层的权重和至少一个第二全连接层的权重。
6.在第三方面，提供了一种用于视频识别的装置。该装置基于神经网络。装置包括至少一个处理器和与至少一个处理器耦合的存储器。存储器用于存储指令，当由至少一个处理器执行时，指令与处理器一起操作以实现神经网络用于：通过提供视频的多个片段作为神经网络的3d cnn的输入，获得片段描述符原始集合，其中，神经网络包括3d cnn和至少一个第一全连接层，并且多个片段中的每个片段包括至少一个帧；确定与片段描述符原始集合对应的注意力向量；基于片段描述符原始集合和注意力向量，获得片段描述符增强集合；将片段描述符增强集合输入至少一个第一全连接层，并基于至少一个第一全连接层的输出执行视频识别。
7.在第四方面，提供了一种用于训练神经网络的装置。该装置包括至少一个处理器和与至少一个处理器耦合的存储器。存储器用于存储指令，当由至少一个处理器执行时，指令与处理器一起操作以实现神经网络用于：通过提供视频的多个片段作为神经网络的3d cnn的输入，获得片段描述符原始集合，其中，神经网络包括3d cnn和至少一个第一全连接层，3d cnn包括至少一个卷积层和至少一个第二全连接层，并且多个片段中的每个片段包括至少一个帧；确定与片段描述符原始集合对应的注意力向量；基于片段描述符原始集合和注意力向量，获得片段描述符增强集合；将片段描述符增强集合输入至少一个第一全连接层，并获得神经网络的输出；通过基于神经网络的损失更新神经网络的参数来训练神经网络，其中，网络的参数包括至少一个第一全连接层的权重和至少一个第二全连接层的权重。
8.在第五方面，提供了一种非暂时性计算机可读存储介质。非暂时性计算机可读存储介质用于存储指令，当由处理器执行时，指令与处理器一起操作以实现神经网络，以执行：通过提供视频的多个片段作为神经网络的3d cnn的输入，获得片段描述符原始集合，其中，神经网络包括3d cnn和至少一个第一全连接层，并且多个片段中的每个片段包括至少一个帧；确定与片段描述符原始集合对应的注意力向量；基于片段描述符原始集合和注意力向量获得片段描述符增强集合；将片段描述符增强集合输入至少一个第一全连接层，并基于至少一个第一全连接层的输出执行视频识别。
9.在第六方面，提供了一种非暂时性计算机可读存储介质。非暂时性计算机可读存储介质用于存储指令，当由处理器执行时，指令可以与处理器一起操作以实现神经网络，以执行：通过提供视频的多个片段作为神经网络的3d cnn的输入，获得片段描述符原始集合，其中，神经网络包括3d cnn和至少一个第一全连接层，3d cnn包括至少一个卷积层和至少一个第二全连接层，并且多个片段中的每个片段包括至少一个帧；确定与片段描述符原始集合对应的注意力向量；基于片段描述符原始集合和注意力向量获得片段描述符增强集合；将片段描述符增强集合输入至少一个第一全连接层，并获得神经网络的输出；通过基于神经网络的损失更新神经网络的参数来训练神经网络，其中，网络的参数包括至少一个第一全连接层的权重和至少一个第二全连接层的权重。
10.在不冲突的情况下，前述方面及其相应实施例的特征和细节可以相互组合或替换。
附图说明
11.为了更清楚地描述实施方式的技术方案，下面将对用于描述实施方式的附图进行简要描述。显然，下面描述的附图仅仅是一些实施方式。本领域普通技术人员也可以在无需创造性努力的情况下基于下面描述的附图获得其他附图。
12.图1是根据实施方式的神经网络的框架图。
13.图2是根据实施方式的视频识别方法的流程示意图。
14.图3示出了根据实施方式的示例识别结果。
15.图4是根据实施方式的用于训练网络的方法的流程示意图。
16.图5是根据实施方式的用于视频识别的装置的结构示意图。
17.图6是根据实施方式的用于训练神经网络的装置的结构示意图。
具体实施方式
18.为了使本领域技术人员更好地理解实施方式的技术方案，将在实施方式中参考附图清楚且完整地描述实施方式的技术方案。显然，以下描述的实施方式仅仅是本公开的一些实施方式，而不是全部实施方式。本领域普通技术人员在无需创造性努力的情况下以本文为基础而获得的所有其他实施方式均属于本公开的保护范围。
19.在本公开的说明书、权利要求书、以及附图中使用的术语“第一”、“第二”、“第三”等用于区分不同的对象，而不是描述特定的顺序。术语“包括”和“具有”及其变型意在覆盖非排他的包含。例如，包括一系列步骤或单元的过程、方法、系统、产品、或装置不限于所列出的步骤或单元。相反，可以可选地包括未列出的其他步骤或单元；或者，也可以包括过程、方法、产品、或装置所固有的其他步骤或单元。
20.在本文中引用术语“实施方式”意味着结合实施方式描述的特定特征、结构、或特性可以包含在本公开的至少一个实施方式中。在说明书中的各个位置出现该短语并不一定均是引用相同的实施方式，也不是与其他实施方式互斥的独立的或替代的实施方式。本领域技术人员显式地和隐式地理解的是，本文描述的实施方式可以与其他实施方式相结合。
21.本文引用的移动终端可以包括具有无线通信功能的各种手持设备、车载设备、可穿戴设备、计算设备、或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(user equipment，ue)、移动站(mobile station，ms)、终端设备等。为了便于描述，上述设备统称为移动终端。
22.在下文中，将给出本公开的实施方式的具体实施方式。
23.本公开中的神经网络包括三维(3d)卷积神经网络(cnn)和至少一个第一全连接层，其中，3d cnn包括至少一个卷积层和至少一个第二全连接层。换言之，该神经网络包括一个或多个卷积层和一个或多个全连接层，上述一个或多个卷积层和上述一个或多个全连接层的一部分形成3d cnn，3d cnn和上述一个或多个全连接层的其余部分形成整个神经网络。
24.图1是根据实施方式的神经网络的框架图。如图1所示，通过提供视频的多个片段作为神经网络的3d cnn的输入，获得片段描述符原始集合。确定与片段描述符原始集合对应的注意力向量。基于片段描述符原始集合和注意力向量获得片段描述符增强集合。将片段描述符增强集合输入至少一个第一全连接层，并基于至少一个第一全连接层的输出执行视频识别。将参考下面的方法实施方式详细描述神经网络的框架。
25.图2是根据实施方式的视频识别方法的流程示意图。如图2所示，通过提供视频的多个片段作为神经网络的3d cnn的输入，获得片段描述符原始集合，确定与片段描述符原始集合对应的注意力向量，基于片段描述符原始集合和注意力向量获得片段描述符增强集合，并将片段描述符增强集合输入至少一个第一全连接层，并基于至少一个第一全连接层的输出执行视频识别。下面将对此进行详细描述。
26.s202，通过提供视频的多个片段作为神经网络的3d cnn的输入，获得片段描述符原始集合。
27.神经网络包括3d cnn和至少一个全连接层，多个片段中的每个片段包括至少一个帧。至少一个全连接层包括至少一个第一全连接层和至少一个第二全连接层。至少一个卷积层和至少一个第二全连接层形成3d cnn。3d cnn和至少一个第一全连接层形成本公开中
的整个神经网络。例如，多个片段x＝{x1,x2,
…
,xc}可以设置为神经网络的输入，每个片段x可以包含至少一个帧，例如16个堆叠的帧。当多个片段被输入神经网络时，每个片段将首先由神经网络的3d cnn进行处理。3d cnn可以包含一组3d卷积层以及一组第一全连接层，该组3d卷积层用于提取与上述多个片段对应的片段特征。一批数据的输入形状(即，神经网络的3d cnn的输入的形状)可以表示为c
×
t
×h×w×
ch，其中，c表示片段的数量，t个帧堆叠在一起以形成片段，t个帧中的每个帧具有高度h和宽度w。ch表示通道数，并且在本公开中，对于rgb图像，ch为3。3d cnn中每个3d卷积层的卷积核(convolutional kernel)是三维的，即k
×k×
k。因此对于每个3d卷积层，同时进行三维的数据计算。3d cnn的输出是片段描述符原始集合v＝{v1,v2,
…
,vc}，其中v∈rd，并且v是3d cnn中最后一个第二全连接层的输出。d表示卷积核的数量，例如，d＝2048。
28.s204，确定与片段描述符原始集合对应的注意力向量。
29.由于每个片段描述符分别由3d cnn(即，3d cnn模块)产生，因此由卷积建模的片段间关系(inter-cliprelationship)本质上是隐式的和局部的。也就是说，每个片段描述符只能观察到极其有限的局部事件，并且不存在片段间关系。然而，视频中不同动作的持续时间是变化的，复杂的动作可以跨多个视频分段(即可以涉及多个片段)，3d cnn产生的片段描述符中不存在片段间关系成为视频识别性能的瓶颈。为了解决每个片段描述符无法利用其范围之外的上下文信息的问题，使用注意力机制(attention mechanism)来解决这一限制。通过本公开中的注意力向量，可以显式建模片段间相关性，可以增强卷积特征的学习，使得神经网络能够提高对跨分段的信息特征的敏感度，并且能够基于全局视角提供更好的视频识别决策。注意力向量包括多个注意力权重。多个片段中的每个片段与片段描述符原始集合中的每个片段描述符一一对应，并且每个注意力权重与片段描述符原始集合中的每个片段描述符一一对应。例如，上述输入是视频的n个片段，那么片段描述符原始集合具有n个片段描述符，注意力向量包括n个元素(即n个注意力权重)。n个片段、n个片段描述符、以及n个注意力权重之间存在一对一对一的映射关系。
30.s205，基于片段描述符原始集合和注意力向量获得片段描述符增强集合。
31.通过用注意力向量(即，激活)重缩放(rescale)片段描述符原始集合，获得片段描述符增强集合。注意力向量本质上引入了以片段描述符原始集合为条件的动态。注意力向量可以看作是片段上的自注意力(self-attention)函数，这些片段的关系不局限于3d卷积滤波器响应的局部感受野(local receptive field)。通过注意力向量，片段描述符原始集合中的每个片段描述符对应于一个注意力权重，因此通过用对应的注意力权重处理片段描述符原始集合中的每个片段描述符，可以避免对所有片段进行一致平均，并且可以提高视频精度。
32.s208，将片段描述符增强集合输入至少一个第一全连接层，并基于至少一个第一全连接层的输出执行视频识别。
33.通过本公开的实施方式，获得视频的多个片段作为输入，通过将多个片段输入神经网络的3d cnn，获得片段描述符原始集合，确定与片段描述符原始集合对应的注意力向量，基于片段描述符原始集合和注意力向量获得片段描述符增强集合，然后将片段描述符增强集合输入至少一个第一全连接层，最后基于至少一个第一全连接层的输出执行视频识别。通过注意力向量，片段描述符原始集合中的每个片段描述符对应于一个注意力权重，因
此通过用对应的注意力权重处理片段描述符原始集合中的每个片段描述符，可以避免对所有片段进行一致平均，并且可以提高视频精度。
34.作为实施方式，如下确定与片段描述符原始集合对应的注意力向量。
35.通过对片段描述符原始集合执行全局平均轮询，获得第一向量。通过基于至少一个第二全连接层的权重对第一向量使用门机制，获得注意力向量，其中，3d cnn包括至少一个卷积层和至少一个第二全连接层。
36.为了获得注意力向量，首先通过全局平均池化生成片段统计，即第一向量。池化的输出可以被解释为局部描述符的集合(即，片段描述符原始集合)，该集合的统计可以表示整个片段。第一向量可以定义为：g＝[g(v1),g(v1),
…
,g(vc)],
[0037]
其中，vi是片段描述符的第i个元素。如上所述，d表示卷积核的数量，当d＝2048时，第一向量可以定义为：
[0038]
然后执行第二操作，该操作的目的是完全捕获片段相关性。为了实现该目标，在第二操作中使用的函数需要满足两个标准：第一，该函数应该能够学习片段之间的非线性相互作用；其次，该函数应该学习一种非互斥关系，因为需要确保允许强调多个片段。为了满足这些标准，使用了具有sigmoid激活的门机制。
[0039]
作为实施方式，如下通过基于至少一个第二全连接层的权重对第一向量使用门机制，获得注意力向量。
[0040]
将第一向量(即g)乘以至少一个第二全连接层的第一权重(即w1)以获得第二向量(即w1g)。基于整流线性单元(rectified linear unit，relu)函数处理第二向量以获得第三向量(即σ
relu
(w1g))。将第三向量乘以至少一个第二全连接层的第二权重(即w2)以获得第四向量(即w2σ
relu
(w1g))。基于激活函数处理第四向量以获得注意力向量(即σ
sigmoid
(w2σ
relu
(w1g)))。
[0041]
注意力向量可以定义为：att＝σ
sigmoid
(w2σ
relu
(w1g)),
[0042]
其中，σ
relu
是指整流线性单元(relu)函数，w1和w2是3d cnn第二全连接层的权重，σ
sigmoid
是sigmoid函数。这样，以片段无关(clip-agnostic)的方式定义注意力向量，这有助于识别与感兴趣的动作相关的分段和估计检测到的动作的时间间隔。
[0043]
可以以多种方式基于片段描述符原始集合和注意力向量获得片段描述符增强集合。
[0044]
作为实施方式，如下基于片段描述符原始集合和注意力向量获得片段描述符增强集合。
[0045]
通过将片段描述符原始集合乘以注意力向量，获得片段描述符增强集合。
[0046]
片段描述符增强集合可以定义为：
s＝{s1,s2,
…
,sc},sc＝attc×
vc[0047]
作为实施方式，还可以如下基于片段描述符原始集合和注意力向量，获得片段描述符增强集合。
[0048]
通过将片段描述符原始集合乘以注意力向量s，获得片段描述符第一集合。通过将片段描述符第一集合添加到片段描述符原始集合，获得片段描述符增强集合(即r＝v+s)。
[0049]
为了使学习更加鲁棒和高效，片段描述符增强集合可以定义为：r＝v+s,s＝{s1,s2,
…
,sc},sc＝attc×
vc,
[0050]
其中，r＝{r1,r2,
…
,rc}可以视为片段描述符增强集合，换言之，r可以视为修正的片段描述符。作为实施方式，如下将片段描述符增强集合输入至少一个第一全连接层，并根据至少一个第一全连接层的输出执行视频识别。
[0051]
基于片段描述符增强集合确定表示为v
′
的第五向量。第五向量v
′
可以定义为：v
′
＝∑ri/c
[0052]
通过将第五向量乘以至少一个第一全连接层的权重(即w3v
′
)，获得至少一个第一全连接层的输出。通过基于softmax函数处理至少一个第一全连接层的输出，获得用于视频识别的神经网络的输出。基于v
′
的神经网络的输出可以定义为：output＝σ
softmax
(w3v
′
),
[0053]
其中，w3是至少一个第一全连接层的权重，σ
softmax
是softmax函数。
[0054]
作为实施方式，该方法还包括以下内容。
[0055]
基于损失获得神经网络的参数，其中，神经网络的参数包括至少一个第一全连接层的权重和至少一个第二全连接层的权重，至少一个第二全连接层的权重包括至少一个第二全连接层的第一权重和至少一个第二全连接层的第二权重，损失包括与神经网络的输出对应的分类损失(classification loss)和与注意力向量对应的稀疏损失(sparsity loss)。
[0056]
作为实施方式，分类损失基于与输入对应的真值和与输入对应的神经网络的输出之间的标准交叉熵损失(cross-entropy loss)，并且稀疏损失通过对注意力向量执行l1范数来获得。
[0057]
提出的神经网络中的损失函数由分类损失和稀疏损失两项组成，如下：l＝lc+βls[0058]
其中，lc(即l
class
)表示表示在视频级(video-level)分类标签上计算的分类损失，ls(即l
sparsitr
)是注意力向量上的稀疏损失，β是控制这两项之间的权衡的常数。分类损失基于真值与输出(如前述部分所提出的在经过神经网络处理后的输出)之间的标准交叉熵损失，而稀疏损失通过对注意力向量att执行l1范数所给出，注意力向量可以定义为：ls＝‖att‖1[0059]
由于使用了sigmoid函数和l1损失，所以注意力向量中的所有注意力权重都趋近于0或1。在这种情况下，可以用视频中的关键分段的稀疏子集来识别动作，这将有助于定位相关片段以进行动作检测。
[0060]
在本公开中，提出了一种基于端到端深度神经网络的弱监督时序动作识别与定位算法。与现有技术中的其他方法相比，本公开具有以下优点。
[0061]
第一，提高了识别精度。
[0062]
通过评估由精心设计的神经网络架构给出的视频级表示来执行分类，该神经网络架构充分使用片段间关系来更好地描述具有不同长度的动作事件(例如，跨几个片段)，从而提高整体识别精度。
[0063]
为了证明本公开的高效性，表1示出了不同方法在kinetics-600下的精度比较，kinetics-600包括600个动作分类并包含大约20k个用于验证的视频。可以看出，在传统方法中，假设中心片段是最相关的事件并直接将该中心片段作为输入，可以实现的top-1精度最差，为58.58％。精度差主要是由于没有充分利用视频中的信息(例如，其余相关片段)。片段的简单平均是另一种常见方法，但该方法能实现的top-1精度只有65.3％。由于动作通常是复杂且是跨视频分段的，所以对所有片段进行一致平均显然不是最好的策略，并且所实现的精度有限。由于引入了片段间的相关性，本公开的方法实现的top-1精度最高，为67.46％，这反过来又证明了片段间关系是对真实世界未剪辑视频中复杂动作事件建模的关键。表1.不同方法在kinetics-600下的精度比较方法top-1精度(％)3d resnet-101+中心片段58.583d resnet-101+10个片段的平均65.30本公开的方法(主干：3d resnet-101)67.46
[0064]
第二，根据实施方式的视频识别方法可以在不需要片段级注释或帧级标注的情况下实现动作检测。如图2所示，通过使用具有阈值(例如》0.7)的注意力向量，可以很容易地定位动作(在本例中是吹蜡烛)。换言之，视频的片段对应于片段描述符，片段描述符对应于注意力向量中的注意力权重。当阈值设置为0.7时，确定其值大于0.7的一个或多个注意力权重，从而确定与其值大于0.7的一个或多个注意力权重对应的视频的一个或多个片段，并且这些确定的视频的一个或多个片段可以用于视频识别，例如用于动作识别。
[0065]
图4是根据实施方式的用于训练神经网络的方法的流程示意图。该神经网络可用于如图2所示的实施方式中所描述的视频识别。如图4所示，该方法包括以下内容。
[0066]
s402，通过提供视频的多个片段作为神经网络的3d cnn的输入，获得片段描述符原始集合。
[0067]
神经网络包括3d cnn和至少一个第一全连接层，3d cnn包括至少一个卷积层和至少一个第二全连接层，并且多个片段中的每个片段包括至少一个帧。
[0068]
s404，确定与片段描述符原始集合对应的注意力向量。
[0069]
s406，基于片段描述符原始集合和注意力向量获得片段描述符增强集合。
[0070]
s408，将片段描述符增强集合输入至少一个第一全连接层，获得神经网络的输出。
[0071]
s410，通过基于神经网络的损失更新神经网络的参数来训练神经网络。
[0072]
上述网络的参数包括至少一个第一全连接层的权重和至少一个第二全连接层的权重。
[0073]
作为实施方式，如下确定与片段描述符原始集合对应的注意力向量。
[0074]
通过对片段描述符原始集合执行全局平均轮询，获得第一向量。通过基于至少一个第二全连接层的权重对第一向量使用门机制，获得注意力向量，其中，3d cnn包括至少一个卷积层和至少一个第二全连接层。
[0075]
作为实施方式，如下通过基于至少一个第二全连接层的权重对第一向量使用门机制，获得注意力向量。
[0076]
将第一向量乘以至少一个第二全连接层的第一权重以获得第二向量。基于整流线性单元(relu)函数处理第二向量以获得第三向量。将第三向量乘以至少一个第二全连接层的第二权重以获得第四向量。基于激活函数处理第四向量以获得注意力向量。
[0077]
作为实施方式，基于片段描述符原始集合和注意力向量获得片段描述符增强集合。
[0078]
通过将片段描述符原始集合乘以注意力向量，获得片段描述符增强集合。
[0079]
作为实施方式，如下基于片段描述符原始集合和注意力向量获得片段描述符增强集合。
[0080]
通过将片段描述符原始集合乘以注意力向量，获得片段描述符第一集合。通过将片段描述符第一集合添加到片段描述符原始集合，获得片段描述符增强集合。
[0081]
作为实施方式，如下将片段描述符增强集合输入至少一个第一全连接层并获得神经网络的输出。
[0082]
基于片段描述符增强集合确定第五向量。通过将第五向量乘以至少一个第一全连接层的权重，获得至少一个第一全连接层的输出。通过基于softmax函数处理至少一个第一全连接层的输出，获得用于视频识别的神经网络的输出。
[0083]
作为实施方式，损失包括与神经网络的输出对应的分类损失和与注意力向量对应的稀疏损失。
[0084]
作为实施方式，分类损失基于与输入对应的真值和与输入对应的神经网络的输出之间的标准交叉熵损失，并且稀疏损失通过对注意力向量执行l1范数来获得。
[0085]
对于用于训练神经网络的方法的操作的具体实施方式，可以参考用于视频识别的上述方法的相关操作，将不再赘述。
[0086]
图5是用于视频识别的基于神经网络的装置50的结构示意图。如图5所示，该装置包括至少一个处理器501、存储器502、以及神经网络503。神经网络503包括至少一个卷积层和至少一个全连接层。至少一个全连接层还可以包括至少一个第一全连接层和至少一个第二全连接层。存储器502与至少一个处理器耦合并用于存储指令，当由至少一个处理器执行时，上述指令与处理器一起操作以实现神经网络503，以执行以下操作。
[0087]
通过提供视频的多个片段作为神经网络的3d cnn的输入，获得片段描述符原始集合，其中，神经网络包括3d cnn和至少一个第一全连接层，并且多个片段中的每个片段包括至少一个帧。确定与片段描述符原始集合对应的注意力向量。基于片段描述符原始集合和注意力向量获得片段描述符增强集合。将片段描述符增强集合输入至少一个第一全连接层，并基于至少一个第一全连接层的输出执行视频识别。
[0088]
作为实施方式，与至少一个处理器501一起操作以实现神经网络503用于确定与片段描述符原始集合对应的注意力向量的指令与至少一个处理器一起操作以实现神经网络用于：通过对片段描述符原始集合执行全局平均轮询，获得第一向量；通过基于至少一个第
二全连接层的权重对第一向量使用门机制，获得注意力向量，其中，3d cnn包括至少一个卷积层和至少一个第二全连接层。
[0089]
作为实施方式，与至少一个处理器501一起操作以实现神经网络503用于通过基于至少一个第二全连接层的权重对第一向量使用门机制，获得注意力向量的指令与至少一个处理器一起操作以实现神经网络用于：将第一向量乘以至少一个第二全连接层的第一权重以获得第二向量；基于整流线性单元(relu)函数处理第二向量以获得第三向量；将第三向量乘以至少一个第二全连接层的第二权重以获得第四向量；基于激活函数处理第四向量以获得注意力向量。
[0090]
作为实施方式，与至少一个处理器501一起操作以实现神经网络503用于基于片段描述符原始集合和注意力向量获得片段描述符增强集合的指令与至少一个处理器一起操作以实现神经网络用于：通过将片段描述符原始集合乘以注意力向量，获得片段描述符增强集合。
[0091]
作为实施方式，与至少一个处理器501一起操作以实现神经网络503用于基于片段描述符原始集合和注意力向量获得片段描述符增强集合的指令与至少一个处理器一起操作以实现神经网络用于：通过将片段描述符原始集合乘以注意力向量，获得片段描述符第一集合；通过将片段描述符第一集合添加到片段描述符原始集合，获得片段描述符增强集合。
[0092]
作为实施方式，与至少一个处理器501一起操作以实现神经网络503用于将片段描述符增强集合输入至少一个第一全连接层，并基于至少一个第一全连接层的输出执行视频识别的指令与至少一个处理器一起操作以实现神经网络用于：基于片段描述符增强集合确定第五向量；通过将第五向量乘以至少一个第一全连接层的权重，获得至少一个第一全连接层的输出；通过基于softmax函数处理至少一个第一全连接层的输出，获得用于视频识别的神经网络的输出。
[0093]
作为实施方式，存储器502还用于存储指令，当由至少一个处理器501执行时，上述指令与至少一个处理器501一起操作以实现神经网络503用于：基于损失获得神经网络的参数，其中，神经网络的参数包括至少一个第一全连接层的权重和至少一个第二全连接层的权重，损失包括与神经网络的输出对应的分类损失和与注意力向量对应的稀疏损失。
[0094]
作为实施方式，分类损失基于与输入对应的真值和与输入对应的神经网络的输出之间的标准交叉熵损失，并且稀疏损失通过对注意力向量执行l1范数来获得。
[0095]
图6是用于训练神经网络的装置的结构示意图。如图6所示，装置包括至少一个处理器601、存储器602、以及神经网络603。神经网络603包括至少一个卷积层和至少一个全连接层。至少一个全连接层还可以包括至少一个第一全连接层和至少一个第二全连接层。存储器602与至少一个处理器601耦合并用于存储指令，当由至少一个处理器执行时，上述指令与处理器一起操作以实现神经网络603，以执行以下操作。
[0096]
通过提供视频的多个片段作为神经网络的3d cnn的输入，获得片段描述符原始集合，其中，神经网络包括3d cnn和至少一个第一全连接层，3d cnn包括至少一个卷积层和至少一个第二全连接层，并且多个片段中的每个片段包括至少一个帧。确定与片段描述符原始集合对应的注意力向量。基于片段描述符原始集合和注意力向量获得片段描述符增强集合。将片段描述符增强集合输入至少一个第一全连接层，并获得神经网络的输出。通过基于
神经网络的损失更新神经网络的参数来训练神经网络，其中，网络的参数包括至少一个第一全连接层的权重和至少一个第二全连接层的权重。
[0097]
作为实施方式，与至少一个处理器601一起操作以实现神经网络603用于确定与片段描述符原始集合对应的注意力向量的指令与至少一个处理器601一起操作以实现神经网络603用于：通过对片段描述符原始集合执行全局平均轮询，来获得第一向量；通过基于至少一个第二全连接层的权重对第一向量使用门机制，获得注意力向量，其中，3d cnn包括至少一个卷积层和至少一个第二全连接层。
[0098]
作为实施方式，与至少一个处理器601一起操作以实现神经网络603用于通过基于至少一个第二全连接层的权重对第一向量使用门机制，获得注意力向量的指令与至少一个处理器601一起操作以实现神经网络603用于：将第一向量乘以至少一个第二全连接层的第一权重以获得第二向量；基于整流线性单元(relu)函数处理第二向量以获得第三向量；将第三向量乘以至少一个第二全连接层的第二权重以获得第四向量；基于激活函数处理第四向量以获得注意力向量。
[0099]
作为实施方式，与至少一个处理器601一起操作以实现神经网络603用于基于片段描述符原始集合和注意力向量获得片段描述符增强集合的指令与至少一个处理器601一起操作以实现神经网络603用于：通过将片段描述符原始集合乘以注意力向量，获得片段描述符增强集合。
[0100]
作为实施方式，与至少一个处理器601一起操作以实现神经网络603用于基于片段描述符原始集合和注意力向量获得片段描述符增强集合的指令与至少一个处理器一起操作以实现神经网络用于：通过将片段描述符原始集合乘以注意力向量，获得片段描述符第一集合；通过将片段描述符第一集合添加到片段描述符原始集合，获得片段描述符增强集合。
[0101]
作为实施方式，与至少一个处理器601一起操作以实现神经网络603用于将片段描述符增强集合输入至少一个第一全连接层，并基于至少一个第一全连接层的输出执行视频识别的指令与至少一个处理器一起操作以实现神经网络用于：基于片段描述符增强集合确定第五向量；通过将第五向量乘以至少一个第一全连接层的权重，获得至少一个第一全连接层的输出；通过基于softmax函数处理至少一个第一全连接层的输出，获得用于视频识别的神经网络的输出。
[0102]
作为实施方式，损失包括与神经网络的输出对应的分类损失和与注意力向量对应的稀疏损失。
[0103]
作为实施方式，分类损失基于与输入对应的真值和与输入对应的神经网络的输出之间的标准交叉熵损失，并且稀疏损失通过对注意力向量执行l1范数来获得。
[0104]
实施方式还提供了一种非暂时性计算机存储介质。该计算机存储介质用于存储用于电子数据交换(electronic data interchange，edi)的计算机程序，当被执行时，该计算机程序与计算机一起操作以执行任一上述方法实施方式中的一些操作或全部操作。计算机包括终端。
[0105]
实施方式还提供了一种计算机程序产品。该计算机程序产品包括存储计算机程序的非暂时性计算机可读存储介质。计算机程序与计算机一起操作以执行任一上述方法实施方式中的一些操作或全部操作。计算机程序产品可以是软件安装包。计算机包括终端。
[0106]
应注意，为了简单起见，上述方法实施方式被描述为一系列动作组合，然而，本领域技术人员将理解，本公开不限于所描述的动作的顺序。根据实施方式，特定步骤或操作可以以其他顺序执行或同时执行。此外，本领域技术人员将理解，说明书中描述的实施方式是示例性实施方式，并且所涉及的动作和模块不一定是本公开所必需的。
[0107]
在上述实施方式中，对每个实施方式的描述均有侧重。对于在一个实施方式中没有描述的细节，可以参考其他实施方式中的相关部分。
[0108]
应理解，在本文的实施方式中公开的装置也可以以各种其他方式实现。例如，上述装置实施方式只是说明性的，即单元的划分只是逻辑功能的划分，在实践中可能存在其他方式的划分，即多个单元或组件可以组合或集成到另一系统中，或者忽略或跳过某些特征。在其他方面，所示出或所讨论的耦合或直接耦合或通信连接可以是通过一些接口、设备、或单元的间接耦合或通信连接，并且可以是电耦合或电连接或其他的耦合或连接。
[0109]
所示出的分离的单元可以是物理分离的，也可以不是物理分离的。作为单元显示的组件或部件可以是物理单元，也可以不是物理单元，并且可以驻留在一个位置或可以分布到多个联网单元。根据实际需要，可以有选择地采用部分单元或全部单元，以实现所需的本公开目标。
[0110]
在本文的实施方式中描述的各种功能单元可以集成到一个处理单元中，或者可以示为多个物理分离的单元，并且两个或多于两个单元可以集成到一个处理单元中。集成单元可以采用硬件或软件功能单元的形式。
[0111]
如果集成单元被实现为软件功能单元并作为独立产品出售或使用，则软件功能单元可以存储在计算机可读存储介质中。基于这样的理解，本公开的基本技术方案(或者说对现有技术做出贡献的部分)或者全部或部分技术方案可以以软件产品的形式体现出来。计算机软件产品可以存储在存储介质中，并且可以包括多个指令，当被执行时，这些指令可以使计算设备(即个人计算机、服务器、网络设备等)执行在各种实施方式中描述的方法的一些操作或全部操作。上述存储介质可以包括可以存储程序代码的各种介质，例如通用串行总线(universal serial bus，usb)闪存盘、只读存储器(read only memory，rom)、随机存取存储器(random access memory，ram)、移动硬盘、磁盘、或光盘。
[0112]
本领域普通技术人员将理解，上述实施方式的各种方法的全部或部分可以通过用于指示相关联硬件的程序来完成。程序可以存储在计算机可读存储器中，计算机可读存储器可以包括闪存、rom、ram、磁盘、光盘等。
[0113]
虽然已经结合特定实施例描述了本公开，但应理解，本公开不限于所公开的实施例，相反，本公开意在覆盖包括在所附权利要求范围内的各种修改和等效布置，对于该范围，应给予最广泛的解释，以便包括法律允许的所有此类修改和等效结构。

技术特征：
1.一种视频识别方法，包括：通过提供视频的多个片段作为神经网络的三维(3d)卷积神经网络(cnn)的输入，获得片段描述符原始集合，其中，所述神经网络包括所述3d cnn和至少一个第一全连接层，并且所述多个片段中的每个片段包括至少一个帧；确定与所述片段描述符原始集合对应的注意力向量；基于所述片段描述符原始集合和所述注意力向量获得片段描述符增强集合；以及将所述片段描述符增强集合输入所述至少一个第一全连接层，并基于所述至少一个第一全连接层的输出执行视频识别。2.根据权利要求1所述的方法，其中，确定与所述片段描述符原始集合对应的所述注意力向量包括：通过对所述片段描述符原始集合执行全局平均轮询，获得第一向量；以及通过基于至少一个第二全连接层的权重对所述第一向量使用门机制，获得所述注意力向量，其中，所述3d cnn包括至少一个卷积层和所述至少一个第二全连接层。3.根据权利要求2所述的方法，其中，通过基于所述至少一个第二全连接层的所述权重对所述第一向量使用所述门机制，获得所述注意力向量包括：将所述第一向量乘以所述至少一个第二全连接层的第一权重以获得第二向量；基于整流线性单元(relu)函数处理所述第二向量以获得第三向量；将所述第三向量乘以所述至少一个第二全连接层的第二权重以获得第四向量；以及基于激活函数处理所述第四向量以获得所述注意力向量。4.根据权利要求1至3中任一项所述的方法，其中，基于所述片段描述符原始集合和所述注意力向量获得所述片段描述符增强集合包括：通过将所述片段描述符原始集合乘以所述注意力向量，获得片段描述符第一集合作为所述片段描述符增强集合。5.根据权利要求1至3中任一项所述的方法，其中，基于所述片段描述符原始集合和所述注意力向量获得所述片段描述符增强集合包括：通过将所述片段描述符原始集合乘以所述注意力向量，获得片段描述符第一集合；以及通过将所述片段描述符第一集合添加到所述片段描述符原始集合，获得所述片段描述符增强集合。6.根据权利要求1至5中任一项所述的方法，其中，将所述片段描述符增强集合输入所述至少一个第一全连接层，并基于所述至少一个第一全连接层的所述输出执行视频识别包括：基于所述片段描述符增强集合确定第五向量；通过将所述第五向量乘以所述至少一个第一全连接层的权重，获得所述至少一个第一全连接层的所述输出；以及通过基于softmax函数处理所述至少一个第一全连接层的所述输出，获得用于视频识别的所述神经网络的输出。7.根据权利要求1至6中任一项所述的方法，还包括：基于损失获得所述神经网络的参数，其中，所述神经网络的参数包括所述至少一个第
一全连接层的权重和至少一个第二全连接层的权重，所述损失包括与所述神经网络的输出对应的分类损失和与所述注意力向量对应的稀疏损失。8.根据权利要求7所述的方法，其中，所述分类损失基于与所述输入对应的真值和与所述输入对应的所述神经网络的所述输出之间的标准交叉熵损失，并且所述稀疏损失通过对所述注意力向量执行l1范数来获得。9.一种用于训练神经网络的方法，包括：通过提供视频的多个片段作为神经网络的三维(3d)卷积神经网络(cnn)的输入，获得片段描述符原始集合，其中，所述神经网络包括所述3d cnn和至少一个第一全连接层，所述3d cnn包括至少一个卷积层和至少一个第二全连接层，并且所述多个片段中的每个片段包括至少一个帧；确定与所述片段描述符原始集合对应的注意力向量；基于所述片段描述符原始集合和所述注意力向量获得片段描述符增强集合；将所述片段描述符增强集合输入所述至少一个第一全连接层，并获得所述神经网络的输出；以及通过基于所述神经网络的损失更新所述神经网络的参数来训练所述神经网络，其中，所述网络的参数包括所述至少一个第一全连接层的权重和所述至少一个第二全连接层的权重。10.根据权利要求9所述的方法，其中，所述损失包括与所述神经网络的所述输出对应的分类损失和与所述注意力向量对应的稀疏损失。11.根据权利要求10所述的方法，其中，所述分类损失基于与所述输入对应的真值和与所述输入对应的所述神经网络的所述输出之间的标准交叉熵损失，并且所述稀疏损失通过对所述注意力向量执行l1范数来获得。12.一种用于视频识别的基于神经网络的装置，包括：至少一个处理器；存储器，与所述至少一个处理器耦合并用于存储指令，当由所述至少一个处理器执行时，所述指令与所述处理器一起操作以实现神经网络用于：通过提供视频的多个片段作为神经网络的三维(3d)卷积神经网络(cnn)的输入，获得片段描述符原始集合，其中，所述神经网络包括所述3d cnn和至少一个第一全连接层，并且所述多个片段中的每个片段包括至少一个帧；确定与所述片段描述符原始集合对应的注意力向量；基于所述片段描述符原始集合和所述注意力向量获得片段描述符增强集合；以及将所述片段描述符增强集合输入所述至少一个第一全连接层，并基于所述至少一个第一全连接层的输出执行视频识别。13.根据权利要求12所述的装置，其中，与所述至少一个处理器一起操作以实现所述神经网络用于确定与所述片段描述符原始集合对应的所述注意力向量的所述指令与所述至少一个处理器一起操作以实现所述神经网络用于：通过对所述片段描述符原始集合执行全局平均轮询，获得第一向量；以及通过基于至少一个第二全连接层的权重对所述第一向量使用门机制，获得所述注意力向量，其中，所述3d cnn包括至少一个卷积层和所述至少一个第二全连接层。
14.根据权利要求13所述的装置，其中，与所述至少一个处理器一起操作以实现所述神经网络用于通过基于所述至少一个第二全连接层的所述权重对所述第一向量使用所述门机制，获得所述注意力向量的所述指令与所述至少一个处理器一起操作以实现所述神经网络用于：将所述第一向量乘以所述至少一个第二全连接层的第一权重以获得第二向量；基于整流线性单元(relu)函数处理所述第二向量以获得第三向量；将所述第三向量乘以所述至少一个第二全连接层的第二权重以获得第四向量；以及基于激活函数处理所述第四向量以获得所述注意力向量。15.根据权利要求12至14中任一项所述的装置，其中，与所述至少一个处理器一起操作以实现所述神经网络用于基于所述片段描述符原始集合和所述注意力向量获得所述片段描述符增强集合的所述指令与所述至少一个处理器一起操作以实现所述神经网络用于：通过将所述片段描述符原始集合乘以所述注意力向量，获得片段描述符第一集合作为所述片段描述符增强集合。16.根据权利要求12至14中任一项所述的装置，其中，与所述至少一个处理器一起操作以实现所述神经网络用于基于所述片段描述符原始集合和所述注意力向量获得所述片段描述符增强集合的所述指令与所述至少一个处理器一起操作以实现所述神经网络用于：通过将所述片段描述符原始集合乘以所述注意力向量，获得片段描述符第一集合；以及通过将所述片段描述符第一集合添加到所述片段描述符原始集合，获得所述片段描述符增强集合。17.根据权利要求12至16中任一项所述的装置，其中，与所述至少一个处理器一起操作以实现所述神经网络用于将所述片段描述符增强集合输入所述至少一个第一全连接层，并基于所述至少一个第一全连接层的所述输出执行视频识别的所述指令与所述至少一个处理器一起操作以实现所述神经网络用于：基于所述片段描述符增强集合确定第五向量；通过将所述第五向量乘以所述至少一个第一全连接层的权重，获得所述至少一个第一全连接层的所述输出；以及通过基于softmax函数处理所述至少一个第一全连接层的所述输出，获得用于视频识别的所述神经网络的输出。18.根据权利要求12至17中任一项所述的装置，其中，所述存储器还用于存储指令，当由所述至少一个处理器执行时，所述指令与所述至少一个处理器一起操作以实现所述神经网络用于：基于损失获得所述神经网络的参数，其中，所述神经网络的参数包括所述至少一个第一全连接层的权重和至少一个第二全连接层的权重，所述损失包括与所述神经网络的输出对应的分类损失和与所述注意力向量对应的稀疏损失。19.根据权利要求18所述的装置，其中，所述分类损失基于与所述输入对应的真值和与所述输入对应的所述神经网络的所述输出之间的标准交叉熵损失，并且所述稀疏损失通过对所述注意力向量执行l1范数来获得。20.一种用于训练神经网络的装置，包括：
至少一个处理器；存储器，与所述至少一个处理器耦合并用于存储指令，当由所述至少一个处理器执行时，所述指令与所述处理器一起操作以实现神经网络用于：通过提供视频的多个片段作为神经网络的三维(3d)卷积神经网络(cnn)的输入，获得片段描述符原始集合，其中，所述神经网络包括所述3d cnn和至少一个第一全连接层，所述3d cnn包括至少一个卷积层和至少一个第二全连接层，并且所述多个片段中的每个片段包括至少一个帧；确定与所述片段描述符原始集合对应的注意力向量；基于所述片段描述符原始集合和所述注意力向量获得片段描述符增强集合；将所述片段描述符增强集合输入所述至少一个第一全连接层，并获得所述神经网络的输出；以及通过基于所述神经网络的损失更新所述神经网络的参数来训练所述神经网络，其中，所述网络的参数包括所述至少一个第一全连接层的权重和所述至少一个第二全连接层的权重。21.根据权利要求20所述的装置，其中，所述损失包括与所述神经网络的所述输出对应的分类损失和与所述注意力向量对应的稀疏损失。22.根据权利要求21所述的装置，其中，所述分类损失基于与所述输入对应的真值和与所述输入对应的所述神经网络的所述输出之间的标准交叉熵损失，并且所述稀疏损失通过对所述注意力向量执行l1范数来获得。23.一种非暂时性计算机可读存储介质，用于存储指令，当由处理器执行时，所述指令与所述处理器一起操作以实现神经网络，以执行：通过提供视频的多个片段作为神经网络的三维(3d)卷积神经网络(cnn)的输入，获得片段描述符原始集合，其中，所述神经网络包括所述3d cnn和至少一个第一全连接层，并且所述多个片段中的每个片段包括至少一个帧；确定与所述片段描述符原始集合对应的注意力向量；基于所述片段描述符原始集合和所述注意力向量获得片段描述符增强集合；以及将所述片段描述符增强集合输入所述至少一个第一全连接层，并基于所述至少一个第一全连接层的输出执行视频识别。24.一种非暂时性计算机可读存储介质，用于存储指令，当由处理器执行时，所述指令与所述处理器一起操作以实现神经网络，以执行：通过提供视频的多个片段作为神经网络的三维(3d)卷积神经网络(cnn)的输入，获得片段描述符原始集合，其中，所述神经网络包括所述3d cnn和至少一个第一全连接层，所述3d cnn包括至少一个卷积层和至少一个第二全连接层，并且所述多个片段中的每个片段包括至少一个帧；确定与所述片段描述符原始集合对应的注意力向量；基于所述片段描述符原始集合和所述注意力向量获得片段描述符增强集合；将所述片段描述符增强集合输入所述至少一个第一全连接层，并获得所述神经网络的输出；以及通过基于所述神经网络的损失更新所述神经网络的参数来训练所述神经网络，其中，
所述网络的参数包括所述至少一个第一全连接层的权重和所述至少一个第二全连接层的权重。

技术总结
提供了一种视频识别方法和相关产品。该方法包括以下内容。通过提供视频的多个片段作为神经网络的3D CNN的输入，获得片段描述符原始集合，其中，神经网络包括3D CNN和至少一个第一全连接层，并且多个片段中的每个片段包括至少一个帧。确定与片段描述符原始集合对应的注意力向量。基于片段描述符原始集合和注意力向量获得片段描述符增强集合。将片段描述符增强集合输入上述至少一个第一全连接层，并且基于至少一个第一全连接层的输出执行视频识别。通过本公开，可以提高识别精度和识别效率。可以提高识别精度和识别效率。可以提高识别精度和识别效率。

技术研发人员：萧人豪陈佳伟
受保护的技术使用者：OPPO广东移动通信有限公司
技术研发日：2021.03.26
技术公布日：2022/11/1

转载请注明原文地址: https://tieba.8miu.com/read-11416.html

专利

最新回复(0)