1.本发明涉及计算机图像识别和特征学习技术领域,尤其涉及一种基于高阶空间信息交互的图像识别方法。
背景技术:2.自alexnet在2012年被提出以来,卷积神经网络(cnn)在深度学习和计算视觉领域取得了巨大进展。cnn具有有很多不错的特性,使其自然适用于范围广泛的视觉任务:平移等效性为常见的视觉任务引入了十分有用的归纳偏差,并实现了跨不同输入分辨率的可转移性;高度优化的实现使其在高性能gpu和边缘设备上都非常高效;模型架构的演进进一步促进了其在各种视觉任务中的流行。
3.最近,基于transformer的架构的出现极大地挑战了cnn的主导地位。通过将cnn架构中的一些成功设计与新的自注意力机制相结合,视觉transformer模型在图像分类、目标检测、语义分割和和视频理解等各种视觉任务上表现出了领先的性能。视觉transformer比cnn更强大的原因成为了研究的重要方向。通过学习视觉transformer的新设计,一些改进的cnn架构逐步涌现:使用视觉transformer的元架构、7
×
7或者更大感受野的卷积、自适应权重卷积的cnn架构取得了和最新的视觉transformer相媲美的性能。然而,尚未有工作从高阶空间交互的角度分析自注意力在视觉任务中的有效性。
4.虽然非线性的深度模型中的两个空间位置之间存在复杂且通常高阶的交互,但自注意力和其他动态网络的成功表明,在架构设计中引入显式和高阶空间交互有利于提高视觉模型的建模能力。如附图1所示,普通卷积操作(a)没有明确考虑任一空间位置(即红色特征)与其相邻区域(即浅灰色区域)之间的空间交互。动态卷积等增强卷积操作(b)通过生成动态权重引入了显式空间交互。transformers中的点积自注意力操作(c)通过在三个变化的嵌入之间执行矩阵乘法实现了两个连续的空间交互。视觉模型发展的趋势表明网络容量可以通过增加空间交互的阶数来提高。因此如何提高视觉模型的表示能力,以增强图像的检测能力。
技术实现要素:5.本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
6.为此,本发明的目的在于提出一种基于高阶空间信息交互的图像识别方法、装置、设备及存储介质,探索一种可以高效实现高阶空间的视觉建模基础操作,来构建能应用于各种视觉任务的新型通用视觉模型架构,提高视觉模型的表示能力在视觉理解任务上取得了显著的性能提升,可以完成图像识别、语义分割、目标检测在内的视觉理解任务,提供图像的检测能力。
7.为达上述目的,本发明一方面提出了一种基于高阶空间信息交互的图像识别方法,包括:
8.获取输入图像的初始视觉特征;
9.将所述初始视觉特征输入高阶交互网络模型得到第一视觉特征,分割所述图像视觉特征得到多维子特征图,将所述多维子特征图进行特征交互并输出映射得到第二视觉特征,基于所述第二视觉特征的深层特征表示得到第三视觉特征;
10.通过输出映射将所述第三视觉特征变换到任务需要的输出维数,得到图像的最终视觉特征。
11.根据本发明实施例的基于高阶空间信息交互的图像识别方法还可以具有以下附加技术特征:
12.进一步地,在本发明的一个实施例中,所述获取输入图像的初始视觉特征,包括:获取输入图像;将所述图像输入浅层深度视觉模型得到所述输入图像的初始视觉特征;其中,所述浅层深度视觉模型包括以下模型中的一种:多层卷积神经网络模型,视觉transformer模型和多层感知机模型。
13.进一步地,在本发明的一个实施例中,所述将初始视觉特征输入高阶交互网络模型得到第一视觉特征,分割所述图像视觉特征得到多维子特征图,包括:将初始视觉特征输入高阶交互网络模型通过输入映射提高特征维数得到第一视觉特征;将所述第一视觉特征拆分为n+1个维数不等的多维子特征图;其中,n为高阶交互的阶数。
14.进一步地,在本发明的一个实施例中,所述将多维子特征图进行特征交互并输出映射得到第二视觉特征,包括:使用递归方式将所述多维子特征图的当前特征通过线性映射进行维数变换;以及,将交互特征使用空间交互模块建模空间关系,将两个变换后的特征直接相乘实现门控交互,并将输出交互特征通过线性变换映射到第二视觉特征。
15.为达到上述目的,本发明另一方面提出了一种基于高阶空间信息交互的图像识别装置,包括:
16.特征获取模块,用于获取输入图像的初始视觉特征;
17.特征交互模块,用于将所述初始视觉特征输入高阶交互网络模型得到第一视觉特征,分割所述图像视觉特征得到多维子特征图,将所述多维子特征图进行特征交互并输出映射得到第二视觉特征,基于所述第二视觉特征的深层特征表示得到第三视觉特征;
18.特征输出模块,用于通过输出映射将所述第三视觉特征变换到任务需要的输出维数,得到图像的最终视觉特征。
19.本发明第三方面提出了一种计算机设备,包括处理器和存储器;
20.其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现基于高阶空间信息交互的图像识别方法。
21.本发明第四方面提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现基于高阶空间信息交互的图像识别方法。
22.本发明实施例的基于高阶空间信息交互的图像识别方法、装置、设备及存储介质,在视觉理解任务上取得了显著的性能提升,可以完成图像识别、语义分割、目标检测在内的视觉理解任务,提供图像的检测能力。
23.本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
24.本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
25.图1为现有的几种空间视觉建模基本单元的对比示意图;
26.图2为根据本发明实施例的基于高阶空间信息交互的图像识别方法流程图;
27.图3为根据本发明实施例的模型的基本单元和实现示意图;
28.图4为根据本发明实施例的基于高阶空间信息交互的图像识别装置结构示意图;
29.图5为根据本发明实施例的计算机设备。
具体实施方式
30.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
31.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
32.下面参照附图描述根据本发明实施例提出的基于高阶空间信息交互的图像识别方法、装置、设备及存储介质。
33.图2是本发明一个实施例的基于高阶空间信息交互的图像识别方法的流程图。
34.如图2所示,该方法包括但不限于以下步骤:
35.s1,获取输入图像的初始视觉特征;
36.s2,将初始视觉特征输入高阶交互网络模型得到第一视觉特征,分割图像视觉特征得到多维子特征图,将多维子特征图进行特征交互并输出映射得到第二视觉特征,基于第二视觉特征的深层特征表示得到第三视觉特征;
37.s3,通过输出映射将第三视觉特征变换到任务需要的输出维数,得到图像的最终视觉特征。
38.下面结合附图对本发明实施例的基于高阶空间信息交互的图像识别方法进行详细阐述。
39.本发明设计新型的视觉关系建模基础模型架构,提高视觉模型的表示能力。本发明提出了基于卷积实现的新型视觉建模基础单元递归门控卷积。同时,基于这一基础单元,设计了新型的高阶交互网络(hornet)作为各种视觉任务的通用视觉基础模型和高阶交互特征金字塔网络(horfpn)实现高效的多尺度新型融合,在多个主流视觉理解任务上取得了更好的算法复杂度-精度平衡。
40.具体地,本发明的提出的新型视觉建模基础单元递归门控卷积,该基础单元可应用在任意深度视觉模型中,提高模型的高阶交互建模能力,如图3所示。具体步骤如下:
41.步骤1、使用浅层深度视觉模块(如多层卷积神经网络,视觉transformer模型或者多层感知机模型)得到输入图像(3通道)的初步视觉特征(c通道)。
42.步骤2、通过输入映射提高特征维数至2c通道,并将特征图拆分为n+1个维数不等
的子特征图,保证特征图维数逐步增加,n为高阶交互的阶数。典型的实现为使用以2为公比的等比数列构建特征图维数序列。
43.步骤3、使用递归方式渐进的的更新特征,由特征维数有小到大实现特征交互,当前特征使用一个线性映射进行维数变换,交互特征使用空间交互模块(如7
×
7或者更大感受野的卷积)建模空间关系,两个变换后的特征直接相乘实现门控交互,并将输出特征通过一个额外的线性变换映射到c
′
通道,其中c
′
≥c。
44.步骤4、重复步骤(2),(3)得到图像的深层特征表示,输出c
″
通道的特征,其中c
″
≥c
′
≥c。
45.步骤5、通过输出映射将最终交互的特征变换到任务需要的输出维数,产生最终视觉特征。如在1000类的视觉分类任务中,将特征变换到1000通道,每个通道表示一个类别的分类置信度。
46.进一步地,递归门控卷积。递归门控卷积是实现长期和高阶空间视觉信息交互的视觉建模基础单元。该基础单元是用标准卷积、线性投影和逐元素乘法构建的,但具有与自注意力相似的输入自适应空间混合功能。递归门控卷积不是简单地模仿自注意机制中的成功设计,该基础单元具有多个额外的有利特性:1)高效性。基于卷积的实现避免了自注意力的二次方计算复杂度。在执行空间交互时逐渐增加通道宽度的设计也使我们能够实现具有有限复杂性的高阶交互;2)可扩展性。我们将自注意力中的二阶交互扩展到任意阶,以进一步提高视觉建模能力。由于我们不需要预设空间卷积的类型,因此递归门控卷积兼容各种内核大小和空间混合策略;3)平移等变性。递归门控卷积完全继承了标准卷积的平移等效性,为主流视觉任务引入了有益的归纳偏差,避免了局部注意力带来的不对称性。
47.高阶交互网络(hornet)。递归门控卷积可以替代视觉transformer或现代卷积神经网络中的空间混合层。我们遵循与最先进的视觉transformer相似的元架构来构建hornet,其中基本块包含空间混合层和前馈网络(ffn)。我们将视觉transformer中的自注意力空间混合层替换为递归门控卷积,并保持其他主要设计不变。通过最小改变网络的整体结构,我们的方法实现了显著的性能提升,在图像识别、目标检测、语义分割等视觉理解任务上都取得了卓越的性能。
48.高阶交互特征金字塔网络(horfpn)。除了在视觉编码器中使用递归门控卷积外,我们发现我们的递归门控卷积可以作为标准卷积的增强替代方案。它通过在各种卷积模型中引入高阶空间交互来提高模型性能。因此,我们将常用的多尺度特征融合模型特征金字塔网络(fpn)中用于特征融合的空间卷积替换为递归门控卷积,以提高下游任务的空间交互能力,改善模型性能。具体来说,我们在融合了来自不同金字塔级别的特征之后添加了递归门控卷积。对于目标检测任务,我们将自顶向下路径之后的3
×
3卷积替换为每个级别的递归门控卷积。对于语义分割,我们只需将多级特征图连接后的3
×
3卷积替换为递归门控卷积,因为最终结果是直接从该连接特征预测的。
49.根据本发明实施例的基于高阶空间信息交互的图像识别方法,提出了新型视觉建模基础单元递归门控卷积,该基础单元使用卷积实现,并弥补了传统卷积操作缺乏显式高阶空间交互的问题,在多个视觉理解任务上取得了显著的性能提升。提出了基于递归门控卷积的新型高阶交互网络(hornet)作为高性能通用视觉基础模型,该模型能有效应用于包括但不限于图像识别、语义分割、目标检测在内的视觉理解任务。提出了基于递归门控卷积
的新型高阶交互特征金字塔网络(horfpn)作为多尺度视觉特征融合模块,可辅助多种视觉编码器生成高分辨的特征图,主要应用于密集检测视觉任务。
50.为了实现上述实施例,如图4所示,本实施例中还提供了基于高阶空间信息交互的图像识别装置10,该装置10包括:特征获取模块100、特征交互模块200和特征输出模块300。
51.特征获取模块100,用于获取输入图像的初始视觉特征;
52.特征交互模块200,用于将初始视觉特征输入高阶交互网络模型得到第一视觉特征,分割图像视觉特征得到多维子特征图,将多维子特征图进行特征交互并输出映射得到第二视觉特征,基于第二视觉特征的深层特征表示得到第三视觉特征;
53.特征输出模块300,用于通过输出映射将第三视觉特征变换到任务需要的输出维数,得到图像的最终视觉特征。
54.进一步的,上述特征获取模块100,还用于:
55.获取输入图像;
56.将图像输入浅层深度视觉模型得到输入图像的初始视觉特征;其中,浅层深度视觉模型包括以下模型中的一种:多层卷积神经网络模型,视觉transformer模型和多层感知机模型
57.进一步的,上述特征交互模块200,用于:
58.将初始视觉特征输入高阶交互网络模型通过输入映射提高特征维数得到第一视觉特征;
59.将第一视觉特征拆分为n+1个维数不等的多维子特征图;其中,n为高阶交互的阶数。
60.进一步的,上述特征交互模块200,还用于:
61.使用递归方式将多维子特征图的当前特征通过线性映射进行维数变换;以及,
62.将交互特征使用空间交互模块建模空间关系,将两个变换后的特征直接相乘实现门控交互,并将输出交互特征通过线性变换映射到第二视觉特征。
63.根据本发明实施例的基于高阶空间信息交互的图像识别装置,提出了新型视觉建模基础单元递归门控卷积,该基础单元使用卷积实现,并弥补了传统卷积操作缺乏显式高阶空间交互的问题,在多个视觉理解任务上取得了显著的性能提升。提出了基于递归门控卷积的新型高阶交互网络(hornet)作为高性能通用视觉基础模型,该模型能有效应用于包括但不限于图像识别、语义分割、目标检测在内的视觉理解任务。提出了基于递归门控卷积的新型高阶交互特征金字塔网络(horfpn)作为多尺度视觉特征融合模块,可辅助多种视觉编码器生成高分辨的特征图,主要应用于密集检测视觉任务。
64.为了实现上述实施例的方法,本发明还提供了一种计算机设备,如图5所示,该计算机设备600包括存储器601、处理器602;其中,所述处理器602通过读取所述存储器601中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现上文所述基于高阶空间信息交互的图像识别方法的各个步骤。
65.为了实现上述实施例的方法,本发明还提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现基于高阶空间信息交互的图像识别方法。
66.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性
或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
67.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
68.尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
技术特征:1.一种基于高阶空间信息交互的图像识别方法,其特征在于,包括以下步骤:获取输入图像的初始视觉特征;将所述初始视觉特征输入高阶交互网络模型得到第一视觉特征,分割所述图像视觉特征得到多维子特征图,将所述多维子特征图进行特征交互并输出映射得到第二视觉特征,基于所述第二视觉特征的深层特征表示得到第三视觉特征;通过输出映射将所述第三视觉特征变换到任务需要的输出维数,得到图像的最终视觉特征。2.根据权利要求1所述的方法,其特征在于,所述获取输入图像的初始视觉特征,包括:获取输入图像;将所述图像输入浅层深度视觉模型得到所述输入图像的初始视觉特征;其中,所述浅层深度视觉模型包括以下模型中的一种:多层卷积神经网络模型,视觉transformer模型和多层感知机模型。3.根据权利要求2所述的方法,其特征在于,所述将初始视觉特征输入高阶交互网络模型得到第一视觉特征,分割所述图像视觉特征得到多维子特征图,包括:将初始视觉特征输入高阶交互网络模型通过输入映射提高特征维数得到第一视觉特征;将所述第一视觉特征拆分为n+1个维数不等的多维子特征图;其中,n为高阶交互的阶数。4.根据权利要求3所述的方法,其特征在于,所述将多维子特征图进行特征交互并输出映射得到第二视觉特征,包括:使用递归方式将所述多维子特征图的当前特征通过线性映射进行维数变换;以及,将交互特征使用空间交互模块建模空间关系,将两个变换后的特征直接相乘实现门控交互,并将输出交互特征通过线性变换映射到第二视觉特征。5.一种基于高阶空间信息交互的图像识别装置,其特征在于,包括:特征获取模块,用于获取输入图像的初始视觉特征;特征交互模块,用于将所述初始视觉特征输入高阶交互网络模型得到第一视觉特征,分割所述图像视觉特征得到多维子特征图,将所述多维子特征图进行特征交互并输出映射得到第二视觉特征,基于所述第二视觉特征的深层特征表示得到第三视觉特征;特征输出模块,用于通过输出映射将所述第三视觉特征变换到任务需要的输出维数,得到图像的最终视觉特征。6.根据权利要求5所述的装置,其特征在于,所述特征获取模块,还用于:获取输入图像;将所述图像输入浅层深度视觉模型得到所述输入图像的初始视觉特征;其中,所述浅层深度视觉模型包括以下模型中的一种:多层卷积神经网络模型,视觉transformer模型和多层感知机模型。7.根据权利要求6所述的装置,其特征在于,所述特征交互模块,用于:将初始视觉特征输入高阶交互网络模型通过输入映射提高特征维数得到第一视觉特征;将所述第一视觉特征拆分为n+1个维数不等的多维子特征图;其中,n为高阶交互的阶
数。8.根据权利要求7所述的装置,其特征在于,所述特征交互模块,还用于:使用递归方式将所述多维子特征图的当前特征通过线性映射进行维数变换;以及,将交互特征使用空间交互模块建模空间关系,将两个变换后的特征直接相乘实现门控交互,并将输出交互特征通过线性变换映射到第二视觉特征。9.一种计算机设备,其特征在于,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-4中任一项所述的基于高阶空间信息交互的图像识别方法。10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的基于高阶空间信息交互的图像识别方法。
技术总结本发明公开了一种基于高阶空间信息交互的图像识别方法,该方法包括:获取输入图像的初始视觉特征;将初始视觉特征输入高阶交互网络模型得到第一视觉特征,分割图像视觉特征得到多维子特征图,将多维子特征图进行特征交互并输出映射得到第二视觉特征,基于第二视觉特征的深层特征表示得到第三视觉特征;通过输出映射将第三视觉特征变换到任务需要的输出维数,得到图像的最终视觉特征。本发明可以实现各种图像的精确识别输出。各种图像的精确识别输出。各种图像的精确识别输出。
技术研发人员:鲁继文 周杰 饶永铭 赵文亮
受保护的技术使用者:清华大学
技术研发日:2022.07.22
技术公布日:2022/11/1