1.本发明属于图像处理技术领域,具体涉及一种自选择感受野块、图像处理方 法及应用。
背景技术:2.行人重识别(person re-identification,简称re-id)技术是一种根据行人全 身信息,旨在解决不同时间不同地点下同一行人匹配问题的技术。其可以弥补固 定摄像头的视觉局限,在商超、机场等安保领域具有广泛的应用价值。
3.re-id的网络设计中,常常会引入多尺度卷积模块以增强行人特征图感受野 的多样性(如rfb和aspp等模块),以获取行人不同级别的空间上下文信息。 如公开号为cn114332908a的专利文献公开的行人目标检测方法及系统,其中, 行人重识别,采用训练后的行人重识别网络来实现;所述行人重识别网络融入了 多尺度特征提取模块,以扩大感受野和提高目标特征提取的能力。在改进后的行 人重识别网络上,融合了多尺度特征提取模块,以进一步增强行人目标检测的精 度,使复杂场景下的目标检测得到更加多样化处理,提高行人目标检测的精度。 然而,现有的多尺度卷积模块大都存在以下两个技术问题:
4.1)大多数多尺度卷积模块采用固定的感受野,难以根据不同任务、不同模 型进行自主调节,达不到对场景信息的充分理解。
5.2)这些模块的设计复杂度偏高,拖慢了推理速度,最直接的表现就是计算 量、参数量增幅较大。
技术实现要素:6.本发明的目的在于提供一种自选择感受野块、图像处理方法及应用,本发明 借助多个不同尺度空洞卷积的优势设计了金字塔卷积组,用以获取图像中由局部 到全局的不同级别的语义信息,并通过自适应加权融合的方式让模型根据任务自 主选择所需要的感受野大小,能够对目标场景充分理解及显著控制计算量和参数 量,有效解决了现有模型不能有效兼顾局部性和全局性、难以对场景信息充分理 解、以及计算量和参数量大的技术问题。
7.为实现上述目的,本发明采用的技术方案如下:
8.一种自选择感受野块,其特征在于:包括图像输入模块、挤压模块、金字塔 卷积组、加权融合模块、激励模块和图像输出模块,金字塔卷积组包括多个并行 的卷积支路,其中,
9.图像输入模块用于输入待处理特征图;
10.挤压模块用于将压缩待处理特征图的通道数;
11.金字塔卷积组分别通过卷积支路对压缩后的待处理特征图进行处理,每一卷 积支路先编码图像的空间信息,得到维度与输入相同的中间特征图,再在局部感 受野中将空间和通道信息融合在一起,并得到增强特征图;
12.加权融合模块用于分别结合权重因子对各卷积支路输出的增强特征图进行 自适应加权融合,并得到具有高细粒度表征能力的融合特征图;
13.激励模块用于将融合特征图的通道数还原,并得到还原特征图;
14.图像输出模块用于将还原特征图与待处理特征图进行逐元素相加,得到兼顾 高级语义信息和原始细节信息的最终输出特征图。
15.所述金字塔卷积组包括四个并行的卷积支路,每个卷积支路均使用内核大小 为3
×
3的空洞卷积层,且各个卷积支路的空洞率rate均不同;其中,每个卷积支 路先使用内核为3、groups=c的空洞卷积层编码图像的空间信息,c表示待处理 特征图的通道数,编码完成后得到维度与输入相同的中间特征图,再将内核为1、 groups=1的卷积层应用于中间特征图,在局部感受野中将空间和通道信息融合 在一起得到增强特征图。
16.所述挤压模块基于卷积层conv1
×
1将待处理特征图的通道数压缩为原来的 1/r,r为缩放因子;所述激励模块基于conv1
×
1-relu的复合卷积层实现融合特 征图通道数的还原。
17.一种图像处理方法,其特征在于,包括如下步骤:
18.步骤a:输入维度为h
×w×
c的待处理特征图,并采用挤压操作压缩待处理 特征图的通道数;
19.步骤b:将压缩后的待处理特征图输入至包含多个并行的卷积支路的金字塔 卷积组中进行处理,每一卷积支路先编码图像的空间信息,得到维度与输入相同 的中间特征图,再在局部感受野中将空间和通道信息融合在一起,并得到增强特 征图;
20.步骤c:分别结合权重因子对多个卷积支路输出的增强特征图进行自适应加 权融合,得到具有高细粒度表征能力的融合特征图;
21.步骤d:对融合特征图进行激励操作,将融合特征图被压缩的通道数还原, 得到还原特征图;
22.步骤e:引入shortcut操作,使还原特征图与待处理特征图进行逐元素相加, 得到兼顾高级语义信息和原始细节信息的最终输出特征图。
23.步骤a中,基于卷积层conv1
×
1将待处理特征图的通道数压缩为原来的1/r, r为缩放因子;其中,设定输入特征图为f,压缩后的待处理特征图为f1,则:
24.f1=f
sq
(f),f1∈rh×w×
c/r
25.式中,f
sq
(
·
)函数的本质为卷积层conv1
×
1。
26.步骤b中,金字塔卷积组包括四个并行的卷积支路,每个卷积支路均使用 内核大小为3
×
3的空洞卷积层,且各个卷积支路的空洞率rate均不同;其中,每 个卷积支路先使用内核为3、groups=c的空洞卷积层编码图像的空间信息,c表 示待处理特征图的通道数,编码完成后得到维度与输入相同的中间特征图,再将 内核为1、groups=1的卷积层应用于中间特征图,在局部感受野中将空间和通道 信息融合在一起得到增强特征图;设定四个卷积支路的rate分别为1、2、3和 4,则输出的增强特征图分别为f3×3、f5×5、f7×7和f9×9。
27.步骤c中,设定融合特征图为f2,则:
28.f2=w3×3·
f3×3+w5×5·
f5×5+w7×7·
f7×7+w9×9·
f9×9,rh×w×
c/r
29.式中,f3×3、f5×5、f7×7和f9×9分别表示rate=1、2、3和4的四个不同的卷积 支路输出的增强特征图;w3×3、w5×5、w7×7和w9×9分别对应四个卷积支路的权重因 子;+表示逐元素相
加。
30.步骤d中,基于conv1
×
1-relu的复合卷积层将融合特征图的通道数c/r 还原为c;其中,设定还原特征图为f3,则:
31.f3=f
ex
(f2),f3∈rh×w×c32.式中,f
ex
(
·
)函数的本质为conv1
×
1-relu复合卷积层。
33.步骤e中,设定最终输出特征图为f',则:
34.f
′
=f+f3,f
′
∈rh×w×c35.式中,+表示逐元素相加。
36.一种自选择感受野块的应用,其特征在于:将权利要求1-3中任一项所述的 自选择感受野块应用于包括但不限于vggnet系列、resnet系列、mobilenet 系列的神经网络模型中。
37.采用上述技术方案,本发明的有益技术效果是:
38.1.本发明所述的自选择感受野块是指self-selected receptive field块,简称 srf块(下同),其包括图像输入模块、挤压模块、包括多个并行的卷积支路的 金字塔卷积组、加权融合模块、激励模块和图像输出模块。相对于现有技术来说, 本发明借助多个不同尺度空洞卷积的优势设计了金字塔卷积组,用以获取图像中 由局部到全局的不同级别的语义信息,并通过自适应加权融合的方式让模型根据 任务自主选择所需要的感受野大小,能够对目标场景充分理解及显著控制计算量 和参数量,有效解决了现有模型不能有效兼顾局部性和全局性、难以对场景信息 充分理解、以及计算量和参数量大的技术问题。
39.2.本发明所述的自选择感受野块一种即插即用的,真正意义上的轻量化模块, 其具体优点如下:
40.(1)在特征处理方面。srf块通过多个具有不同内核尺寸的空洞卷积层来 获得行人图像中不同尺度、不同层级和不同语义的上下文信息。该信息兼顾了局 部性和全局性,可以达到对行人目标和图像场景的充分理解,对行人多尺度和目 标遮挡等问题具有良好的适应性。另外,srf块中自适应加权操作使得金字塔卷 积组各个卷积支路的学习可以互相监督、充分互补,极大地促进了srf块的性 能表达。
41.(2)在参数和计算量方面。一方面,srf块首先会将输入特征图映射到低 维度,以便减轻后续金字塔卷积操作带来的参数量和计算量的增长;另一方面, 金字塔卷积组的各个分支全部使用不同空洞率的3
×
3卷积,与标准3
×
3卷积相 比,其在增大感受野的同时依然保持较低的参数量和计算量;特别地,金字塔卷 积组的所有支路均采用“分组卷积”的操作技巧,这进一步降低了参数量和计算 量。
42.(3)在灵活性方面。srf块在处理输入特征图的同时,不会改变其空间大 小和通道结构,因此可以轻松地移植到现有卷积神经网络的各个位置,或作为其 他模块的替代品,进而发挥特征增强的作用。
43.3.本发明所述的图像处理方法包括如下五个步骤,其中,
44.步骤a采用挤压操作压缩待处理特征图的通道数,其优点在于能够使后面 金字塔卷积组的操作平台处于低维度,从而减少参数量和减小计算量。
45.步骤b分别采用多个并行的卷积支路对压缩后的待处理特征图进行处理, 所使用的空洞卷积层均采用“分组卷积”的操作技巧,该技巧使得各空洞卷积层 在获取不同局部
信息的同时,大幅度降低参数量和计算量。
46.步骤c分别结合权重因子对多个卷积支路输出的增强特征图进行自适应加 权融合,由于采用的权重因子可以通过网络训练进行自主学习,而非设定不变的 超参数,因而可以根据任务自主选择所需要的感受野大小,从而达到对目标场景 的充分理解。
47.步骤d通过对融合特征图进行激励操作,将融合特征图被压缩的通道数还 原,其能够对金字塔卷积组处理后的特征进行非线性映射,从而提高模型的抽象 表达能力。
48.步骤e引入shortcut操作,有利于srf增强模块的梯度传递,从而让srf 块的训练和学习变得更加容易。
49.4.本发明将自选择感受野块应用于包括但不限于vggnet系列、resnet系列、 mobilenet系列的神经网络模型中时,其具有以下优点:
50.(1)在性能方面,srf块借助多个不同尺度空洞卷积的优势设计了金字塔 卷积组,用以获取图像中由局部到全局的不同级别的语义信息,并通过自适应加 权融合的方式让模型根据任务自主选择所需要的感受野大小,从而达到对目标场 景的充分理解。
51.(2)在复杂度方面,srf块首先通过引入通道缩放因子,进而从全局的角 度出发来约束模型的复杂度。其次,srf块专门设计了“分组卷积操作”,其可 以在建模特征空间信息和通道信息的同时,显著控制模型所产生的计算量和参数 量。实验表明,使用srf块后的resnet-50基线模型在所选re-id遮挡数据集上 的性能提升超过10%,而其计算量和参数量增幅仅有3%左右。
附图说明
52.图1为本发明的原理图;
53.图2为srf块中分组卷积操作与标准卷积的对比图;
54.图3为srf块中自适应加权融合的示意图;
55.图4为本发明的流程图;
56.图5为srf块与resnet-50中残差单元的集成方案图;
57.图6为srf-resnet-50模型的示意图。
具体实施方式
58.实施例1
59.本发明公开了一种自选择感受野块(srf块),如图1所示,其包括图像输 入模块、挤压模块、金字塔卷积组、加权融合模块、激励模块和图像输出模块, 金字塔卷积组包括多个并行的卷积支路,各模块的功能作用分别如下:
60.图像输入模块用于输入待处理特征图。
61.挤压模块用于将压缩待处理特征图的通道数,该挤压模块的作用是基于卷积 层conv1
×
1将待处理特征图的通道数压缩为原来的1/r,r为缩放因子。其中, conv1
×
1是指核尺寸为1
×
1的卷积层(下同)。通过挤压操作可让后面金字塔卷 积组的操作平台处于低维度,从而减少参数量和减小计算量。
62.金字塔卷积组分别通过卷积支路对压缩后的待处理特征图进行处理,在多个 尺度上编码对象和图像上下文。为防止当空洞率过大时所导致“网格效应”的产 生而导致性
能的下降,本发明优选金字塔卷积组包括四个并行的卷积支路,每个 卷积支路均使用内核大小为3
×
3的空洞卷积层,各个卷积支路的空洞率rate均不 同,但优依次增大。如图1所示,当四个卷积支路的空洞率rate分别取1、2、3 和4时,四个空洞卷积层的实际感受野大小分别为3
×
3、5
×
5、7
×
7和9
×
9。
63.对于srf块中金字塔卷积组的每一个卷积支路,本发明采用的“分组卷积 操作”如图2(a)所示:对于任一卷积支路,首先,使用内核为3、groups=c的空 洞卷积层编码压缩后的待处理特征图fi的空间信息,c表示待处理特征图的通道 数,编码完成后得到维度与输入相同的中间特征图。其次,将内核为1、groups=1 的卷积层应用于中间特征图,在局部感受野中将空间和通道信息融合在一起,得 到增强后的增强特征图fo。至此,一个卷积支路中由分组卷积操作所进行的特 征增强处理过程结束。特别地,在实际的应用中,对于金字塔卷积组的其他不同 卷积支路,本发明只需要设置不同的rates即可进行相同的处理流程。可以看出, 在整个金字塔卷积组的操作过程中,本发明始终保持输入、输出的特征维度相统 一,这使得srf块结构的调整和移植具有内在的灵活性。
64.加权融合模块用于分别结合权重因子对各卷积支路输出的增强特征图进行 自适应加权融合,并得到具有高细粒度表征能力的融合特征图。其中,权重因子 可以通过网络训练进行自主学习,而非设定不变的超参数。
65.关于加权融合模块需要说明的是,如图3所示,加权融合模块采用自适应加 权融合的方式,聚合金字塔卷积组产生的多尺度上下文信息。特别地,srf块中 所采用权重因子为系数而非向量,这是因为经过金字塔卷积组操作后的各增强特 征图在其各自的通道方向上具有语义相似性,故无需让每个通道特征都学习不同 的权重因子;基于此,srf块中特征融合的方式为“元素相加”而非“通道合并”。
66.进一步的,如图3所示,假设和分别表示特征图 f3×3、f5×5、f7×7、f9×9和f
fus
的第i个通道的特征平面,i=1,2,
…
,c,则融合特 征平面的计算公式为:
[0067][0068]
式中,+表示对应元素相加;w3×3,w5×5,w7×7,w9×9分别表示权重因子,且w3×3, w5×5,w7×7,w9×9∈[0,1]。本发明并不设置w3×3+w5×5+w7×7+w9×9=1,这是因为四个卷 积支路的特征信息不存在互斥性,若四个卷积支路输出都对目标任务起正向作用, 那么它们都应该被重视。
[0069]
激励模块用于将融合特征图的通道数还原,并得到还原特征图。该激励模块 的作用是基于conv1
×
1-relu的复合卷积层实现融合特征图通道数的还原,具体 来说就是将通道数c/r还原为c,其中relu函数的目的是对融合特征图进行非 线性映射,提高模型的抽象表达能力。
[0070]
图像输出模块用于将还原特征图与待处理特征图进行逐元素相加,也即对应 元素相加,完成后得到兼顾高级语义信息和原始细节信息的最终输出特征图。其 中,可采用shortcut操作实现逐元素相加,shortcut操作的使用,有利于srf增 强模块的梯度传递,从而让srf块的训练和学习变得更加容易。
[0071]
另外,为了充分说明srf块中金字塔卷积组在模型复杂度上的优势,对于 是否采
用分组卷积操作,本发明对其参数量和计算量进行了前后对比。如图2(a) 所示,srf块所产生的参数量和计算量分别为:
[0072]
params=32·
c+12·c·
c=(9+c)
·c[0073]
flops=2
·
32·c·
(w
·
h)+2
·12
·c·c·
(w
·
h)=(18+2c)
·c·
(w
·
h)
[0074]
而如图2(b)所示采用标准卷积的则直接一步到位,其使用c个内核为3
×
3 的标准卷积层(groups=1)对输入进行处理,得到同维度的输出,其所需的参数 量和计算量分别为:
[0075]
params=32·c·
c=9
·
c2[0076]
flops=2
·
32·c·c·
(w
·
h)=18
·
c2·
(w
·
h)
[0077]
由上述公式对比可知,与标准卷积相比,采用本发明分组卷积操作所产生的 参数量和计算量均为原来的r倍,即:
[0078][0079]
式中k为内核尺寸。
[0080]
因此,使用本发明的分组卷积操作后,卷积层的参数量和计算成本降低为一 个约等于内核平方因子的倍数,这在计算资源受限或移动平台应用的条件下是非 常有利的。
[0081]
本实施例所述srf块可应用于包括但不限于vggnet系列、resnet系列、 mobilenet系列的神经网络模型中,在神经网络模型实际训练时,考虑到神经网 络模型只能学习实数参数,为了学习取值范围为[0,1]的四个权重因子,本发明 巧妙地引入sigmoid函数,将神经网络模型所要学习的四个实数参数约束在区间 [0,1]。sigmoid函数也称为logistic函数,是生物学中常见的一种s型函数,也 被叫做s型生长曲线。在信息科学中,由于其单增以及反函数单增等性质,使其 具有平滑、易于求导等优点,故常被用作神经网络的激活函数。
[0082]
进一步的,设定w1,w2,w3和w4分别对应待训练的四个权重因子w3×3,w5×5, w7×7和w9×9,则:
[0083][0084]
如上式所示,通过借助于sigmoid函数,就将神经网络模型对w3×3,w5×5,w7×7和w9×9的学习问题转化为分别对四个参数值x1,x2,x3和x4的学习问题了。
[0085]
本实施例的具体实现过程为:
[0086]
假设输入的待处理特征图f的维度为c
×h×
w,则:
[0087]
(1)使用本质为卷积层conv1
×
1的挤压模块对待处理特征图f进行挤压操 作,得到维度为c/r
×h×
w的压缩后的待处理特征图f1;
[0088]
(2)将压缩后的待处理特征图f1输入到金字塔卷积组中,进行金字塔卷积 操作,分别得到维度均为c/r
×h×
w的增强特征图f3×3、f5×5、f7×7和f9×9;
[0089]
(3)通过加权融合模块将增强特征图f3×3、f5×5、f7×7和f9×9分别乘以取值 范围均为[0,1]的不同权重因子,然后再进行逐元素相加,得到维度为c/r
×h×
w 的融合特征图f2;
[0090]
(4)使用本质为conv1
×
1-relu的复合卷积层的激励模块对融合特征图f2进行激励操作,得到维度为c
×h×
w的还原特征图f3;
[0091]
(5)在图像输出模块中将待处理特征图f和还原特征图f3进行逐元素相加, 得到维度为c
×h×
w的最终输出特征图f'。
[0092]
相对于最开始输入的待处理特征图f,其最终得到的最终输出特征图f'增大 了待处理特征图的感受野,增强了待处理特征图的尺度多样性和语义丰富度,从 而能够更准确地获取待处理特征图中的相关特征。
[0093]
实施例2
[0094]
本发明公开了一种图像处理方法,该图像处理方法相当于基于实施例1所述 的srf块实现,如图1、4所示,其包括如下步骤:
[0095]
步骤a:输入维度为h
×w×
c的待处理特征图,并采用挤压操作压缩待处理 特征图的通道数。
[0096]
具体的,本步骤基于卷积层conv1
×
1将待处理特征图的通道数压缩为原来 的1/r,r为缩放因子。设定输入特征图为f,压缩后的待处理特征图为f1,则:
[0097]
f1=f
sq
(f),f1∈rh×w×
c/r
[0098]
式中,f
sq
(
·
)函数的本质为卷积层conv1
×
1。本步骤的出发点在于可以使待 处理特征图的维度降低,从而不会产生较多的参数量和较大的计算量。
[0099]
步骤b:将压缩后的待处理特征图输入至包含多个并行的卷积支路的金字塔 卷积组中进行处理,在多个尺度上编码对象和图像上下文。每一卷积支路先编码 图像的空间信息,得到维度与输入相同的中间特征图,再在局部感受野中将空间 和通道信息融合在一起,并得到增强特征图。
[0100]
具体的,本步骤优选金字塔卷积组包括四个并行的卷积支路,每个卷积支路 均使用内核大小为3
×
3的空洞卷积层,且各个卷积支路的空洞率rate均不同;如 图1所示,当四个卷积支路的空洞率rate分别取1、2、3和4时,四个空洞卷积 层的实际感受野大小分别为3
×
3、5
×
5、7
×
7和9
×
9。其中,每个卷积支路先使用 内核为3、groups=c的空洞卷积层编码图像的空间信息,c表示待处理特征图的 通道数,编码完成后得到维度与输入相同的中间特征图,再将内核为1、groups=1 的卷积层应用于中间特征图,在局部感受野中将空间和通道信息融合在一起得到 增强特征图;设定四个卷积支路的rate分别为1、2、3和4,则输出的增强特 征图分别为f3×3、f5×5、f7×7和f9×9。至此,一个卷积支路中由分组卷积操作所进 行的特征增强处理过程结束。特别地,在实际的应用中,对于金字塔卷积组的其 他不同卷积支路,本发明只需要设置不同的rates即可进行相同的处理流程。可 以看出,在整个金字塔卷积组的操作过程中,本发明始终保持输入、输出的特征 维度相统一。
[0101]
步骤c:为了让不同层级的图像上下文信息充分发挥作用,本步骤分别结合 权重因子对多个卷积支路输出的增强特征图进行自适应加权融合,得到具有高细 粒度表征能力的融合特征图。
[0102]
具体的,设定融合特征图为f2,则:
[0103]
f2=w3×3·
f3×3+w5×5·
f5×5+w7×7·
f7×7+w9×9·
f9×9,rh×w×
c/r
[0104]
式中,f3×3、f5×5、f7×7和f9×9分别表示rate=1、2、3和4的四个不同的卷积 支路输出的增强特征图;w3×3、w5×5、w7×7和w9×9分别对应四个卷积支路的权重因 子;+表示逐元素相加。需要说明的是,四个权重因子可以通过网络训练进行自 主学习,而非设定不变的超参数。
[0105]
步骤d:对融合特征图进行激励操作,将融合特征图被压缩的通道数还原, 得到还原特征图。
[0106]
具体的,本步骤基于conv1
×
1-relu的复合卷积层将融合特征图的通道数 c/r还原为c;其中,设定还原特征图为f3,则:
[0107]
f3=f
ex
(f2),f3∈rh×w×c[0108]
式中,f
ex
(
·
)函数的本质为conv1
×
1-relu复合卷积层。
[0109]
与步骤a中f
sq
(
·
)函数不同的是,f
ex
(
·
)函数在conv1
×
1之后加入了激活层 relu,目的是对金字塔卷积组处理后的特征进行非线性映射,提高模型的抽象 表达能力;特别地,f
ex
(
·
)函数中不加入bn层,是为了避免归一化操作破坏原始 特征信息之间的相互依赖关系。
[0110]
步骤e:引入shortcut操作,使还原特征图与待处理特征图进行逐元素相加, 也即对应元素相加,完成之后得到兼顾高级语义信息和原始细节信息的最终输出 特征图。
[0111]
具体的,设定最终输出特征图为f',则:
[0112]f′
=f+f3,f
′
∈rh×w×c[0113]
式中,+表示逐元素相加。
[0114]
总体而言,本发明借助多个不同尺度空洞卷积的优势设计了金字塔卷积组, 用以获取图像中由局部到全局的不同级别的语义信息,并通过自适应加权融合的 方式让模型根据任务自主选择所需要的感受野大小,能够对目标场景充分理解及 显著控制计算量和参数量,有效解决了现有模型不能有效兼顾局部性和全局性、 难以对场景信息充分理解、以及计算量和参数量大的技术问题。且相对于最开始 输入的待处理特征图f,其最终得到的最终输出特征图f'增大了待处理特征图的 感受野,增强了待处理特征图的尺度多样性和语义丰富度,从而能够更准确地获 取待处理特征图中的相关特征。
[0115]
实施例3
[0116]
本发明公开了一种自选择感受野块的应用,本发明主要是将实施例1所述的 自选择感受野块应用于包括但不限于vggnet系列、resnet系列、mobilenet 系列的神经网络模型中,进而以便于目标特征的识别。
[0117]
需要说明的是,srf块是个即插即用的特征增强模块,可以灵活地插入到 vggnet系列、resnet系列、mobilenet系列等所有通用的神经网络模型中,形 成srfnet实例化模型,进而用于re-id任务。
[0118]
例如,若使用resnet-50网络模型用于行人重识别,输入为行人图片,输出 为行人重识别的结果。当在resnet-50中某位置插入srf块后,则可称之为 srf-resnet-50网络模型,它的机理在于:同样输入为行人图片,当输入信息流 经过srf块后,其图像特征就会得到增强,然后增强后的特征继续向后传递, 输出为行人重识别的结果。同理,换成vggnet网络也是这样。
[0119]
下面,本发明给出一种srf块与最通用resnet-50的集成方案。如图5所示, 本发明将srf块插入到resnet-50中残差单元的“非线性操作”之后,与“恒等 映射分支”求和之前,并称之为srf-resnet-50,此时srf-resnet-50中srf块 的缩放因子r设置为16。
[0120]
具体地,对于srf-resnet-50模型,如图6所示。可以看出,本发明仅将 srf-resblock插入到stage_3中,而对于其他stages依然保留resblock的原始 结构。这是因为
对于处于模型浅层的stage_1和stage_2来说,其特征图感受野 较小,在网络训练中大都是处理小尺度目标,且关注的也都是图像的细节纹理等 低级信息,并不需要太多高级语义信息的“加持”,故对于srf块而言插入在 stage_1和stage_2中时会显得“大材小用”,难以充分发挥其作用;另外对于 stage_4,其处于模型的深层,由于经过resnet-50中卷积层和池化层的多次采样, 该阶段特征图的感受野要比浅层大的多,故进行卷积操作时相邻内核参数所捕捉 的特征信息过于远程(映射到原图上),从而导致一些局部信息部分或完全丢失。 使用srf块后,其递增的空洞率会进一步加剧这种现象,从而导致模型性能因 信息的不连续而下降。因此,对于srf块来说,集成到深度合适的stage_3中才 可以充分发挥其作用。
[0121]
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除 非特别叙述,均可被其他等效或具有类似目的替代特征加以替换;所公开的所有 特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可 以任何方式组合。
技术特征:1.一种自选择感受野块,其特征在于:包括图像输入模块、挤压模块、金字塔卷积组、加权融合模块、激励模块和图像输出模块,金字塔卷积组包括多个并行的卷积支路,其中,图像输入模块用于输入待处理特征图;挤压模块用于将压缩待处理特征图的通道数;金字塔卷积组分别通过卷积支路对压缩后的待处理特征图进行处理,每一卷积支路先编码图像的空间信息,得到维度与输入相同的中间特征图,再在局部感受野中将空间和通道信息融合在一起,并得到增强特征图;加权融合模块用于分别结合权重因子对各卷积支路输出的增强特征图进行自适应加权融合,并得到具有高细粒度表征能力的融合特征图;激励模块用于将融合特征图的通道数还原,并得到还原特征图;图像输出模块用于将还原特征图与待处理特征图进行逐元素相加,得到兼顾高级语义信息和原始细节信息的最终输出特征图。2.根据权利要求1所述的一种自选择感受野块,其特征在于:所述金字塔卷积组包括四个并行的卷积支路,每个卷积支路均使用内核大小为3
×
3的空洞卷积层,且各个卷积支路的空洞率rate均不同;其中,每个卷积支路先使用内核为3、groups=c的空洞卷积层编码图像的空间信息,c表示待处理特征图的通道数,编码完成后得到维度与输入相同的中间特征图,再将内核为1、groups=1的卷积层应用于中间特征图,在局部感受野中将空间和通道信息融合在一起得到增强特征图。3.根据权利要求1或2所述的一种自选择感受野块,其特征在于:所述挤压模块基于卷积层conv1
×
1将待处理特征图的通道数压缩为原来的1/r,r为缩放因子;所述激励模块基于conv1
×
1-relu的复合卷积层实现融合特征图通道数的还原。4.一种图像处理方法,其特征在于,包括如下步骤:步骤a:输入维度为h
×
w
×
c的待处理特征图,并采用挤压操作压缩待处理特征图的通道数;步骤b:将压缩后的待处理特征图输入至包含多个并行的卷积支路的金字塔卷积组中进行处理,每一卷积支路先编码图像的空间信息,得到维度与输入相同的中间特征图,再在局部感受野中将空间和通道信息融合在一起,并得到增强特征图;步骤c:分别结合权重因子对多个卷积支路输出的增强特征图进行自适应加权融合,得到具有高细粒度表征能力的融合特征图;步骤d:对融合特征图进行激励操作,将融合特征图被压缩的通道数还原,得到还原特征图;步骤e:引入shortcut操作,使还原特征图与待处理特征图进行逐元素相加,得到兼顾高级语义信息和原始细节信息的最终输出特征图。5.根据权利要求4所述的一种图像处理方法,其特征在于:步骤a中,基于卷积层conv1
×
1将待处理特征图的通道数压缩为原来的1/r,r为缩放因子;其中,设定输入特征图为f,压缩后的待处理特征图为f1,则:f1=f
sq
(f),f1∈r
h
×
w
×
c/r
式中,f
sq
(
·
)函数的本质为卷积层conv1
×
1。6.根据权利要求5所述的一种图像处理方法,其特征在于:步骤b中,金字塔卷积组包括
四个并行的卷积支路,每个卷积支路均使用内核大小为3
×
3的空洞卷积层,且各个卷积支路的空洞率rate均不同;其中,每个卷积支路先使用内核为3、groups=c的空洞卷积层编码图像的空间信息,c表示待处理特征图的通道数,编码完成后得到维度与输入相同的中间特征图,再将内核为1、groups=1的卷积层应用于中间特征图,在局部感受野中将空间和通道信息融合在一起得到增强特征图;设定四个卷积支路的rate分别为1、2、3和4,则输出的增强特征图分别为f3×3、f5×5、f7×7和f9×9。7.根据权利要求6所述的一种图像处理方法,其特征在于:步骤c中,设定融合特征图为f2,则:f2=w3×3·
f3×3+w5×5·
f5×5+w7×7·
f7×7+w9×9·
f9×9,r
h
×
w
×
c/r
式中,f3×3、f5×5、f7×7和f9×9分别表示rate=1、2、3和4的四个不同的卷积支路输出的增强特征图;w3×3、w5×5、w7×7和w9×9分别对应四个卷积支路的权重因子;+表示逐元素相加。8.根据权利要求7所述的一种图像处理方法,其特征在于:步骤d中,基于conv1
×
1-relu的复合卷积层将融合特征图的通道数c/r还原为c;其中,设定还原特征图为f3,则:f3=f
ex
(f2),f3∈r
h
×
w
×
c
式中,f
ex
(
·
)函数的本质为conv1
×
1-relu复合卷积层。9.根据权利要求8所述的一种图像处理方法,其特征在于:步骤e中,设定最终输出特征图为f',则:f
′
=f+f3,f
′
∈r
h
×
w
×
c
式中,+表示逐元素相加。10.一种自选择感受野块的应用,其特征在于:将权利要求1-3中任一项所述的自选择感受野块应用于包括但不限于vggnet系列、resnet系列、mobilenet系列的神经网络模型中。
技术总结本发明公开了一种自选择感受野块、图像处理方法及应用,其中,自选择感受野块包括图像输入模块、挤压模块、金字塔卷积组、加权融合模块、激励模块和图像输出模块。图像处理方法主要是基于自选择感受野块实现图像的处理,应用主要是将自选择感受野块应用于神经网络模型中。本发明借助多个不同尺度空洞卷积的优势设计了金字塔卷积组,用以获取图像中由局部到全局的不同级别的语义信息,并通过自适应加权融合的方式让模型根据任务自主选择所需要的感受野大小,能够对目标场景充分理解及显著控制计算量和参数量,有效解决了现有模型不能有效兼顾局部性和全局性、难以对场景信息充分理解、以及计算量和参数量大的技术问题。以及计算量和参数量大的技术问题。以及计算量和参数量大的技术问题。
技术研发人员:候少麒 殷光强 王治国 王志铭 毛俊怡
受保护的技术使用者:电子科技大学
技术研发日:2022.07.04
技术公布日:2022/11/1