图像分割方法、装置、电子设备及计算机存储介质与流程

专利2023-05-21  109



1.本技术涉及网络模型和图像处理领域,尤其涉及一种图像分割方法、装置、电子设备及计算机存储介质。


背景技术:

2.随着计算机断层扫描(ct)、核磁共振成像(mri)和超声成像技术在医学影像方面的应用,越来越多的医学图像需要更快、更准确的分析和判断。而现有的传统图像分割方法需要人工干预,由于手工设计特征等不利因素,无法保证图像分割的精确度,同时无法实现端到端无需人工干预的图像自动分割。现有的基于卷积神经网络的图像分割方法面临以下问题:1、由于标注困难,医学图像数据量往往相对较少,不利于网络的训练;2、医学图像受采集设备的影响,数据格式不统一,导致数据预处理困难;3、医学图像要分割的组织、细胞等区域结构和大小变化多样,不利于网络对不同大小目标的特征提取;4、部分医学图像如超声图像,图像模糊,不利于网络对特征提取。由此可知,现有图像分割方法的分割精确度相对较低。


技术实现要素:

3.本技术提供一种图像分割方法、装置、电子设备及计算机存储介质,旨在提高图像分割的精确度。
4.第一方面,本技术提供一种图像分割方法,包括:
5.通过双残差结构模块编码器对输入的原始特征图进行特征提取和特征压缩,得到所述原始特征图的最终输出特征图;
6.通过所述双残差结构模块编码器对所述最终输出特征图进行整合和映射,得到第一待融合特征图和第二待融合特征图;
7.通过特征融合增强模块双解码器对所述第一待融合特征图和所述第二待融合特征图进行特征融合,得到最终融合特征图。
8.在一个实施例中,所述通过双残差结构模块编码器对输入的原始特征图进行特征提取和特征压缩,得到所述原始特征图的最终输出特征图,包括:
9.基于所述双残差结构模块编码器中的卷积、批归一化和激活函数对所述原始特征图进行特征提取,得到原始特征;
10.将原始特征与所述原始特征图通过残差边线性相加进行特征加权,得到加权后的特征图;
11.基于所述加权后的特征图结合所述双残差结构模块编码器中的注意力机制,得到所述最终输出特征图。
12.所述基于所述加权后的特征图结合所述双残差结构模块编码器中的注意力机制,得到所述最终输出特征图,包括:
13.将所述加权后的特征图通过所述激活函数,并在特征图的宽高维度取均值,得到
各个通道的权重向量;
14.将各个所述权重向量通过线性映射和所述激活函数,得到各个通道的第一权重系数;
15.基于各个所述第一权重系数和所述原始特征图,得到所述最终输出特征图。
16.所述基于各个所述第一权重系数和所述原始特征图,得到所述最终输出特征图,包括:
17.将各个所述第一权重系数与所述原始特征图进行元素对位点乘,得到增强后的特征图;
18.将所述增强后的特征图与所述原始特征图进行残差边线性叠加,得到所述最终输出特征图。
19.所述通过所述双残差结构模块编码器对所述最终输出特征图进行整合和映射,得到第一待融合特征图和第二待融合特征图,包括:
20.通过所述双残差结构模块编码器中的第一预设大小的卷积对所述最终输出特征图进行特征整合,得到整合后的特征图;
21.通过所述双残差结构模块编码器中预设数量的第二预设大小的卷积对所述整合后的特征图进行特征映射,得到与所述最终输出特征图的第一原始通道数相同的所述第一待融合特征图,以及通道数为所述第一原始通道数两倍的所述第二待融合特征图。
22.所述通过特征融合增强模块双解码器对所述第一待融合特征图和所述第二待融合特征图进行特征融合,得到最终融合特征图,包括:
23.通过所述特征融合增强模块双解码器结合特征融合增方法对所述第一待融合特征图进行融合,得到第一目标融合特征图;
24.通过所述特征融合增强模块双解码器结合所述特征融合增方法对所述第二待融合特征图进行融合,得到第二目标融合特征图;
25.基于预设大小的卷积对所述第一目标融合特征图和所述第二目标融合特征图进行特征融合,得到所述最终融合特征图。
26.所述通过所述特征融合增强模块双解码器结合特征融合增方法对所述第一待融合特征图进行融合,得到第一目标融合特征图,包括:
27.将所述第一待融合特征图的本层特征与上采样后的特征沿通道方向进行特征拼接融合,得到通道数为所述第一待融合特征图的第二原始通道数两倍的融合后的特征图;
28.通过卷积压缩对所述融合后的特征图进行通道压缩,得到通道数与所述第二原始通道数相同的压缩后的特征图;
29.将所述压缩后的特征图在空间维度上进行平均池化和最大池化,并通过线性映射、加权和激活函数,得到各个通道的第二权重系数;
30.将各个所述第二权重系数与所述第一待融合特征图进行元素对位点乘,得到通道增强后的特征图;
31.将所述通道增强后的特征图与所述第一待融合特征图进行残差边线性叠加并再次通过卷积进行通道压缩,得到通道数为所述第二原始通道数一半的所述第一目标融合特征图。
32.第二方面,本技术提供一种图像分割装置包括:
33.特征提取压缩模块,用于通过双残差结构模块编码器对输入的原始特征图进行特征提取和特征压缩,得到所述原始特征图的最终输出特征图;
34.特征整合映射模块,用于通过所述双残差结构模块编码器对所述最终输出特征图进行整合和映射,得到第一待融合特征图和第二待融合特征图;
35.特征融合模块,用于通过特征融合增强模块双解码器对所述第一待融合特征图和所述第二待融合特征图进行特征融合,得到最终融合特征图。
36.第三方面,本技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述图像分割方法。
37.第四方面,本技术还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包括计算机程序,所述计算机程序被所述处理器执行时实现第一方面所述图像分割方法。
38.第五方面,本技术还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被所述处理器执行时实现第一方面所述图像分割方法。
39.本技术提供的图像分割方法、装置、电子设备及计算机存储介质,在图像分割的过程中,通过双残差结构模块编码器的强特征提取能力,使得提取出的特征图有更好的语义表达能力,再结合特征融合增强模块双解码器的强特征融合能力,提高了图像分割的精确度。
附图说明
40.为了更清楚地说明本技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1是本技术提供的图像分割方法的流程示意图;
42.图2是本技术提供的残差结构图;
43.图3是本技术提供的双残差结构模块编码器的结构示意图;
44.图4是本技术提供的特征融合增强模块双解码器的结构示意图;
45.图5是本技术的全局特征增强网络在一应用场景的流程示意图;
46.图6是本技术提供的图像分割装置的结构示意图;
47.图7是本技术提供的电子设备的结构示意图。
具体实施方式
48.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术中的附图,对本技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
49.结合图1至图7描述本技术提供的图像分割方法、装置、电子设备及计算机存储介质。图1是本技术提供的图像分割方法的流程示意图;图2是本技术提供的残差结构图;图3
是本技术提供的双残差结构模块编码器的结构示意图;图4是本技术提供的特征融合增强模块双解码器的结构示意图;图5是本技术的全局特征增强网络在一应用场景的流程示意图;图6是本技术提供的图像分割装置的结构示意图;图7是本技术提供的电子设备的结构示意图。
50.本技术实施例提供了图像分割方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些数据下,可以以不同于此处的顺序完成所示出或描述的步骤。
51.本技术实施例以电子设备作为执行主体进行举例,本技术实施例以图像分割系统作为电子设备的表现形式之一,并不进行限制。
52.参照图1,图1是本技术提供的图像分割方法的流程示意图。本技术实施例提供的图像分割方法包括:
53.步骤s10,通过双残差结构模块编码器对输入的原始特征图进行特征提取和特征压缩,得到所述原始特征图的最终输出特征图。
54.需要说明的是,本技术实施例的图像分割方法可以应用于包括但不限制于医学图像以及图像复杂度高于医学图像复杂的其他图像。
55.进一步地,本技术实施例提出的是一种全局特征增强(global feature enhancement)网络的unet模型,为了简洁说明可以简称为gfe-unet模型。相比于原本的unet模型,gfe-unet模型在编码器和解码器都做出了改进。原本unet模型的编码器由卷积、归一化、激活函数和最大池化堆叠构成,而gfe-unet模型在编码器部分将原本unet模型的卷积层替换为加入se注意力的残差结构块(se block),se block由双残差结构、卷积和se注意力组成,使其具有更强的泛化能力和特征提取能力,也可以理解为本技术实施例的编码器为双残差结构模块编码器。同时,gfe-unet模型使用最大池化下采样进行特征的压缩。最终,双残差结构模块编码器输出5个特征层用于后的上采样与特征融合。进一步地,与一般的编码器与解码器之间的跳跃连接不同,本技术实施例的gfe-unet模型提出了双解码器结构,并且在每个尺度的特征图上通过两次跳跃连接进行特征融合,除此之外,在特征融合阶段使用特征融合能力更强的特征融合增强模块ffem(feature fusion enhancement module)替换原本unet模型的卷积层,即本技术实施例的解码器为特征融合增强模块双解码器。
56.进一步地,双残差结构模块编码器包括但不限制于se block、最大池化、3*3的卷积和1*1的卷积。在一实施例中,双残差结构模块编码器包括4个se block、4个最大池化、一个3*3的卷积和两个1*1的卷积,其中,se block是双残差结构模块编码器用于特征提取的重要模块,该模块包括双残差结构、两组卷积、批归一化、激活函数和se注意力,残差结构被resnet广泛使用,参照图2所示,图2是本技术提供的残差结构图,残差结构使用一个非线性变化函数来描述一个网络的输入输出,即输入为x,输出为f(x),f通常包括卷积运算和激活运算,当强行将一个输入添加到函数的输出时,可以把输出拆分为f(x)和x的线性叠加,通过线性叠加方式不仅解决了梯度消失的问题,更重要的是延缓了权重矩阵的退化,提高了网络的表征能力和泛化能力。
57.进一步地,在se block中,本技术实施例在卷积后和注意力特征增强后都做了残差连接,加强梯度传播的同时,增强特征的语义表达,如图3所示,图3是本技术提供的双残差结构模块编码器的结构示意图。得益于双残差结构和注意力机制,se block相比简单的
卷积具有更强的泛化能力和特征提取能力。
58.进一步地,图像分割系统确定输入的原始特征图,其中,原始特征图可为经过卷积处理的特征图,可以为未经过卷积处理的特征图。进一步地,图像分割系统通过gfe-unet模型中的双残差结构模块编码器对原始特征图进行特征提取。进一步地,图像分割系统通过全局gfe-unet模型中的双残差结构模块编码器对提取出的特征对原始特征图进行特征压缩,得到原始特征图的最终输出特征图,具体如步骤s101至步骤s103所述。
59.进一步地,步骤s101至步骤s103的描述如下:
60.步骤s101,基于所述双残差结构模块编码器中的卷积、批归一化和激活函数对所述原始特征图进行特征提取,得到原始特征;
61.步骤s102,将原始特征与所述原始特征图通过残差边线性相加进行特征加权,得到加权后的特征图;
62.步骤s103,基于所述加权后的特征图结合所述双残差结构模块编码器中的注意力机制,得到所述最终输出特征图。
63.进一步地,在se block中,本技术实施例在卷积后和注意力特征增强后都做了残差连接,加强梯度传播的同时,增强特征的语义表达,如图3所示,图3是本技术提供的双残差结构模块编码器的结构示意图。得益于双残差结构和注意力机制,se block相比简单的卷积具有更强的泛化能力和特征提取能力,具体如下:
64.具体地,参照图3可知,首先通过双残差结构模块编码器中的卷积、批归一化和激活函数对原始特征图进行特征提取,得到原始特征,具体为,图像分割系统将原始特征图经过两次的卷积、批归一化和激活函数进行特征提取,得到原始特征,其中,卷积(convolution)、批归一化(batch normalization)和激活函数(relu)可以简写为cbr。
65.进一步地,将提取出的原始特征与原始特征图通过残差边线性相加进行特征加权,得到加权后的特征图x。进一步地,将加权后的特征图x结合双残差结构模块编码器中的注意力机制,得到最终输出特征图,具体入步骤s1031至步骤s1033所述。
66.本技术实施例通过残差结构块和se注意力机制使得双残差结构模块编码器具有更强特征提取能力,使得提取出的特征图有更好的语义表达能力,提高了图像分割的精确度。
67.进一步地,步骤s1031至步骤s1033的描述如下:
68.步骤s1031,将所述加权后的特征图通过所述激活函数,并在特征图的宽高维度取均值,得到各个通道的权重向量;
69.步骤s1032,将各个所述权重向量通过线性映射和所述激活函数,得到各个通道的第一权重系数;
70.步骤s1033,基于各个所述第一权重系数和所述原始特征图,得到所述最终输出特征图。
71.具体地,参照图3可知,将加权后的特征图x通过激活函数relu,并在特征图的宽高维度进行全局池化(global pooling),得到各个通道的权重向量ρw,其中,各个通道的权重向量ρw表示各个通道对特征的影响力,权重向量ρw的公式可表示为ρw=x.mean(dim=[h,w]),h和w表示高和宽。
[0072]
进一步地,将各个权重向量ρw通过线性映射和激活函数,得到各个通道的第一权
重系数w1,在一实施例中,线性映射可为多层感知机,激活函数可为relu激活函数和sigmoid激活函数,因此,可以理解为,各个权重向量ρw通过多层感知机、relu激活函数和sigmoid激活函数后,得到各个通道的第一权重系数w,第一权重系数w的公式可表示为w=sigmoid(relu(w2·
relu(w1·
ρw))),其中,公式中的w1和w2矩阵表示多层感知机,是一种约定俗成的概念,
·
为矩阵点乘运算。
[0073]
进一步地,根据各个第一权重系数w和原始特征图,得到最终输出特征图,具体如步骤s10331至步骤s10332所述。
[0074]
本技术实施例通过se注意力机制使得双残差结构模块编码器具有更强特征提取能力,使得提取出的特征图有更好的语义表达能力,提高了图像分割的精确度。
[0075]
进一步地,步骤s10331至步骤s10332的描述如下:
[0076]
步骤s10331,将各个所述第一权重系数与所述原始特征图进行元素对位点乘,得到增强后的特征图;
[0077]
步骤s10332,将所述增强后的特征图与所述原始特征图进行残差边线性叠加,得到所述最终输出特征图。
[0078]
具体地,将各个第一权重系数w与原始特征图进行元素对位点乘,得到增强后的特征图x
*
,增强后的特征图x
*
可表示为x
*
=w
·
x。进一步地,将增强后的特征图x
*
与原始特征图进行残差边线性叠加,得到最终输出特征图。
[0079]
本技术实施例在输出前的增强特征通过残差边线性叠加与输入特征加权,保障了特征的基线水平。
[0080]
在一实施例中,基于se block的双残差结构模块编码器具有更强的特征提取能力,对于输入为512*512*3的原始特征图,其编码器结构和各层输出如下表1所示,表1为编码器结构和各层输出。
[0081]
表1编码器结构和各层输出
[0082]
layerschannelsfilter sizepaddingstrideoutput sizese-block643*311512*512*64max pooling-2*202256*256*64se-block1283*311256*256*128max pooling-2*202128*128*128se-block2563*311128*128*256max pooling-2*20264*64*256se-block5123*31164*64*512max pooling-2*20232*32*512
[0083]
512*512*3的原始特征图通过64通道的残差结构块se-block后,输出512*512*64的特征图;512*512*64的特征图经过2*2的最大池化后,输出256*256*64的特征图;256*256*64的特征图通过128通道的残差结构块se-block后,输出256*256*128的特征图;256*256*128的特征图经过2*2的最大池化后,输出128*128*128的特征图;128*128*128的特征图通过256通道的残差结构块se-block后,输出128*128*256的特征图;128*128*256的特征图经过2*2的最大池化后,输出64*64*256的特征图;64*64*256的特征图通过521通道的残差结构块se-block后,输出64*64*512的特征图;64*64*512的特征图经过2*2的最大池化
后,输出32*32*512的特征图。
[0084]
步骤s20,通过所述双残差结构模块编码器对所述最终输出特征图进行整合和映射,得到第一待融合特征图和第二待融合特征图。
[0085]
具体来说,输入的原始特征图经过四次se block的特征提取和最大池化的特征压缩后,需要通过双残差结构模块编码器中的两个卷积对最终输出特征图进行整合和映射,得到通道数与最终输出特征图的原始通道数相同和不同的第一待融合特征图和第二待融合特征图,并将第一待融合特征图和第二待融合特征图作为特征融合增强模块双解码器的输入进行特征融合,具体如步骤s201至步骤s202所述。
[0086]
进一步地,步骤s201至步骤s202的描述如下:
[0087]
步骤s201,通过所述双残差结构模块编码器中的第一预设大小的卷积对所述最终输出特征图进行特征整合,得到整合后的特征图;
[0088]
步骤s202,通过所述双残差结构模块编码器中预设数量的第二预设大小的卷积对所述整合后的特征图进行特征映射,得到与所述最终输出特征图的第一原始通道数相同的所述第一待融合特征图,以及通道数为所述第一原始通道数两倍的所述第二待融合特征图。
[0089]
具体地,通过双残差结构模块编码器中的第一预设大小的卷积对最终输出特征图进行特征整合,得到整合后的特征图,在一实施例中,第一预设大小的卷积为一个3*3的卷积,因此可以理解为,通过双残差结构模块编码器中的3*3的卷积对最终输出特征图进行特征整合,得到整合后的特征图。
[0090]
进一步地,通过双残差结构模块编码器中预设数量的第二预设大小的卷积对整合后的特征图进行特征映射,得到与最终输出特征图的第一原始通道数相同的第一待融合特征图,以及得到通道数为第一原始通道数两倍的第二待融合特征图,在一实施例中,预设数量为2,第二预设大小的卷积为1*1的卷积,即可以理解为,依次通过双残差结构模块编码器中两个1*1的卷积进行特征映射,将特征图的通道数映射成特定的数量,经过第一个1*1的卷积后,通道数与最终输出特征图的原始通道数相同,经过第二个1*1的卷积后,通道数变为最终输出特征图的原始通道数的一半,得到与最终输出特征图的第一原始通道数相同的第一待融合特征图,以及得到通道数为第一原始通道数两倍的第二待融合特征图。
[0091]
在一实施例中,最终输出特征图为32*32*512的特征图,将32*32*512的特征图经过3*3的卷积进行特征整合,再依次经过两个1*1的卷积后,得到32*32*512的特征图和32*32*256的特征图,具体如表2所示,表2为特征整合和特征映射的输出。
[0092]
表2特征整合和特征映射的输出
[0093]
layerschannelsfilter sizepaddingstrideoutput sizeconvolutional5123*31132*32*512convolutional5121*10132*32*512convolutional2561*10132*32*256
[0094]
步骤s30,通过特征融合增强模块双解码器对所述第一待融合特征图和所述第二待融合特征图进行特征融合,得到最终融合特征图。
[0095]
需要说明的是,为了提高网络对深度特征的解析能力,gfe-unet模型中有两组并列的解码器,不仅编码器和解码器之间通过跳跃连接进行特征融合,解码器之间也通过跳
跃连接进行特征融合。双解码器的结构不仅加强了深层特征的解析能力,重复的特征融合还实现了对不同尺度目标的特征重用,加强了特征的语义表达。原始unet模型基于跳跃连接的方式沿着通道维度拼接两层特征图,进行特征融合,然后通过卷积提取通道信息进而降低融合后特征的通道维度。然而,这种特征融合方式应用在双解码器中使得解码结构非常冗余,并且通道信息的提取并没有本质的变化,因此,本技术实施例采用了特征融合增强模块双解码器。
[0096]
进一步地,通过特征融合增强模块双解码器对第一待融合特征图进行融合,得到第一目标融合特征图,同时,通过特征融合增强模块双解码器对第二待融合特征图进行融合,得到第二目标融合特征图。进一步地,通过预设大小的卷积对第一目标融合特征图和第二目标融合特征图进行特征融合,得到最终融合特征图,具体如步骤s301至步骤s303所述,其中,预设大小的卷积根据实际情况设定。
[0097]
进一步地,步骤s301至步骤s303的描述如下:
[0098]
步骤s301,通过特征融合增强模块双解码器结合特征融合增方法对所述第一待融合特征图进行融合,得到第一目标融合特征图;
[0099]
步骤s302,通过所述特征融合增强模块双解码器结合所述特征融合增方法对所述第二待融合特征图进行融合,得到第二目标融合特征图;
[0100]
步骤s303,基于预设大小的卷积对所述第一目标融合特征图和所述第二目标融合特征图进行特征融合,得到所述最终融合特征图。
[0101]
具体地,通过特征融合增强模块双解码器结合特征融合增方法对第一待融合特征图进行融合,得到第一目标融合特征图,同时,通过特征融合增强模块双解码器结合特征融合增方法对第二待融合特征图进行融合,得到第二目标融合特征图。进一步地,通过预设大小的卷积对第一目标融合特征图和第二目标融合特征图进行特征融合,得到最终融合特征图,具体如步骤s3031至步骤s3035所述。
[0102]
本技术实施例通过特征融合增强模块双解码器的强特征融合能力更好地融合不同大小和结构的特征信息,提高图像分割的精确度。
[0103]
进一步地,步骤s3031至步骤s3035的描述如下:
[0104]
步骤s3031,将所述第一待融合特征图的本层特征与上采样后的特征沿通道方向进行特征拼接融合,得到通道数为所述第一待融合特征图的第二原始通道数两倍的融合后的特征图;
[0105]
步骤s3032,通过卷积压缩对所述融合后的特征图进行通道压缩,得到通道数与所述第二原始通道数相同的压缩后的特征图;
[0106]
步骤s3033,将所述压缩后的特征图在空间维度上进行平均池化和最大池化,并通过线性映射、加权和激活函数,得到各个通道的第二权重系数;
[0107]
步骤s3034,将各个所述第二权重系数与所述第一待融合特征图进行元素对位点乘,得到通道增强后的特征图;
[0108]
步骤s3035,将所述通道增强后的特征图与所述第一待融合特征图进行残差边线性叠加并再次通过卷积进行通道压缩,得到通道数为所述第二原始通道数一半的所述第一目标融合特征图。
[0109]
参照图4,图4是本技术提供的特征融合增强模块双解码器的结构示意图,通过特
征融合增强模块双解码器能够实现特征融合增方法,特征融合增强模块双解码器可以根据通道的重要性,有针对性的提取重要性较高通道的信息,并进行两次通道压缩,具体如下:
[0110]
具体地,将第一待融合特征图的本层特征与经过双线性插值(billinear interpolate)上采样后的特征沿通道方向进行特征拼接融合(concat),得到通道数为第一待融合特征图的第二原始通道数两倍的融合后的特征图。进一步地,通过卷积压缩对融合后的特征图进行经过卷积(conv)进行通道压缩,得到通道数与第二原始通道数相同的压缩后的特征图,需要说明的是,通过卷积(conv)进行通道压缩后,压缩后的特征图的通道数相对于融合后的特征图的通道数而言,通道数压缩一倍,但是,压缩后的特征图的通道数与第一待融合特征图的通道数是一样的。
[0111]
进一步地,将压缩后的特征图在空间维度上进行平均池化(avg_pool)和最大池化(max_pool),并通过线性映射(mlp)、加权和sigmoid激活函数,得到各个通道的第二权重系数。进一步地,将各个第二权重系数与第一待融合特征图进行元素对位点乘,得到通道增强后的特征图。进一步地,将通道增强后的特征图与第一待融合特征图进行残差边线性叠加并再次通过卷积(conv)进行通道压缩,得到通道数为第二原始通道数一半的第一目标融合特征图。
[0112]
对第二待融合特征图的处理过程与第一待融合特征图的处理过程相同,再次不再赘述。
[0113]
在一实施例中,第一待融合特征图为32*32*512的特征图,第二待融合特征图为32*32*256的特征图,特征融合增强模块双解码器的每层输出结果如表3所示,表3为特征融合增强模块双解码器的每层输出结果。32*32*512的特征图经过四次双线性插值(bilinear interpolate)和四次ffem模块之后,输出512*512*32的特征图,32*32*256的特征图经过四次双线性插值(bilinear interpolate)和四次ffem模块之后,输出512*512*16的特征图,将512*512*32的特征图和512*512*16的特征图特征融合后,最终输出512*512*2的特征图。
[0114]
表3特征融合增强模块双解码器的每层输出结果
[0115]
layersoutput size of decoder1output size of decoder2convolutional32*32*51232*32*256bilinear interpolate64*64*51264*64*256ffem64*64*25664*64*128bilinear interpolate128*128*256128*128*128ffem128*128*128128*128*64bilinear interpolate256*256*128256*256*64ffem256*256*64256*256*32bilinear interpolate512*512*64512*512*32ffem512*512*32512*512*16convolutional-512*512*2
[0116]
本技术实施例通过特征融合增强模块双解码器的强特征融合能力结合特征融合增方法更好地融合不同大小和结构的特征信息,提高了图像分割的精确度。
[0117]
进一步地,本技术实施例采用联合损失函数,即focal loss损失函数和dice loss损失函数联合计算损失。
[0118]
对于focal loss损失函数:focal loss损失函数是在标准交叉熵损失基础上修改得到的,focal loss损失函数可以通过减少易分类样本的权重,使得模型在训练时更专注于难分类的样本,实现难样本挖掘,公式可表示为:fl(p
t
)=-0.25
×
(1-p
t
)2log(p
t
),其中,p为样本点分类的概率。当p越大即模型对某个样本像素的分类概率越大时,该样本点由于易于区分,被视为简单样本,其对应的focal loss相对较小;而当p越小即模型对某个样本像素的分类概率越小时,该样本点由于难以区分,被视为难样本,其对应的focal loss对较大,使得模型在训练时更专注于难分类的样本。
[0119]
对于dice loss损失函数:dice loss损失函数是一种集合相似度度量的损失函数,通常用于计算两个样本的相似度,其对应的dice loss越小,两个样本相似度越大,其公式可表示为其中,x为真实的分割图,y为预测的分割图,当y与x越接近时,dice loss则更小。
[0120]
因此,focal loss损失函数和dice loss损失函数联合计算损失的总体的联合损失函数表达式为loss=0.5
×
focal loss+0.5
×
dice loss。
[0121]
进一步地,参照图5,图5是本技术的全局特征增强网络在一应用场景的流程示意图。原始特征图为512*512*3的特征图,512*512*3的原始特征图通过64通道的残差结构块se-block后,输出512*512*64的特征图;512*512*64的特征图经过2*2的最大池化后,输出256*256*64的特征图;256*256*64的特征图通过128通道的残差结构块se-block后,输出256*256*128的特征图;256*256*128的特征图经过2*2的最大池化后,输出128*128*128的特征图;128*128*128的特征图通过256通道的残差结构块se-block后,输出128*128*256的特征图;128*128*256的特征图经过2*2的最大池化后,输出64*64*256的特征图;64*64*256的特征图通过521通道的残差结构块se-block后,输出64*64*512的特征图;64*64*512的特征图经过2*2的最大池化后,输出32*32*512的特征图。即可以理解为,512*512*3的原始特征图经过四次的残差结构块se-block和四次的最大池化后,得到的最终输出特征图为32*32*512的特征图。
[0122]
进一步地,码器和解码器之间通过跳跃连接,解码器与解码器之间也通过跳跃连接,因此,编码器和第一层解码器通过ffem融合后的特征图,再次经过ffem与第二层解码器进行特征融合,具体为:
[0123]
将32*32*512的最终输出特征图经过3*3的卷积进行特征整合,再依次经过两个1*1的卷积后,得到32*32*512的特征图和32*32*256的特征图。32*32*512的特征图经过四次双线性插值(bilinear interpolate)和四次ffem之后,输出512*512*32的特征图,32*32*256的特征图经过四次双线性插值(bilinear interpolate)和四次ffem之后,输出512*512*16的特征图,将512*512*32的特征图和512*512*16的特征图特征融合后,输出512*512*2的特征图。
[0124]
本技术实施例提供的图像分割方法,通过双残差结构模块编码器的强特征提取能力,使得提取出的特征图有更好的语义表达能力,结合特征融合增强模块双解码器的强特征融合能力,提高了图像分割的精确度。
[0125]
进一步地,下对本技术提供的图像分割装置进行描述,图像分割装置与图像分割
方法可相互对应参照。
[0126]
如图6所示,图6是本技术提供的图像分割装置的结构示意图,图像分割装置包括:
[0127]
特征提取压缩模块601,用于通过双残差结构模块编码器对输入的原始特征图进行特征提取和特征压缩,得到所述原始特征图的最终输出特征图;
[0128]
特征整合映射模块602,用于通过所述双残差结构模块编码器对所述最终输出特征图进行整合和映射,得到第一待融合特征图和第二待融合特征图;
[0129]
特征融合模块603,用于通过特征融合增强模块双解码器对所述第一待融合特征图和所述第二待融合特征图进行特征融合,得到最终融合特征图。
[0130]
进一步地,特征提取压缩模块601还用于:
[0131]
基于所述双残差结构模块编码器中的卷积、批归一化和激活函数对所述原始特征图进行特征提取,得到原始特征;
[0132]
将原始特征与所述原始特征图通过残差边线性相加进行特征加权,得到加权后的特征图;
[0133]
基于所述加权后的特征图结合所述双残差结构模块编码器中的注意力机制,得到所述最终输出特征图。
[0134]
进一步地,特征提取压缩模块601还用于:
[0135]
将所述加权后的特征图通过所述激活函数,并在特征图的宽高维度取均值,得到各个通道的权重向量;
[0136]
将各个所述权重向量通过线性映射和所述激活函数,得到各个通道的第一权重系数;
[0137]
基于各个所述第一权重系数和所述原始特征图,得到所述最终输出特征图。
[0138]
进一步地,特征提取压缩模块601还用于:
[0139]
将各个所述第一权重系数与所述原始特征图进行元素对位点乘,得到增强后的特征图;
[0140]
将所述增强后的特征图与所述原始特征图进行残差边线性叠加,得到所述最终输出特征图。
[0141]
进一步地,特征整合映射模块602还用于:
[0142]
通过所述双残差结构模块编码器中的第一预设大小的卷积对所述最终输出特征图进行特征整合,得到整合后的特征图;
[0143]
通过所述双残差结构模块编码器中预设数量的第二预设大小的卷积对所述整合后的特征图进行特征映射,得到与所述最终输出特征图的第一原始通道数相同的所述第一待融合特征图,以及通道数为所述第一原始通道数两倍的所述第二待融合特征图。
[0144]
进一步地,特征融合模块603还用于:
[0145]
通过所述特征融合增强模块双解码器结合特征融合增方法对所述第一待融合特征图进行融合,得到第一目标融合特征图;
[0146]
通过所述特征融合增强模块双解码器结合所述特征融合增方法对所述第二待融合特征图进行融合,得到第二目标融合特征图;
[0147]
基于预设大小的卷积对所述第一目标融合特征图和所述第二目标融合特征图进行特征融合,得到所述最终融合特征图。
[0148]
进一步地,特征融合模块603还用于:
[0149]
将所述第一待融合特征图的本层特征与上采样后的特征沿通道方向进行特征拼接融合,得到通道数为所述第一待融合特征图的第二原始通道数两倍的融合后的特征图;
[0150]
通过卷积压缩对所述融合后的特征图进行通道压缩,得到通道数与所述第二原始通道数相同的压缩后的特征图;
[0151]
将所述压缩后的特征图在空间维度上进行平均池化和最大池化,并通过线性映射、加权和激活函数,得到各个通道的第二权重系数;
[0152]
将各个所述第二权重系数与所述第一待融合特征图进行元素对位点乘,得到通道增强后的特征图;
[0153]
将所述通道增强后的特征图与所述第一待融合特征图进行残差边线性叠加并再次通过卷积进行通道压缩,得到通道数为所述第二原始通道数一半的所述第一目标融合特征图。
[0154]
本技术提供的图像分割装置的具体实施例与上述图像分割方法各实施例基本相同,在此不作赘述。
[0155]
图7示例了一种电子设备的实体结构示意图,如图7所示,电子设备可以包括:处理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行图像分割方法,该方法包括:
[0156]
通过双残差结构模块编码器对输入的原始特征图进行特征提取和特征压缩,得到所述原始特征图的最终输出特征图;
[0157]
通过所述双残差结构模块编码器对所述最终输出特征图进行整合和映射,得到第一待融合特征图和第二待融合特征图;
[0158]
通过特征融合增强模块双解码器对所述第一待融合特征图和所述第二待融合特征图进行特征融合,得到最终融合特征图。
[0159]
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0160]
另一方面,本技术还提供一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的图像分割方法,该方法包括:
[0161]
通过双残差结构模块编码器对输入的原始特征图进行特征提取和特征压缩,得到所述原始特征图的最终输出特征图;
[0162]
通过所述双残差结构模块编码器对所述最终输出特征图进行整合和映射,得到第一待融合特征图和第二待融合特征图;
[0163]
通过特征融合增强模块双解码器对所述第一待融合特征图和所述第二待融合特征图进行特征融合,得到最终融合特征图。
[0164]
又一方面,本技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的图像分割方法,该方法包括:
[0165]
通过双残差结构模块编码器对输入的原始特征图进行特征提取和特征压缩,得到所述原始特征图的最终输出特征图;
[0166]
通过所述双残差结构模块编码器对所述最终输出特征图进行整合和映射,得到第一待融合特征图和第二待融合特征图;
[0167]
通过特征融合增强模块双解码器对所述第一待融合特征图和所述第二待融合特征图进行特征融合,得到最终融合特征图。
[0168]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0169]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0170]
最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

技术特征:
1.一种图像分割方法,其特征在于,包括:通过双残差结构模块编码器对输入的原始特征图进行特征提取和特征压缩,得到所述原始特征图的最终输出特征图;通过所述双残差结构模块编码器对所述最终输出特征图进行整合和映射,得到第一待融合特征图和第二待融合特征图;通过特征融合增强模块双解码器对所述第一待融合特征图和所述第二待融合特征图进行特征融合,得到最终融合特征图。2.根据权利要求1所述的图像分割方法,其特征在于,所述通过双残差结构模块编码器对输入的原始特征图进行特征提取和特征压缩,得到所述原始特征图的最终输出特征图,包括:基于所述双残差结构模块编码器中的卷积、批归一化和激活函数对所述原始特征图进行特征提取,得到原始特征;将原始特征与所述原始特征图通过残差边线性相加进行特征加权,得到加权后的特征图;基于所述加权后的特征图结合所述双残差结构模块编码器中的注意力机制,得到所述最终输出特征图。3.根据权利要求2所述的图像分割方法,其特征在于,所述基于所述加权后的特征图结合所述双残差结构模块编码器中的注意力机制,得到所述最终输出特征图,包括:将所述加权后的特征图通过所述激活函数,并在特征图的宽高维度取均值,得到各个通道的权重向量;将各个所述权重向量通过线性映射和所述激活函数,得到各个通道的第一权重系数;基于各个所述第一权重系数和所述原始特征图,得到所述最终输出特征图。4.根据权利要求3所述的图像分割方法,其特征在于,所述基于各个所述第一权重系数和所述原始特征图,得到所述最终输出特征图,包括:将各个所述第一权重系数与所述原始特征图进行元素对位点乘,得到增强后的特征图;将所述增强后的特征图与所述原始特征图进行残差边线性叠加,得到所述最终输出特征图。5.根据权利要求1所述的图像分割方法,其特征在于,所述通过所述双残差结构模块编码器对所述最终输出特征图进行整合和映射,得到第一待融合特征图和第二待融合特征图,包括:通过所述双残差结构模块编码器中的第一预设大小的卷积对所述最终输出特征图进行特征整合,得到整合后的特征图;通过所述双残差结构模块编码器中预设数量的第二预设大小的卷积对所述整合后的特征图进行特征映射,得到与所述最终输出特征图的第一原始通道数相同的所述第一待融合特征图,以及通道数为所述第一原始通道数两倍的所述第二待融合特征图。6.根据权利要求1所述的图像分割方法,其特征在于,所述通过特征融合增强模块双解码器对所述第一待融合特征图和所述第二待融合特征图进行特征融合,得到最终融合特征图,包括:
通过所述特征融合增强模块双解码器结合特征融合增方法对所述第一待融合特征图进行融合,得到第一目标融合特征图;通过所述特征融合增强模块双解码器结合所述特征融合增方法对所述第二待融合特征图进行融合,得到第二目标融合特征图;基于预设大小的卷积对所述第一目标融合特征图和所述第二目标融合特征图进行特征融合,得到所述最终融合特征图。7.根据权利要求6所述的图像分割方法,其特征在于,所述通过所述特征融合增强模块双解码器结合特征融合增方法对所述第一待融合特征图进行融合,得到第一目标融合特征图,包括:将所述第一待融合特征图的本层特征与上采样后的特征沿通道方向进行特征拼接融合,得到通道数为所述第一待融合特征图的第二原始通道数两倍的融合后的特征图;通过卷积压缩对所述融合后的特征图进行通道压缩,得到通道数与所述第二原始通道数相同的压缩后的特征图;将所述压缩后的特征图在空间维度上进行平均池化和最大池化,并通过线性映射、加权和激活函数,得到各个通道的第二权重系数;将各个所述第二权重系数与所述第一待融合特征图进行元素对位点乘,得到通道增强后的特征图;将所述通道增强后的特征图与所述第一待融合特征图进行残差边线性叠加并再次通过卷积进行通道压缩,得到通道数为所述第二原始通道数一半的所述第一目标融合特征图。8.一种图像分割装置,其特征在于,包括:特征提取压缩模块,用于通过双残差结构模块编码器对输入的原始特征图进行特征提取和特征压缩,得到所述原始特征图的最终输出特征图;特征整合映射模块,用于通过所述双残差结构模块编码器对所述最终输出特征图进行整合和映射,得到第一待融合特征图和第二待融合特征图;特征融合模块,用于通过特征融合增强模块双解码器对所述第一待融合特征图和所述第二待融合特征图进行特征融合,得到最终融合特征图。9.一种电子设备,所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的图像分割方法。10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的图像分割方法。

技术总结
本申请涉及网络模型和图像处理领域,提供一种图像分割方法、装置、电子设备及计算机存储介质,该方法包括:通过双残差结构模块编码器对输入的原始特征图进行特征提取和特征压缩,得到原始特征图的最终输出特征图;通过双残差结构模块编码器对最终输出特征图进行整合和映射,得到第一待融合特征图和第二待融合特征图;通过特征融合增强模块双解码器对第一待融合特征图和第二待融合特征图进行特征融合,得到最终融合特征图。本申请实施例提供的图像分割方法通过双残差结构模块编码器的强特征提取能力,使得提取出的特征图有更好的语义表达能力,再结合特征融合增强模块双解码器的强特征融合能力,提高了图像分割的精确度。提高了图像分割的精确度。提高了图像分割的精确度。


技术研发人员:后兴海 毕福昆 孙宇 郦丽 侯正方
受保护的技术使用者:北京北方智图信息技术有限公司
技术研发日:2022.06.24
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-2737.html

最新回复(0)