1.本发明涉及图像处理技术领域,尤其是涉及一种基于条件生成对抗网络的光学字符复原方法。
背景技术:2.在光学字符识别技术中,文本成像质量低下问题是影响识别准确率的一个主要因素,研究如何克服低质量模糊文本问题,对字符识别准确率的提升具有重要意义。为了缓解这种多因素影响下的图片质量下降问题,已经提出了大量的算法,深度学习算法具有自适应强的优点,近年来得到广泛应用。现有的对于模糊低质量文本的解决方案主要有三种:图像增强技术、图像模糊复原技术和超分辨率重构技术。
3.然而,现有的图像模糊复原技术仍存在对低质量光学字符图像适应能力不强的问题。
技术实现要素:4.本发明的目的就是为了克服上述现有技术存在的缺陷而提供了一种适应能力强、图像复原准确性高的光学字符图像模糊复原方法。
5.本发明的目的可以通过以下技术方案来实现:
6.本发明提供了一种基于条件生成对抗网络的光学字符复原方法,该方法包括以下步骤:
7.步骤s1、采集光学字符图像集,并基于合成的模糊图像,构建清晰-模糊光学字符图像对;
8.步骤s2、对步骤s1获取的清晰-模糊光学字符图像对进行数据扩充,将扩充后的清晰-模糊光学字符图像对划分为训练集和测试集;
9.步骤s3、构建条件生成对抗网络模型,并利用步骤s2得到的训练集对网络进行训练,得到最优条件生成对抗网络模型;所述条件生成对抗网络模型包括基于u-net结构的生成网络和采用双patchgan结构的判别网络,分别用于生成清晰图像,以及用于进行对抗学习以训练生成网络;其中,所述清晰光学字符图像为条件生成对抗网络模型的标签,用于监督模型生成器生成的清晰图像;
10.步骤s4、将步骤s2得到的测试集输入至最优条件生成对抗网络模型,进行图像复原,得到清晰的光学字符图像。
11.优选地,所述步骤s1包括以下子步骤:
12.步骤s11、将采集到的光学字符图像按设定尺寸随机裁剪后作为清晰光学字符图像;
13.步骤s12、采用高斯模糊函数对清晰光学字符图像进行卷积,得到合成的模糊光学字符图像,与清晰光学字符图像一起,构建清晰-模糊光学字符图像对。
14.优选地,所述步骤s12中的高斯模糊函数表达式为:
[0015][0016]
式中,c为归一化常量,δ2为决定图像模糊程度的模糊方差,x、y分别为光学字符图像的世界坐标。
[0017]
优选地,所述步骤s2包括以下子步骤:
[0018]
步骤s21、使用albumentations数据增强库对清晰-模糊光学字符图像对同时进行数据扩充;
[0019]
步骤s22、将扩充后的图像对打乱顺序后,按照设定比例划分为训练集与测试集。
[0020]
优选地,所述步骤s21中的数据扩充包括水平旋转、垂直旋转、旋转90度、行列转置以及尺度缩放。
[0021]
优选地,所述步骤s3中基于u-net结构的生成网络,包括下采样模块、上采样模块、残差模块和卷积注意力机制模块cbam,具体为:
[0022]
下采样模块:训练集经过k1次下采样输入至残差网络;
[0023]
残差网络:包括k2个残差块,每个残差块包含两个k3×
k3的核卷积,残差块之间通过最大池化连接;加深网络深度并减小参数数量;
[0024]
上采样模块:对应下采样模块,经过k1次上采样后,图像恢复至原始图像大小;
[0025]
卷积注意力机制模块cbam:卷积层输出的结果,依次经过通道注意力模块cam和空间注意力模块sam,加权后输出最终结果,用于在u-net网络的特征融合过程是赋予浅层特征不同的权重。
[0026]
优选地,所述步骤s3中基于patchgan结构的判别网络,包括局部鉴别网络和全局鉴别器网络;
[0027]
所述局部鉴别网络从输出图像和真实图像中随机提取局部patch,判别输出图像的真实性;所述判别网络采用对抗损失来最小化标签图像与输出图像之间的距离,进行网络训练。
[0028]
优选地,所述判别网络的整体损失函数表达式为:
[0029]
loss=l
cntglobal
+l
cntlobal
+l
global
+l
lobal
[0030]
式中,l
cntglobal
、l
cntlobal
分别为全局内容损失与局部内容损失,l
global
、l
lobal
分别为全局对抗损失与局部对抗损失;
[0031]
对于内容损失,采用输出与输入图像特征图的l2损失函数,表达式为:
[0032][0033]
其中,f1(i,j)为清晰图像特征图,f2(i,j)为输出图像特征图;
[0034]
对于对抗损失,函数表达式为:
[0035][0036]
式中,ib为模糊图像,g
θg
为生成网络,d
θd
为判别网络。
[0037]
优选地,所述步骤s3中利用步骤s2得到的训练集进行网络训练,得到最优条件生成对抗网络模型,具体过程为:
[0038]
将步骤s2扩充生成的训练数据集输入构建的条件生成对抗网络,采用adam优化算法,以对抗学习的方式训练网络;其中,训练集为步骤s1获取的清晰-模糊光学字符图像对;清晰图像作为条件生成对抗网络模型的标签,用于监督模型生成清晰图像。
[0039]
优选地,所述方法还包括步骤s5:采用峰值信噪比psnr和结构相似性ssim指标对图像质量进行评估;若不通过,重复步骤s3~步骤s4,直至复原后光学字符图像的评估参数满足设定阈值条件。
[0040]
与现有技术相比,本发明具有以下优点:
[0041]
1)通过模糊函数对清晰光学图像进行模糊合成,以构建清晰-模糊光学字符图像对,并基于使用albumentations数据增强库对图像对进行数据扩充,丰富训练集,使得条件生成对抗网络模型的训练优化更加精准;
[0042]
2)构建的条件生成对抗网络模型,采用u-net结构替换原生成网络的编码-解码结构,将上采样与下采样过程中的特征进行融合,得到的特征更能反映光学字符图像的原始信息;
[0043]
3)生成网络采用u-net结构,同时,在网络中添加残差块,通过残差进行网络学习的方式提高了网络训练速度,增强了模型的泛化能力,特征融合过程融入卷积注意力机制,提升生成图像质量;
[0044]
4)采用双patchgan结构的判别网络,通过对图像局部及全局特征损失的判断,保证了图像全局与局部特征的一致性;
[0045]
5)损失函数采用内容损失与对抗损失相结合的方式,保证了对生成图像的真假进行有效判别。
附图说明
[0046]
图1为本发明的方法流程图;
[0047]
图2为实施例中的网络结构示意图;
[0048]
图3为实施例中的残差模块示意图;
[0049]
图4为实施例中的卷积注意力机制模块示意图。
具体实施方式
[0050]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
[0051]
实施例
[0052]
如图1所示,本实施例给出了一种基于条件生成对抗网络的光学字符复原方法,该方法包括以下步骤:
[0053]
步骤s1、采集光学字符图像集,构建清晰-模糊光学字符图像对,具体为:
[0054]
本实施例需要模糊低质量光学字符图像与清晰光学字符图像组成的图像对,其中,模糊低质量光学字符图像包含100张真实模糊低质量光学字符图像和300张合成模糊低质量光学字符图像,合成模糊低质量光学字符图像由清晰光学字符图像与高斯模糊函数做
卷积生成,高斯模糊函数表达式为:
[0055][0056]
式中,c为归一化常量,δ2为决定图像模糊程度的模糊方差,x、y分别为图像的世界坐标。
[0057]
步骤s2、对步骤s1获取的清晰-模糊光学字符图像对进行数据扩充,并划分为训练集和测试集,具体包括以下子步骤:
[0058]
步骤s21、光学字符图像集包括400对清晰-模糊光学字符图像对,随机裁剪图像尺寸为512
×
512;
[0059]
步骤s22、使用albumentations数据增强库对400对图像进行水平旋转、垂直旋转、旋转90度、行列转置、尺度缩放等操作将图像扩充到2000对;
[0060]
步骤s23、将扩充后的图像对打乱顺序后,划分为1600对与400对,分别作为训练集与测试集。
[0061]
步骤s3、构建条件生成对抗网络模型,并利用步骤s2得到的训练集进行网络训练,得到最优条件生成对抗网络模型;所述条件生成对抗网络包括生成网络与判别网络:
[0062]
1)生成网络为u-net结构,包括下采样和上采样;
[0063]
下采样之间对网络进行卷积操作,逐步提取图像深层次特征;卷积过程添加残差模块,提取图像深层特征同时缓解梯度消失问题;下采样的得到浅层特征经过卷积注意力机制模块cbam与深层特征进行特征融合;上采样包含卷积和反卷积操作,生成网络经过上采样最终输出与输入图像通道数相同的特征图像;
[0064]
具体的,如图2(a)所示,本实施例中生成网络包含4次下采样和4次上采样;设置输入图像尺寸为512
×
512,经过一次下采样图像尺寸减小一半,一次上采样图像尺寸扩大一倍,网络最终输出图像尺寸为512
×
512;
[0065]
每个下采样层包括两个卷积层及残差块,4次下采样分别包含3、5、9、3个残差块,如图3所示,残差模块中的每个残差块包含两个64
×
64的核卷积、两个正则化层和两个激活层;
[0066]
下采样提取的图像浅层特征经过空间注意力机制与上采样中提取的图像深层特征进行融合,具体为:
[0067]
向注意力机制cbam输入浅层特征图,经过注意力机制得到特征图与浅层特征做乘法操作,得到一个特征图像;将上述步骤得到的特征图输入空间注意力机制得到的新特征图,与前一步骤输出特征进行卷积乘法操作,得到最终输出特征;
[0068]
如图4所示,注意力机制cbam包含两个独立的子模块:通道注意力模块cam和空间注意力模块sam,具体为:
[0069]
通道注意力模块cam的输出表达式为:
[0070][0071]
式中,σ表示sigmoid函数,mlp代表多层感知机,avgpool与maxpool分别表示平均池化和最大池化,分别表示经平均池化与最大池化的结果,w0∈r
c*c/r
、w1∈r
c*c/r
分
别表示两层mlp的权重,r为中间通道reduction的比例。
[0072]
空间注意力模块sam的输出表达式为:
[0073][0074]
式中,f
7*7
表示7*7的卷积层,分别表示经平均池化与最大池化的结果。
[0075]
2)判别网络:通过判断生成图像与标签图像之间的差距,即损失函数的值来确定生成模型的生成图像真假程度;本实施例采用基于patchgan结构的双判别网络结构,包括全局判别网络与局部判别网络。
[0076]
全局判别网络如图2(b)所示,包括7个卷积层,将不走s1中的清晰图像与生成网络生成的图像输入至全局判别器中,判别网络根据输入的真假图像,输出权重反向传播对生成网络进行更新;
[0077]
局部判别网络如图2(c)所示,包括6个卷积层,通过将生成图像与真实图像随机裁剪局部小块,区分图像真假,反馈给生成网络。即从输出图像和真实图像中随机提取局部patch,判别输出图像的真实性。
[0078]
所述判别网络的整体损失函数表达式为:
[0079]
loss=l
cntglobal
+l
cntlobal
+l
global
+l
lobal
[0080]
式中,l
cntglobal
、l
cntlobal
分别为全局内容损失与局部内容损失,l
global
、l
lobal
分别为全局对抗损失与局部对抗损失;
[0081]
对于内容损失,采用输出与输入图像特征图的l2损失函数,表达式为:
[0082][0083]
其中,f1(i,j)为清晰图像特征图,f2(i,j)为输出图像特征图;
[0084]
对于对抗损失,函数表达式为:
[0085][0086]
式中,ib为模糊图像,g
θg
为生成网络,d
θd
为判别网络。
[0087]
将步骤s1得到的训练集图像输入到s2构造的条件生成对抗网络中,图像大小为512
×
512,设置学习率为0.001,使用adam优化算法,基于梯度下降法进行训练,当损失最小时,网络收敛。
[0088]
步骤s4、将需要复原的模糊低质量光学字符图像输入至训练好的网络对图像进行复原,得到清晰的光学字符图像。
[0089]
步骤s5、采用峰值信噪比psnr和结构相似性ssim指标对图像质量进行评估;若不通过,重复步骤s3~步骤s4,直至复原后光学字符图像的评估参数满足设定阈值条件。
[0090]
所述结构相似性ssim指标对图像质量进行评估具体为:分别从亮度、对比度和结构角度度量图像的结构相似性。
[0091]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利
要求的保护范围为准。
技术特征:1.一种基于条件生成对抗网络的光学字符复原方法,其特征在于,该方法包括以下步骤:步骤s1、采集光学字符图像集,并基于合成的模糊图像,构建清晰-模糊光学字符图像对;步骤s2、对步骤s1获取的清晰-模糊光学字符图像对进行数据扩充,将扩充后的清晰-模糊光学字符图像对划分为训练集和测试集;步骤s3、构建条件生成对抗网络模型,并利用步骤s2得到的训练集对网络进行训练,得到最优条件生成对抗网络模型;所述条件生成对抗网络模型包括基于u-net结构的生成网络和采用双patchgan结构的判别网络,分别用于生成清晰图像,以及用于进行对抗学习以训练生成网络;其中,所述清晰光学字符图像为条件生成对抗网络模型的标签,用于监督模型生成器生成的清晰图像;步骤s4、将步骤s2得到的测试集输入至最优条件生成对抗网络模型,进行图像复原,得到清晰的光学字符图像。2.根据权利要求1所述的一种基于条件生成对抗网络的光学字符复原方法,其特征在于,所述步骤s1包括以下子步骤:步骤s11、将采集到的光学字符图像按设定尺寸随机裁剪后作为清晰光学字符图像;步骤s12、采用高斯模糊函数对清晰光学字符图像进行卷积,得到合成的模糊光学字符图像,与清晰光学字符图像一起,构建清晰-模糊光学字符图像对。3.根据权利要求2所述的一种基于条件生成对抗网络的光学字符复原方法,其特征在于,所述步骤s12中的高斯模糊函数表达式为:式中,c为归一化常量,δ2为决定图像模糊程度的模糊方差,x、y分别为光学字符图像的世界坐标。4.根据权利要求1所述的一种基于条件生成对抗网络的光学字符复原方法,其特征在于,所述步骤s2包括以下子步骤:步骤s21、使用albumentations数据增强库对清晰-模糊光学字符图像对同时进行数据扩充;步骤s22、将扩充后的图像对打乱顺序后,按照设定比例划分为训练集与测试集。5.根据权利要求4所述的一种基于条件生成对抗网络的光学字符复原方法,其特征在于,所述步骤s21中的数据扩充包括水平旋转、垂直旋转、旋转90度、行列转置以及尺度缩放。6.根据权利要求1所述的一种基于条件生成对抗网络的光学字符复原方法,其特征在于,所述步骤s3中基于u-net结构的生成网络,包括下采样模块、上采样模块、残差模块和卷积注意力机制模块cbam,具体为:下采样模块:训练集经过k1次下采样输入至残差网络;残差网络:包括k2个残差块,每个残差块包含两个k3×
k3的核卷积,残差块之间通过最大池化连接;加深网络深度并减小参数数量;上采样模块:对应下采样模块,经过k1次上采样后,图像恢复至原始图像大小;
卷积注意力机制模块cbam:卷积层输出的结果,依次经过通道注意力模块cam和空间注意力模块sam,加权后输出最终结果,用于在u-net网络的特征融合过程是赋予浅层特征不同的权重。7.根据权利要求1所述的一种基于条件生成对抗网络的光学字符复原方法,其特征在于,所述步骤s3中基于patchgan结构的判别网络,包括局部鉴别网络和全局鉴别器网络;所述局部鉴别网络从输出图像和真实图像中随机提取局部patch,判别输出图像的真实性;所述判别网络采用对抗损失来最小化标签图像与输出图像之间的距离,进行网络训练。8.根据权利要求7所述的一种基于条件生成对抗网络的光学字符复原方法,其特征在于,所述判别网络的整体损失函数表达式为:loss=l
cntglobal
+l
cntlobal
+l
global
+l
lobal
式中,l
cntglobal
、l
cntlobal
分别为全局内容损失与局部内容损失,l
global
、l
lobal
分别为全局对抗损失与局部对抗损失;对于内容损失,采用输出与输入图像特征图的l2损失函数,表达式为:其中,f1(i,j)为清晰图像特征图,f2(i,j)为输出图像特征图;对于对抗损失,函数表达式为:式中,i
b
为模糊图像,g
θg
为生成网络,d
θd
为判别网络。9.根据权利要求1所述的一种基于条件生成对抗网络的光学字符复原方法,其特征在于,所述步骤s3中利用步骤s2得到的训练集进行网络训练,得到最优条件生成对抗网络模型,具体过程为:将步骤s2扩充生成的训练数据集输入构建的条件生成对抗网络,采用adam优化算法,以对抗学习的方式训练网络;其中,训练集为步骤s1获取的清晰-模糊光学字符图像对;清晰图像作为条件生成对抗网络模型的标签,用于监督模型生成清晰图像。10.根据权利要求1所述的一种基于条件生成对抗网络的光学字符复原方法,其特征在于,所述方法还包括步骤s5:采用峰值信噪比psnr和结构相似性ssim指标对图像质量进行评估;若不通过,重复步骤s3~步骤s4,直至复原后光学字符图像的评估参数满足设定阈值条件。
技术总结本发明涉及一种基于条件生成对抗网络的光学字符复原方法,该方法包括以下步骤:采集光学字符图像集,并基于合成的模糊图像,构建清晰-模糊光学字符图像对;对获取的清晰-模糊光学字符图像对进行数据扩充,将扩充后的清晰-模糊光学字符图像对划分为训练集和测试集;构建条件生成对抗网络模型,并利用训练集对网络进行训练,得到最优条件生成对抗网络模型;所述条件生成对抗网络模型包括基于U-Net结构的生成网络和采用双PatchGAN结构的判别网络;将测试集输入至最优条件生成对抗网络模型,进行图像复原,得到清晰的光学字符图像。与现有技术相比,本发明具有适应性强、复原图像准确性高的优点。准确性高的优点。准确性高的优点。
技术研发人员:马志程 张驯 李志茹 魏峰 朱小琴 白万荣 杨勇 张和慧
受保护的技术使用者:国网甘肃省电力公司电力科学研究院
技术研发日:2022.06.30
技术公布日:2022/11/1