基于ViT-Pix2Pix的光学图像翻译方法

专利2024-04-15  103


基于vit-pix2pix的光学图像翻译方法
技术领域
1.本发明涉及图像翻译技术领域,尤其涉及一种基于vit-pix2pix的光学图像翻译方法。


背景技术:

2.合成孔径雷达(synthetic aperture radar,sar)是一种高分辨率成像雷达,具有全天时、全天候的工作能力,可以在能见度极低的气象条件下得到高分辨率雷达图像,这一点是光学遥感难以实现的。因此,sar图像在很多领域都有不同替代的作用。但是sar与光学遥感截然不同的成像原理,使得sar图像不如光学图像直观,数据解释较为困难。在sar数据解析需求量与日俱增的情况下,就需要一种能够将输入sar图像转换为光学的输出图像,辅助原始数据的判断。
3.现有技术中,由于sar图像和光学图像中的信息内容是部分重叠和部分不相容的,即两个传感器只能观察到一部分信息,而每个传感器都观察到另一个传感器观察不到的其他信息,导致sar图像到光学图像的翻译任务不能够全面且高质量的实现。
4.因此,亟需一种能够生成高质量图像的sar图像到光学图像的翻译方法。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种基于vit-pix2pix的光学图像翻译方法。
6.一种基于vit-pix2pix的光学图像翻译方法,包括以下步骤:获取待测sar图像;构建初始目标翻译网络模型,并通过成对的sar图像和光学图像对所述初始目标翻译网络模型进行参数优化,获取目标翻译网络模型,所述目标翻译网络模型为vision transformer与pix2pix相结合的模型,包括有生成器和判别器,其中,所述生成器用于将sar图像翻译为伪光学图像,所述判别器用于判断输入光学图像是否为所述sar图像匹配的真光学图像,所述生成器和判别器以对抗的形式完成神经网络训练优化;将所述待测sar图像输入所述目标翻译网络模型,获取目标光学图像。
7.在其中一个实施例中,所述构建初始目标翻译网络,并通过成对的sar图像和光学图像对所述初始目标翻译网络进行参数优化,获取目标翻译网络,具体包括:以pix2pix为基础模型,结合vision transformer,形成vit-pix2pix初始目标翻译网络模型;通过成对的sar图像和光学图像,对所述初始目标翻译网络模型进行参数优化;将sar图像输入生成器,输出与所述sar图像对应的伪光学图像;对sar图像与真光学图像、sar图像与伪光学图像对进行数据增强;将数据增强后的图像对输入判别器,通过判别器将图像对分割为固定大小且互不重叠的小块,并展平为线性嵌入进行处理,输出光学图像为真实图像且与sar图像匹配的概率;通过交叉熵损失函数、l1损失函数与平衡一致性正则化方法,对生成器和判别器进行参数优化,得到目标翻译模型。
8.在其中一个实施例中,所述将sar图像输入生成器,输出与所述sar图像对应的伪
光学图像,具体包括:获取作为训练样本的sar图像与对应的真光学图像,作为图像对;将所述图像对输入生成器,通过所述生成器进行特征提取,获取伪光学图像,所述生成器为u-net。
9.在其中一个实施例中,所述生成器的训练优化具体包括:根据所述sar图像、真光学图像和伪光学图像,分别计算真光学图像和伪光学图像的l1损失,及生成器应用的分类损失,公式为:
10.l
l1
(g)=e
x,y
[||y-g(x)||1]
[0011]
l
cgan
(g)=-e
x
[logd(x,g(x))]
[0012]
式中,x表示sar图像,g表示由sar图像生成光学图像的生成器,g(x)表示生成器生成的伪光学图像,y表示真光学图像,||
·
||1表示求两个图像对应像素之间的差值的绝对值之和,e
x,y
[
·
]代表对所有的图像对(x,y)计算损失后的期望,得到最终的损失,e
x
[
·
]表示对sar图像计算损失后的期望;根据所述l1损失和分类损失,计算所述生成器的总损失为:
[0013]
l(g)=l
cgan
(g)+λ
l1
l
l1
(g)
[0014]
式中,λ
l1
为可设置的超参数;根据生成器的总损失,采用反向传播算法更新生成器的神经网络训练参数,实现对生成器的优化。
[0015]
在其中一个实施例中,所述判别器的训练优化具体包括:将所述图像对输入vision transformer网络模型,判别光学图像的真伪和图像对中的两张图像是否匹配;将所述图像对中的两张图像合并为多通道的输入,并分割成固定尺寸、互不重叠的小块,经全连接层得到线性排列的嵌入,并在序列开头添加分类符号;对线性排列的嵌入添加位置信息编码后,在改进自我注意力层的transformer编码器中完成处理;将分类符号的输出特征输入多层感知器完成判别,获取真光学图像和伪光学图像。
[0016]
在其中一个实施例中,所述vision transformer网络模型的自我注意力层改进,具体包括:采用l2距离代替自我注意力过程中的点积运算,并用于查询和输入自我注意的投影矩阵的权重绑定,改进的自我注意力层计算为:
[0017][0018]
式中,wq=wk,wq、wk和wv分别是查询、键和值的投影矩阵,d(
·

·
)计算两组点之间的矢量化l2距离,是每个头部的特征尺寸;采用谱归一化方法,对改进后的vision transformer网络模型进行优化。
[0019]
在其中一个实施例中,所述判别器训练过程中产生的分类损失为:将改进后的vision transformer网络模型应用到判别器中,根据判别器的判断结果的正确或错误,得到真光学图像或伪光学图像间的分类损失:
[0020]
l
cgan
(d)=-e
x,y
[logd(x,y)]-e
x
[1-logd(x,g(x))]
[0021]
式中,d(x,y)代表将x,y输入判别器d,得到判别结果;d(x,g(x))代表将x,g(x)输入判别器d,得到判别结果;g(x)为x输入生成器生成的伪光学图像;对所有sar图像正确的判断结果取期望,得到光学图像间的分类损失。
[0022]
在其中一个实施例中,采用平衡一致性正则化方法,得到判别器的l2损失,具体包
括:对sar图像与伪光学图像对、sar图像与真实光学图像对分别进行数据增强,将数据增强后的图像对输入改进后的vision transformer网络模型;采用l2损失要求数据增强后的图像对输出结果与为增强的结果一致,公式为:
[0023]
l
bcr_fake
=||d(x,g(x))-d(t(x,g(x)))||2[0024]
l
bcr_real
=||d(x,y)-d(t(x,y))||2[0025]
式中,x代表sar图像,g代表由sar图像生成光学图像的生成器,g(x)代表生成器生成的伪光学图像,y代表真实光学图像,d代表输入sar图像与光学图像对的判别器,d(x,g(x))与d(x,y)分别代表sar图像与伪光学图像对、sar图像与真实光学图像对输入判别器的结果,t代表数据增强的变换,||
·
||2代表求两个图像对应像素之间的最小平方误差。
[0026]
在其中一个实施例中,根据分类损失和平衡一致性正则化方法,计算得到判别器的总损失,公式为:
[0027]
l(d)=l
cgan
(d)+λ
bcr_fake
l
bcr_fake

bcr_real
l
bcr_real
[0028]
式中,λ
bcr_fake
、λ
bcr_real
为可设置的超参数;根据所述总损失,采用反向传播算法更新神经网络训练参数,实现判别器的优化。
[0029]
相比于现有技术,本发明的优点及有益效果在于:本发明通过获取待测sar图像,构建初始目标翻译网络模型,并通过成对的sar图像和关系各部图像对初始目标翻译网络模型进行参数优化,获取目标翻译网络模型,目标翻译网络模型为vision transformer与pix2pix相结合的模型,包括有生成器和判别器,其中生成器用于将sar图像翻译为伪光学图像,判别器用于判断输入光学图像是否为sar图像匹配的真实光学图像,生成器和判别器以对抗的形式完成神经网络训练优化;将待测sar图像输入目标翻译网络模型,获取目标光学图像,能够考虑到图像的整体结构信息,更为精确地识别光学图像的真伪,生成较为清晰的光学图像,辅助sar图像的解译,提高了生成图像的质量和判别器的性能,也保证了网络训练的稳定性。
附图说明
[0030]
图1为一个实施例中一种基于vit-pix2pix的光学图像翻译方法的流程示意图:
[0031]
图2为一个实施例中sar图像到光学图像的流程示意图;
[0032]
图3为一个实施例中vision transformer网络模型的结构示意图;
[0033]
图4为一个实施例中vision transformer网络模型自我注意力层的改进方案示意图。
具体实施方式
[0034]
为了使本发明的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本发明做进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0035]
在一个实施例中,如图1至图4所示,提供了一种基于vit-pix2pix的光学图像翻译方法,包括以下步骤:
[0036]
步骤s101,获取待测sar图像。
[0037]
具体地,通过合成孔径雷达获取待测sar图像,用于后续进行sar图像到光学图像
的翻译,同时获取若干样本sar图像和对应的真光学图像,用于对初始目标翻译网络模型进行训练。
[0038]
步骤s102,构建初始目标翻译网络模型,并通过成对的sar图像和光学图像对初始目标翻译网络模型进行参数优化,获取目标翻译网络模型,目标翻译网络模型为vision transformer与pix2pix相结合的模型,包括有生成器和判别器,其中,生成器用于将sar图像翻译为伪光学图像,判别器用于判断输入光学图像是否为sar图像匹配的真光学图像,生成器和判别器以对抗的形式完成神经网络训练优化。
[0039]
具体地,基于vision transformer与pix2pix构建初始目标翻译网络模型,以pix2pix为基础模型,考虑到图像的整体结构信息,生成图像较为清晰,模型能够根据具体任务和数据进行学习损失,适用于多种设置;其中判别器使用vision transformer,根据生成对抗网络的收敛条件应用谱归一化方法并改进vision transformer的自我注意力层,同时应用平衡一致性正则化方法,使训练稳定性提升;vision transformer自我注意力架构相较于卷积架构具有更好的效果,提升了判别器的性能,从而提高光学图像真伪判别的准确性,在与生成器对抗的过程中促使生成器生成更真实的伪光学图像,从而辅助sar图像的解译。
[0040]
其中,步骤s102具体包括:以pix2pix为基础模型,结合vision transformer,形成vit-pix2pix初始目标翻译网络模型;通过成对的sar图像和光学图像,对初始目标翻译网络模型进行参数优化;将sar图像输入生成器,输出与sar图像对应的伪光学图像;对sar图像与真光学图像、sar图像与伪光学图像对进行数据增强;将数据增强后的图像对输入判别器,通过判别器将图像对分割为固定大小且互不重叠的小块,并展平为线性嵌入进行处理,输出光学图像为真实图像且与sar图像匹配的概率;通过交叉熵损失函数、l1损失函数与平衡一致性正则化方法,对生成器和判别器进行参数优化,得到目标翻译模型。
[0041]
具体地,为实现sar图像到光学图像的翻译,以pix2pix为基础模型,结合vision transformer,形成vit-pix2pix初始目标翻译网络模型,并通过成对的sar图像和光学图像对初始目标翻译网络进行参数优化,首先,将sar图像输入生成器,输出与sar图像对应的伪光学图像;对sar图像与真光学图像对、sar图像与伪光学图像对进行数据增强,并将图像对输入到判别器中,通过改进的vi与将图像对分割为固定大小、互不重叠的小块,并展平为线性嵌入进行处理,输出光学图像为真实图像且与sar图像匹配的概率;通过交叉熵损失函数、l1损失函数与平衡一致性正则化方法,对生成器和判别器进行参数优化,得到目标翻译网络模型,通过将待测sar图像输入目标翻译网络,得到目标光学图像。
[0042]
应当理解的是,上述优化步骤是迭代的,生成器的目标函数要求尽可能地生成与真实情况接近的伪光学图像,而判别器的目标函数要求尽可能地判断出输入光学图像为生成器生成的伪光学图像或真光学图像,两者间的零和博弈使得模型逐渐趋于最优。
[0043]
其中,将sar图像输入生成器,输出与sar图像对应的伪光学图像,具体包括:获取作为训练样本的sar图像与对应的真光学图像,作为图像对;将图像对输入生成器,通过生成器进行特征提取,获取伪光学图像,生成器为u-net。
[0044]
具体地,获取作为训练样本的sar图像和对应的真光学图像,作为图像对,并将成对的sar图像和真光学图像输入适应层数的u-net,进行特征提取,获取sar图像对应的伪光学图像。其中,生成器模型的选择可以采用现有任意方式,只需满足输入原始图像能够输出
对应的伪光学图像即可。
[0045]
本实施例中的判别器是根据具体的任务和数据来学习损失,相较于基于卷积架构的判别器具有参数高效性,且判别效果较好。
[0046]
其中,在对判别器进行训练优化时,具体包括:将图像对输入vision transformer网络模型,判别光学图像的真伪和图像对中的两张图像是否匹配;将图像对中的两张图像合并为多通道的输入,并分割为固定尺寸、互不重叠的小块,经全连接层得到线性排列的嵌入,并在序列开头添加分类符号;对线性排列的嵌入添加位置信息编码后,在改进自我注意力层的transformer编码器中完成处理;将分类符号的输出特征输入多层感知判别器完成判别,获取真光学图像和伪光学图像。
[0047]
具体地,将匹配的sar图像与光学图像成对组合,输入vision transformer网络模型,判别光学图像的真伪以及输入的两张图像是否匹配,具体而言,将两张图像合并为多通道的输入,分割成固定尺寸、互不重叠的小块,经全连接层得到线性排列的嵌入,并在序列开头加上一个特殊的分类符号,用于后续的判别,类似于自然语言处理领域对符号的处理,判别器给线性排列的嵌入加上位置信息编码,在改进了自我注意力层的vision transformer网络模型中完成处理,然后取分类符号的输出特征输入多层感知器完成判别,即分出真伪光学图像两类,获取真光学图像和伪光学图像。
[0048]
其中,vision transformer网络模型的自我注意力层改进,具体包括:采用l2距离代替自我注意力过程中的点积运算,并用于查询和输入自我注意的投影矩阵的权重绑定,改进的自我注意力层计算为:
[0049][0050]
式中,wq=wk,wq、wk和wv分别是查询、键和值的投影矩阵,d(
·

·
)计算两组点之间的矢量化l2距离,是每个头部的特征尺寸;采用谱归一化方法,对改进后的vision transformer网络模型进行优化。
[0051]
具体地,vision transformer网络模型的自我注意力层的改进方案如图4所示,利普希茨连续条件连续性影响着判别器最优判别函数的存在以及位移纳什均衡的存在,而在标准点积自我注意力层的利普希茨连续条件常数可能是无界的,使得vision transformer网络模型中的利普希茨连续性遭到破坏。为了加强判别器的利普希茨连续性,采用l2距离代替vision transformer网络模型自我注意力过程中的点积运算,并将用于查询和输入自我注意力的投影矩阵的权重绑定,获取改进自我注意力层的vision transformer网络模型。
[0052]
同理,对vision transformer网络模型应用谱归一化方法进一步增强利普希茨连续性,提高vision transformer网络模型在生成对抗网络训练中的稳定性。
[0053]
其中,判别器训练过程中的分类损失为:将改进后的vision transformer网络模型应用到判别器中,根据判别器的判断结果的正确或错误,得到真光学图像或伪光学图像间的分类损失:
[0054]
l
cgan
(d)=-e
x,y
[logd(x,y)]-e
x
[1-logd(x,g(x))]
[0055]
式中,d(x,y)代表将x,y输入判别器d,得到判别结果;d(x,g(x))代表将x,g(x)输
入判别器d,得到判别结果;g(x)为x输入生成器生成的伪光学图像;对所有sar图像正确的判断结果取期望,得到光学图像间的分类损失。
[0056]
具体地,将改进的vision transformer网络模型应用为初始目标翻译网络模型中的判别器,根据判别器的判断的正确与否,得到真光学图像或伪光学图像的分类损失l
cgan
(d),然后对所有图像中对的判别结果取期望,得到光学图像间的分类损失。其中,损失函数的选择也可以根据具体需求进行调整,除本实施例所用的交叉熵函数外,还可以采用最小二乘损失、wasserstein(推土机距离)距离等损失函数。
[0057]
需要说明的是,根据零和博弈的思想,判别器需要尽可能正确地判断输入图像是真光学图像或伪光学图像,与此同时,生成器则需要尽可能生成接近真实的图像,从而使判别器判断错误,根据判别器的分类结果可以对生成器和判别器进行训练,因此,将这部分损失作为分类损失。
[0058]
对于判别器d来说,因为y是真实图像,所以d(x,y)应该尽量为1;同时因为g(x)是伪光学图像,所以d(x,g(x))应该尽量为0。当分类正确时,l
cgan
(d)会变小,反之则变大,从而指导判别器d进行训练。
[0059]
其中,采用平衡一致性正则化方法,得到判别器的l2损失,具体包括:对sar图像与伪光学图像对、sar图像与真实光学图像对分别进行数据增强,将数据增强后的图像对输入改进后的vision transformer网络模型;采用l2损失要求数据增强后的图像对输出结果与为增强的结果一致,公式为:
[0060]
l
bcr_fake
=||d(x,g(x))-d(t(x,g(x)))||2[0061]
l
bcr_real
=||d(x,y)-d(t(x,y))||2[0062]
式中,x代表sar图像,g代表由sar图像生成光学图像的生成器,g(x)代表生成器生成的伪光学图像,y代表真实光学图像,d代表输入sar图像与光学图像对的判别器,d(x,g(x))与d(x,y)分别代表sar图像与伪光学图像对、sar图像与真实光学图像对输入判别器的结果,t代表数据增强的变换,||
·
||2代表求两个图像对应像素之间的最小平方误差。
[0063]
具体地,考虑到成对的sar图像与光学图像数据集有限,为防止判别器在训练过程中过拟合,应用平衡一致性正则化方法,对sar图像与伪光学图像对、sar图像与真光学图像对分别实现数据增强,将数据增强后的图像对输入vision transformer网络模型,使得l2损失要求增强的图像对输出结果与未增强的结果一致。平衡一致性正则化方法要求要求应用于同一输入图像对的增强产生相同的输出,即l
bcr_fake
、l
bcr_real
尽可能小。
[0064]
其中,根据分类损失和平衡一致性正则化方法,计算得到判别器的总损失,公式为:
[0065]
l(d)=l
cgan
(d)+λ
bcr_fake
l
bcr_fake

bcr_real
l
bcr_real
[0066]
式中,λ
bcr_fake
、λ
bcr_real
为可设置的超参数;根据总损失,采用反向传播算法更新神经网络训练参数,实现判别器的优化。
[0067]
具体地,综合上述过程,根据判别器的分类损失和l2损失,计算得到判别器的总损失,并根据判别器的总损失,采用反向传播算法更新神经网络训练参数,实现对判别器的优化。此外,为了提高训练效率,可以实现在大型数据集中得到预训练模型。
[0068]
其中,生成器的训练优化具体包括:根据sar图像、真光学图像和伪光学图像,分别计算真光学图像和伪光学图像的l1损失,及生成器应用的分类损失,公式为:
[0069]
l
l1
(g)=e
x,y
[||y-g(x)||1]
[0070]
l
cgan
(g)=-e
x
[logd(x,g(x))]
[0071]
式中,x表示sar图像,g表示由sar图像生成光学图像的生成器,g(x)表示生成器生成的伪光学图像,y表示真光学图像,||
·
||1表示求两个图像对应像素之间的差值的绝对值之和,e
x,y
[
·
]代表对所有的图像对(x,y)计算损失后的期望,得到最终的损失,e
x
[
·
]表示对sar图像计算损失后的期望;根据l1损失和分类损失,计算所述生成器的总损失为:
[0072]
l(g)=l
cgan
(g)+λ
l1
l
l1
(g)
[0073]
式中,λ
l1
为可设置的超参数;根据生成器的总损失,采用反向传播算法更新生成器的神经网络训练参数,实现对生成器的优化。
[0074]
具体地,根据sar图像、真光学图像和伪光学图像,采用l1损失函数计算真光学图像和伪光学图像的l1损失,采用分类损失函数得到真光学图像或伪光学图像的分类损失,根据l1损失和分类损失计算得到生成器的总损失,并根据生成器的总损失,采用反向传播算法更新生成器的神经网络训练参数,实现对生成器的优化。
[0075]
其中,l1损失函数也成为最小绝对值偏差和绝对值损失函数,将目标值与估计值的绝对差值的总和最小化。其中,分类损失函数可以采用交叉熵损失函数。
[0076]
上述步骤是迭代进行的,通过不断迭代,实现对生成器和判别器的训练优化,得到最优的生成器和判别器。
[0077]
步骤s103,将待测sar图像输入目标翻译网络模型,获取目标光学图像。
[0078]
具体地,在目标翻译网络模型训练完成后,输入待测sar图像,生成对应的光学图像,该光学图像能够用于辅助sar图像的判读,或提供额外的信息。
[0079]
在本实施例中,通过获取待测sar图像,构建初始目标翻译网络模型,并通过成对的sar图像和关系各部图像对初始目标翻译网络模型进行参数优化,获取目标翻译网络模型,目标翻译网络模型为vision transformer与pix2pix相结合的模型,包括有生成器和判别器,其中生成器用于将sar图像翻译为伪光学图像,判别器用于判断输入光学图像是否为sar图像匹配的真实光学图像,生成器和判别器以对抗的形式完成神经网络训练优化;将待测sar图像输入目标翻译网络模型,获取目标光学图像,能够考虑到图像的整体结构信息,更为精确的识别光学图像的真伪,生成较为清晰的光学图像,辅助sar图像的解译,提高了生成图像的质量和判别器的性能,也保证了网络训练的稳定性。
[0080]
显然,本领域的技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在计算机存储介质(rom/ram、磁碟、光盘)中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以,本发明不限制于任何特定的硬件和软件结合。
[0081]
以上内容是结合具体的实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

技术特征:
1.一种基于vit-pix2pix的光学图像翻译方法,其特征在于,包括以下步骤:获取待测sar图像;构建初始目标翻译网络模型,并通过成对的sar图像和光学图像对所述初始目标翻译网络模型进行参数优化,获取目标翻译网络模型,所述目标翻译网络模型为vision transformer与pix2pix相结合的模型,包括有生成器和判别器,其中,所述生成器用于将sar图像翻译为伪光学图像,所述判别器用于判断输入光学图像是否为所述sar图像匹配的真光学图像,所述生成器和判别器以对抗的形式完成神经网络训练优化;将所述待测sar图像输入所述目标翻译网络模型,获取目标光学图像。2.根据权利要求1所述的基于vit-pix2pix的光学图像翻译方法,其特征在于,所述构建初始目标翻译网络,并通过成对的sar图像和光学图像对所述初始目标翻译网络进行参数优化,获取目标翻译网络,具体包括:以pix2pix为基础模型,结合vision transformer,形成vit-pix2pix初始目标翻译网络模型;通过成对的sar图像和光学图像,对所述初始目标翻译网络模型进行参数优化;将sar图像输入生成器,输出与所述sar图像对应的伪光学图像;对sar图像与真光学图像、sar图像与伪光学图像对进行数据增强;将数据增强后的图像对输入判别器,通过判别器将图像对分割为固定大小且互不重叠的小块,并展平为线性嵌入进行处理,输出光学图像为真实图像且与sar图像匹配的概率;通过交叉熵损失函数、l1损失函数与平衡一致性正则化方法,对生成器和判别器进行参数优化,得到目标翻译模型。3.根据权利要求2所述的基于vit-pix2pix的光学图像翻译方法,其特征在于,所述将sar图像输入生成器,输出与所述sar图像对应的伪光学图像,具体包括:获取作为训练样本的sar图像与对应的真光学图像,作为图像对;将所述图像对输入生成器,通过所述生成器进行特征提取,获取伪光学图像,所述生成器为u-net。4.根据权利要求3所述的基于vit-pix2pix的光学图像翻译方法,其特征在于,所述生成器的训练优化具体包括:根据所述sar图像、真光学图像和伪光学图像,分别计算真光学图像和伪光学图像的l1损失,及生成器应用的分类损失,公式为:l
l1
(g)=e
x,y
[||y-g(x)||1]l
cgan
(g)=-e
x
[logd(x,g(x))]式中,x表示sar图像,g表示由sar图像生成光学图像的生成器,g(x)表示生成器生成的伪光学图像,y表示真光学图像,‖
·
‖1表示求两个图像对应像素之间的差值的绝对值之和,e
x,y
[
·
]代表对所有的图像对(x,y)计算损失后的期望,得到最终的损失,e
x
[
·
]表示对sar图像计算损失后的期望;根据所述l1损失和分类损失,计算所述生成器的总损失为:l(g)=l
cgan
(g)+λ
l1
l
l1
(g)式中,λ
l1
为可设置的超参数;根据生成器的总损失,采用反向传播算法更新生成器的神经网络训练参数,实现对生
成器的优化。5.根据权利要求3所述的基于vit-pix2pix的光学图像翻译方法,其特征在于,所述判别器的训练优化具体包括:将所述图像对输入vision transformer网络模型,判别光学图像的真伪和图像对中的两张图像是否匹配;将所述图像对中的两张图像合并为多通道的输入,并分割成固定尺寸、互不重叠的小块,经全连接层得到线性排列的嵌入,并在序列开头添加分类符号;对线性排列的嵌入添加位置信息编码后,在改进自我注意力层的transformer编码器中完成处理;将分类符号的输出特征输入多层感知器完成判别,获取真光学图像和伪光学图像。6.根据权利要求5所述的基于vit-pix2pix的光学图像翻译方法,其特征在于,所述vision transformer网络模型的自我注意力层改进,具体包括:采用l2距离代替自我注意力过程中的点积运算,并用于查询和输入自我注意的投影矩阵的权重绑定,改进的自我注意力层计算为:式中,w
q
=w
k
,w
q
、w
k
和w
v
分别是查询、键和值的投影矩阵,d(
·
,
·
)计算两组点之间的矢量化l2距离,是每个头部的特征尺寸;采用谱归一化方法,对改进后的vision transformer网络模型进行优化。7.根据权利要求5所述的基于vit-pix2pix的光学图像翻译方法,其特征在于,所述判别器训练过程中产生的分类损失为:将改进后的vision transformer网络模型应用到判别器中,根据判别器的判断结果的正确或错误,得到真光学图像或伪光学图像间的分类损失:l
cgan
(d)=-e
x,y
[logd(x,y)]-e
x
[1-logd(x,g(x))]式中,d(x,y)代表将x,y输入判别器d,得到判别结果;d(x,g(x))代表将x,g(x)输入判别器d,得到判别结果;g(x)为x输入生成器生成的伪光学图像;对所有sar图像正确的判断结果取期望,得到光学图像间的分类损失。8.根据权利要求5所述的基于vit-pix2pix的光学图像翻译方法,其特征在于,采用平衡一致性正则化方法,得到判别器的l2损失,具体包括:对sar图像与伪光学图像对、sar图像与真实光学图像对分别进行数据增强,将数据增强后的图像对输入改进后的vision transformer网络模型;采用l2损失要求数据增强后的图像对输出结果与为增强的结果一致,公式为:l
bcr_fake
=||d(x,g(x))-d(t(x,g(x)))||2l
bcr_real
=||d(x,y)-d(t(x,y))||2式中,x代表sar图像,g代表由sar图像生成光学图像的生成器,g(x)代表生成器生成的伪光学图像,y代表真实光学图像,d代表输入sar图像与光学图像对的判别器,d(x,g(x))与d(x,y)分别代表sar图像与伪光学图像对、sar图像与真实光学图像对输入判别器的结果,t
代表数据增强的变换,‖
·
‖2代表求两个图像对应像素之间的最小平方误差。9.根据权利要求8所述的基于vit-pix2pix的光学图像翻译方法,其特征在于,根据分类损失和平衡一致性正则化方法,计算得到判别器的总损失,公式为:l(d)=l
cgan
(d)+λ
bcr_fake
l
bcr_fake

bcr_real
l
bcr_real
式中,λ
bcr_fake
、λ
bcr_real
为可设置的超参数;根据所述总损失,采用反向传播算法更新神经网络训练参数,实现判别器的优化。

技术总结
本发明提供一种基于ViT-Pix2Pix的光学图像翻译方法,包括:获取待测SAR图像;构建初始目标翻译网络模型,并通过成对的SAR图像和光学图像对初始目标翻译网络模型进行参数优化,获取目标翻译网络模型,目标翻译网络模型为Vision Transformer与Pix2Pix相结合的模型,包括有生成器和判别器,其中,生成器用于将SAR图像翻译为伪光学图像,判别器用于判断输入光学图像是否为SAR图像匹配的真光学图像,生成器和判别器以对抗的形式完成神经网络训练优化;将待测SAR图像输入目标翻译网络模型,获取目标光学图像。本发明能够提高判别器的性能,并确保网络模型训练的稳定性,提高了生成图像的质量。的质量。的质量。


技术研发人员:师皓 崔子涵 陈亮 方中昊 何成
受保护的技术使用者:北京理工大学重庆创新中心
技术研发日:2022.07.04
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-7790.html

最新回复(0)