一种轻量级复杂场景图像融合模型和实时图像融合方法

专利2025-07-17 29

本技术涉及图像处理，具体而言，涉及一种轻量级复杂场景图像融合模型和实时图像融合方法。

背景技术：

1、红外光图像和可见光图像的融合可以综合来自两种图像的有价值信息，从而更全面、更精确地呈现场景，因此，被广泛应用于物体检测、语义分割和自动驾驶等应用场景中。

2、现有的针对复杂场景（例如恶劣天气、弱光环境、噪声环境等）的红外光图像和可见光图像融合方法，一般采用两个阶段的学习过程，首先分别处理图像修复和融合任务，然后对它们进行交互式优化，这种方法存在以下问题：

3、1）容易出现误差累积，图像修复阶段的残留干扰像素或细节损失容易传播到融合阶段。现有的融合模型通常是在理想条件下训练出来的，可能会将这些干扰特征误解为有价值的特征，从而可能加剧这些问题。例如，在图像复原任务中，模糊场景信息的雨滴纹理可能会在融合过程中被错误地增强为突出特征。

4、2）引入错误或虚假特征。红外光图像与可见光图像融合试图利用不同模态图像进行互补优势，但在低照度条件下，可见光模态捕获的信息极少，主要依靠红外图像，使用弱光增强算法进行预处理可能会无意中引入可见光图像中的虚假或错误特征。

5、3）模型参数多和计算复杂，推理成本较高，处理效率较低。

技术实现思路

1、本技术的目的在于提供一种轻量级复杂场景图像融合模型和实时图像融合方法，能够在复杂因素干扰下有效捕获不同模态图像的显著像素信息，提高融合图像的质量，且图像处理效率高。

2、第一方面，本技术提供了一种轻量级复杂场景图像融合模型，包括第一输入层，由第一卷积层、第一relu激活函数层和频域融合模块依次连接而成的频域通道，由第二卷积层、第二relu激活函数层和空间域融合模块依次连接而成的空间域通道，第三卷积层，第三relu激活函数层以及第一输出层；所述第一输入层用于输入相互配准的红外光图像和可见光图像，所述频域通道的输入端以及所述空间域通道的输入端均与所述第一输入层的输出端连接，所述第三卷积层和所述第三relu激活函数层前后连接，所述频域通道的输出和所述空间域通道的输出逐元素相加后输入所述第三卷积层，所述第三relu激活函数层的输出与所述第一输入层的输出逐元素相加后输入所述第一输出层；

3、所述频域融合模块用于对所述第一relu激活函数层输出的红外光特征图和可见光特征图进行傅里叶变换得到红外光相位谱、红外光振幅谱、可见光相位谱和可见光振幅谱，利用所述红外光振幅谱引导所述可见光振幅谱进行振幅恢复，并利用所述可见光相位谱引导所述红外光相位谱进行相位恢复，以及利用所述红外光相位谱、所述红外光振幅谱、所述可见光相位谱、所述可见光振幅谱、振幅恢复后的可见光振幅谱以及相位恢复后的红外光相位谱生成频域通道融合特征图；

4、所述空间域融合模块用于对所述第二relu激活函数层输出的红外光特征图和可见光特征图进行稀疏特征提取和融合，生成空间域通道融合特征图。

5、该轻量级复杂场景图像融合模型在频域内利用两种模态图像的互补能力来引导网络学习，即使在像素干扰严重的情况下，也能够提取关键的特征信息，同时，采用空间域分支来提高局部细节分辨率，解决频域分析固有的潜在遗漏问题，从而能够在复杂因素干扰下有效捕获不同模态图像的显著像素信息，提高融合图像的质量；此外，模型结构简单，计算效率高，图像处理效率高。

6、优选地，所述频域融合模块包括第二输入层、第三输入层、傅里叶变换模块、引导网络、逆傅里叶变换模块、第一卷积块和第二输出层；

7、所述第二输入层和所述第三输入层分别用于输入所述第一relu激活函数层输出的可见光特征图和红外光特征图，所述第二输入层的输出端和所述第三输入层的输出端均与所述傅里叶变换模块的输入端连接；

8、所述傅里叶变换模块用于对所述第一relu激活函数层输出的红外光特征图和可见光特征图进行傅里叶变换得到红外光相位谱、红外光振幅谱、可见光相位谱和可见光振幅谱后，输入所述引导网络；

9、所述引导网络用于利用所述红外光振幅谱引导所述可见光振幅谱进行振幅恢复，并利用所述可见光相位谱引导所述红外光相位谱进行相位恢复，以及利用所述红外光相位谱、所述红外光振幅谱、所述可见光相位谱、所述可见光振幅谱、振幅恢复后的可见光振幅谱以及相位恢复后的红外光相位谱生成融合频域特征，把所述融合频域特征输入所述逆傅里叶变换模块；

10、所述逆傅里叶变换模块用于通过傅里叶逆变换把所述融合频域特征转换为空间域特征图，并输入所述第一卷积块；

11、所述第一卷积块用于对所述空间域特征图进行卷积处理得到频域通道融合特征图，并输入所述第二输出层。

12、由于受恶劣天气、弱光环境、噪声环境等干扰而退化的图像中，退化像素的表示空间通常仅限于图像的振幅，此外，相比于振幅谱，相位谱表示信号的相对位置或偏移，主要包含了图像的结构信息；在图像融合过程中，利用受干扰影响较小的红外光振幅谱来引导可见光振幅谱进行恢复，可以有效降低干扰信息对融合结果的影响，此外，利用可见光相位谱引导红外光相位谱进行相位恢复，可以使融合结果保留更多有价值的细节信息。

13、优选地，所述引导网络包括深度频域滤波模块、局部注意力模块、第四卷积层、第五卷积层、第六卷积层和第七卷积层；

14、所述红外光振幅谱输入所述深度频域滤波模块，得到所述深度频域滤波模块输出的第一引导注意力图，所述第一引导注意力图与所述可见光振幅谱逐元素相乘得到振幅恢复后的可见光振幅谱，所述振幅恢复后的可见光振幅谱输入所述第五卷积层，所述第五卷积层的输出与所述可见光振幅谱逐元素相加得到可见光振幅特征；

15、所述可见光相位谱输入所述第四卷积层，得到所述第四卷积层输出的可见光相位特征；

16、所述可见光振幅特征和所述可见光相位特征结合生成可见光频域特征；

17、所述可见光相位谱还输入所述局部注意力模块，得到所述局部注意力模块输出的第二引导注意力图，所述第二引导注意力图与所述红外光相位谱逐元素相乘得到相位恢复后的红外光相位谱，所述相位恢复后的红外光相位谱输入所述第六卷积层，所述第六卷积层的输出与所述红外光相位谱逐元素相加得到红外光相位特征；

18、所述红外光振幅谱还输入所述第七卷积层，得到所述第七卷积层输出的红外光振幅特征；

19、所述红外光振幅特征和所述红外光相位特征结合生成红外光频域特征；

20、所述可见光频域特征和所述红外光频域特征相加得到所述融合频域特征。

21、利用深度频域滤波模块来生成第一引导注意力图用以引导可见光振幅谱进行振幅恢复，可以增强可转移频率分量和抑制潜空间中不利于泛化的频率成分；利用局部注意力模块来生成第二引导注意力图用以引导红外光相位谱进行相位恢复，可以更好地提取红外光图像中的弱纹理信息。

22、优选地，所述第一卷积块包括从前到后依次连接的第八卷积层、第四relu激活函数层、第九卷积层、第五relu激活函数层、第十卷积层和第一sigmoid激活函数层。

23、优选地，所述深度频域滤波模块包括第十一卷积层、bn层、第六relu激活函数层、第一最大池化层、全局平均池化层、第十二卷积层和第二sigmoid激活函数层；

24、所述第十一卷积层、所述bn层和所述第六relu激活函数层依次连接，且所述第十一卷积层的输入端作为所述深度频域滤波模块的输入端；所述第十二卷积层和所述第二sigmoid激活函数层依次连接；所述第六relu激活函数层的输出端分别与所述第一最大池化层的输入端和所述全局平均池化层的输入端连接，所述第一最大池化层的输出端和所述全局平均池化层的输出端进行通道级联后与所述第十二卷积层的输入端连接；所述第六relu激活函数层的输出与所述第二sigmoid激活函数层的输出逐元素相乘后作为所述深度频域滤波模块的输出。

25、优选地，所述局部注意力模块包括前后连接的第二最大池化层和第三sigmoid激活函数层。

26、优选地，所述空间域融合模块包括前后连接的第四输入层和第十三卷积层，前后连接的第五输入层和第十四卷积层，从前到后依次连接的第三最大池化层、第十五卷积层和第七relu激活函数层，由若干个第二卷积块串联而成的卷积通路，以及第三输出层；

27、所述第十三卷积层的输出和所述第十四卷积层的输出逐元素相加得到第一融合特征图，所述第一融合特征图输入所述第三最大池化层，所述第七relu激活函数层的输出与所述第一融合特征图逐元素相乘得到第二融合特征图，所述第二融合特征图输入所述卷积通路，所述卷积通路的输出与所述第二融合特征图逐元素相加后输入所述第三输出层。

28、优选地，所述卷积通路包括三个所述第二卷积块，所述第二卷积块包括前后连接的第十六卷积层和第八relu激活函数层。

29、第二方面，本技术提供了一种实时图像融合方法，包括步骤：

30、a1.构建初始的轻量级复杂场景图像融合模型；所述初始的轻量级复杂场景图像融合模型为前文所述的轻量级复杂场景图像融合模型；

31、a2.对所述初始的轻量级复杂场景图像融合模型进行训练，得到训练后的轻量级复杂场景图像融合模型；

32、a3.把相互配准的待融合红外光图像和待融合可见光图像输入所述训练后的轻量级复杂场景图像融合模型，得到所述训练后的轻量级复杂场景图像融合模型输出的融合图像。

33、优选地，步骤a2中，基于以下总损失函数对所述初始的轻量级复杂场景图像融合模型进行训练：

34、；

35、；

36、；

37、其中，为总损失函数，为空间域损失函数，为频域损失函数，为所述初始的轻量级复杂场景图像融合模型的输出图像，为输入所述初始的轻量级复杂场景图像融合模型的训练样本中的红外光图像，为输入所述初始的轻量级复杂场景图像融合模型的训练样本中的可见光图像，表示快速傅里叶变换操作。

38、有益效果：本技术提供的轻量级复杂场景图像融合模型和实时图像融合方法，在频域内利用两种模态图像的互补能力来引导网络学习，即使在像素干扰严重的情况下，也能够提取关键的特征信息，同时，采用空间域分支来提高局部细节分辨率，解决频域分析固有的潜在遗漏问题，从而能够在复杂因素干扰下有效捕获不同模态图像的显著像素信息，提高融合图像的质量；此外，模型结构简单，计算效率高，图像处理效率高。

技术特征：

1.一种轻量级复杂场景图像融合模型，其特征在于，包括第一输入层（1），由第一卷积层（2）、第一relu激活函数层（3）和频域融合模块（4）依次连接而成的频域通道，由第二卷积层（5）、第二relu激活函数层（6）和空间域融合模块（7）依次连接而成的空间域通道，第三卷积层（8），第三relu激活函数层（9）以及第一输出层（10）；所述第一输入层（1）用于输入相互配准的红外光图像和可见光图像，所述频域通道的输入端以及所述空间域通道的输入端均与所述第一输入层（1）的输出端连接，所述第三卷积层（8）和所述第三relu激活函数层（9）前后连接，所述频域通道的输出和所述空间域通道的输出逐元素相加后输入所述第三卷积层（8），所述第三relu激活函数层（9）的输出与所述第一输入层（1）的输出逐元素相加后输入所述第一输出层（10）；

2.根据权利要求1所述的轻量级复杂场景图像融合模型，其特征在于，所述频域融合模块（4）包括第二输入层（401）、第三输入层（402）、傅里叶变换模块（403）、引导网络（404）、逆傅里叶变换模块（405）、第一卷积块（406）和第二输出层（407）；

3.根据权利要求2所述的轻量级复杂场景图像融合模型，其特征在于，所述引导网络（404）包括深度频域滤波模块（11）、局部注意力模块（12）、第四卷积层（13）、第五卷积层（14）、第六卷积层（15）和第七卷积层（16）；

4.根据权利要求2所述的轻量级复杂场景图像融合模型，其特征在于，所述第一卷积块（406）包括从前到后依次连接的第八卷积层（17）、第四relu激活函数层（18）、第九卷积层（19）、第五relu激活函数层（20）、第十卷积层（21）和第一sigmoid激活函数层（22）。

5.根据权利要求3所述的轻量级复杂场景图像融合模型，其特征在于，所述深度频域滤波模块（11）包括第十一卷积层（1101）、bn层（1102）、第六relu激活函数层（1103）、第一最大池化层（1104）、全局平均池化层（1105）、第十二卷积层（1106）和第二sigmoid激活函数层（1107）；

6.根据权利要求3所述的轻量级复杂场景图像融合模型，其特征在于，所述局部注意力模块（12）包括前后连接的第二最大池化层（1201）和第三sigmoid激活函数层（1202）。

7.根据权利要求1所述的轻量级复杂场景图像融合模型，其特征在于，所述空间域融合模块（7）包括前后连接的第四输入层（701）和第十三卷积层（702），前后连接的第五输入层（703）和第十四卷积层（704），从前到后依次连接的第三最大池化层（705）、第十五卷积层（706）和第七relu激活函数（707）层，由若干个第二卷积块（708）串联而成的卷积通路（709），以及第三输出层（710）；

8.根据权利要求7所述的轻量级复杂场景图像融合模型，其特征在于，所述卷积通路（709）包括三个所述第二卷积块（708），所述第二卷积块（708）包括前后连接的第十六卷积层（7081）和第八relu激活函数层（7082）。

9.一种实时图像融合方法，其特征在于，包括步骤：

10.根据权利要求9所述的实时图像融合方法，其特征在于，步骤a2中，基于以下总损失函数对所述初始的轻量级复杂场景图像融合模型进行训练：

技术总结
本申请属于图像处理技术领域，公开了一种轻量级复杂场景图像融合模型和实时图像融合方法，在频域内利用两种模态图像的互补能力来引导网络学习，即使在像素干扰严重的情况下，也能够提取关键的特征信息，同时，采用空间域分支来提高局部细节分辨率，解决频域分析固有的潜在遗漏问题，从而能够在复杂因素干扰下有效捕获不同模态图像的显著像素信息，提高融合图像的质量；此外，模型结构简单，计算效率高，图像处理效率高。

技术研发人员：李小松,黎熹来,王晓磐,谭海曙,李浩宇
受保护的技术使用者：佛山大学
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-15966.html

专利

最新回复(0)