一种基于MaskR-CNN的红外图像分割的方法

专利2026-02-24 43

本发明涉及计算机视觉领域，特别是涉及一种基于mask r-cnn的红外图像分割的方法。

背景技术：

1、红外图像分割是图像处理领域中的一个重要任务，它主要用于将红外图像中的目标物体从背景中分离出来，实现像素级别的分类，被广泛应用于疾病诊断、农业生产、智能驾驶和缺陷检测等领域。相比于可见光图像，红外图像利用物体发射的红外辐射成像，其受光照条件的影响较小，并且具有更强的抗干扰能力。因此，在一定程度上，红外图像可以弥补可见光图像在恶劣光照情况下性能下降的问题。

2、传统的红外图像分割方法包括匹配滤波、边缘检测、阈值分割等等，它们在特定的情况下可以取得不错的分割效果，但是传统的分割算法只局限于红外图像的表层特征，无法充分利用更深层的语义信息，在当今图像背景愈加复杂的场合中，应用效果往往不尽如人意。随着深度学习方法的不断发展，神经网络在红外图像分割领域渐渐得到应用，它可以解决传统的图像分割技术精确度低、应用环境苛刻等问题。但是由于红外图像整体分辨率较低，无法获得非常精确的图像细节信息，因此使用神经网络进行红外图像分割具有一定的挑战性。

技术实现思路

1、为了克服现有技术的不足，本发明提供一种基于mask r-cnn的红外图像分割的方法，模型的泛化能力强，具有更高的分割精度与更好的分割效果。

2、本发明所采用的的技术方案是：一种基于mask r-cnn的红外图像分割的方法，包括以下步骤：

3、步骤1，构建一个包含人、车、自行车和无人机四类目标的红外图像数据集，并将之划分为训练集和测试集；

4、步骤2，以mask r-cnn网络为基础架构，添加改进的注意力机制，并且设计新的回归框损失函数和掩膜损失函数替换原网络损失函数；

5、步骤3，使用训练集从头开始训练改进的mask r-cnn网络模型，得到最优参数；

6、步骤4，使用测试集对训练好的网络模型进行验证，得到最终的分割结果。

7、进一步地，步骤1中，构建一个包含人、车、自行车和无人机四类目标的红外图像数据集，并将之划分为训练集和测试集，具体如下：

8、使用la6110高性能非制冷红外机芯组件相机获取图像，拍摄的初始图像数据共有921张照片，经过数据标注、数据增强与数据清洗后扩增至2760张，按8：2的比例分为训练集和测试集，训练集图像为2208张，测试集数量为552张。

9、进一步地，步骤2中，以mask r-cnn网络为基础架构，添加改进的注意力机制，并且设计新的回归框损失函数和掩膜损失函数替换原网络损失函数，具体介绍如下：

10、本发明结合瓶颈结构对原始的sa注意力机制进行了优化，改进的注意力机制主要包含主卷积通道和注意力通道两个部分。注意力通道可以结构化为其中，up(·)是用来恢复注意力通道输出特征图尺寸的上采样函数，σ(·)表示修正线性单元函数，代表注意力通道fattn(·)的输出，而fattn(·)是由代表四个卷积层结构的ωattn决定的注意力卷积通道。此外还使用了平均池化函数apool(·)对输入特征图xin∈rc×h×w进行下采样。整体的改进的注意力机制可以公式化为：xout＝xattn*xres+xattn，其中，xout∈rc×h×w代表输出特征图结果，xres是主卷积通道的输出结果，xres＝f((xin)；ω)，f(·)表示由代表四个卷积层结构的ω决定的主卷积通道。

11、mask r-cnn网络模型包括主干网络、区域提议网络、感兴趣区域对齐模块和输出模块四个部分，其中，主干网络又包括残差网络和特征金字塔网络两个部分。改进的注意力模块被添加在mask r-cnn网络模型的主干网络部分，从残差网络输出的特征图会经过改进的注意力模块进行特征增强后再输入进特征金字塔网络，以此来提升整体网络对红外目标的分割性能。

12、在损失函数部分，首先本发明结合siou损失和focal损失设计了新的回归框损失函数。原始的回归框损失使用的是交叉熵损失函数，其可以由计算，其中ti是一个向量，表示预测输出的检测框与锚框之间的偏移量，是与ti维度一致的向量，代表了锚框与真实框之间的偏移量。

13、但是，实际上交叉熵损失函数只是简单的计算了预测的检测框和真实框之间的数值差异，当|x|≥1时，其对x的一阶导是一个常数，这会在训练后期影响损失值的下降，致使网络无法达到更好的收敛结果。为了解决这个问题，本发明结合siou损失和focal损失设计了focal_siou损失对原网络回归框损失函数进行替换。siou损失会提供给预测框一个迅速接近真实框的方向，以加速网络模型的收敛速度。它使用了交并比代价、角度代价、距离代价和形状代价四个惩罚项来指导损失值正确下降。具体来说，角度代价λ会促使预测框向着距离真实框最近的横/纵距离处移动，距离代价δ负责计算两个框的中心点之间的距离，受角度代价的影响较大，当角度代价减小时，距离代价也会相应减小，反之亦然。形状代价ω通过计算宽/高之差和最大宽/高之比来促进预测框在形状上更趋向于真实框。具体计算公式如下：角度代价：其中代表两个框中心点的距离，代表两个框中心点的纵轴坐标差，代表真实框中心坐标，代表预测框中心坐标。

14、距离代价：其中γ＝2-λ，cx和cy为真实框和预测框最小外接矩形的宽和高。

15、形状代价：其中，θ＝4，w和wgt分别为预测框和真实框的宽，h和hgt分别为预测框和真实框的高。

16、综合四个惩罚项，siou损失可以公式化为：此外，由于图像中前后景的不平衡性，更贴近于真实框的预测框在整体预测结果中占比很少，而回归精度高的预测框应该在模型训练过程中对梯度影响占有更大的比重，与之相对，还应该抑制回归效果差的预测框的损失值权重占比。为此，本发明结合focal损失的思想对siou损失进行优化，最终得到优化后的回归框损失函数focal_siou损失：lfocal-siou＝iouγlsiou，其中，γ负责调节低质量预测框的抑制程度，一般取值为0.5。

17、本发明还结合了dice损失和lovasz-sormax损失设计了新的掩膜损失函数。maskr-cnn网络中的掩膜预测分支根据感兴趣区域的结果进行分割结果预测，对每个感兴趣区域输出k张大小为m*m的掩模图，k代表该图像上检测到的目标的总类别数，m代表掩膜图的尺寸，一般设置为28。每张掩膜图上都只有同一类目标的预测掩膜结果，对于类别为k的物体，只需要使用第k张掩膜图与其真实掩膜值进行损失计算，有效避免了类间竞争的问题。可以说mask r-cnn网络中的掩膜分支将多分类损失计算问题转化为了多个二分类损失计算问题。因此，其掩膜损失使用了平均二进制交叉熵损失，具体计算公式如下：其中，i表示掩模图中像素的索引，xi∈(0，1)，由输出的掩膜像素值经过sigmoid函数变换而来，yi∈{0，1}表示当前掩膜像素的正负样本值。1k意为对于类别为k的目标，只计算第k张掩模图与真实值之间的损失，当类别为k时其值取1，当类别不为k时其值置为0。

18、平均二进制交叉熵损失本质上是逐像素的损失计算函数，它主要是从图像中的局部信息出发来进行损失计算。但当图像中出现前后景极不均衡或分割目标大小差距过大的情况时，平均二进制交叉熵损失会趋向于学习背景或是较小的目标而提供错误的分割结果。而dice损失从全局角度出发，它趋向于学习目标更大的样本且不受前后景比例的影响，与平均二进制交叉熵损失形成了互补关系，其公式可以表示为：

19、除此之外，由于平均二进制交叉熵损失和dice损失皆偏向于学习正确分类的掩膜分割结果，本发明还加入了lovasz-softmax损失补充学习错误分类情况下的差异特征。lovasz-softmax损失利用了lovasz扩展，将生成的预测概率分布结果扩展为属于不同类别的有序子集来计算损失。具体来说，定义为预测标签，定义为真实标签，则预测标签和真实标签之间的iou损失可以公式化为：lovasz-softmax损失函数作为iou损失的差分替代方案，可以公式化为：其中，代表预测结果的误差函数，ci∈{0，1}为k类像素i的预测标签，g(xi，yi)＝δ(si，y)-δ(si-1，y)，si是xi对应的segmented pixels的有序集合，xi按照的方式进行排序，si根据排序结果排序与xi相对应的ci，即si＝{c(i＝0)，c(i＝1)，…，c(i＝i)}。

20、优化后的掩膜损失函数以mbce_dice_ls损失代称。此外，还需要给lls乘一个0.1的系数以保证这三个损失值在数量级上的一致性，具体公式表示为：lmbce_dice_ls＝lmbce+ldice+0.1lls

21、进一步地，步骤3中，使用训练集从头开始训练改进的mask r-cnn网络模型，得到最优参数，具体方法为：训练集一共2208张，输入图片大小为640*512，批处理设置为8，使用nvidia geforce rtx 3090 ti(arch＝8.6)的gpu进行加速，软件环境设置为python 3.8、pytorch 1.10，学习率设置为0.001，采用热身方法调节初始学习率，使用adam优化器对模型进行优化，总共训练100轮避免欠拟合或过拟合导致的泛化能力差的问题。

22、进一步地，步骤4中，使用测试集对训练好的网络模型进行验证，得到最终的分割结果。具体来说，将测试集中的图片输入到已经加载了最优权重的改进的mask r-cnn模型，最终输出图片的主观分割结果与客观性能指标。主观分割结果通过将图片可视化予以展现，客观性能指标采用coco数据集评价指标，以map和召回率的结果来判断算法模型的效果。

23、对网络模型来说，召回率表示在真实样本中预测正确的样本所占的比例，精确度表示在所有预测结果中正确的预测结果所占的比例，ap通过计算横轴为召回率，纵轴为精确度的曲线面积获得，而map是各类别ap在不同类上的和取均值所得，map的值越大，认为模型精度越好。

24、与现有技术相比，本发明的有益效果是：以mask r-cnn网络为基础架构，在其中添加了改进的注意力模块来提高模型对红外目标的识别分割能力；设计了新的回归框损失函数和掩膜损失函数替换原网络相应部分的损失函数，进一步提高了模型在训练过程中的稳定性和收敛速度。本发明相较于其他基于深度学习的红外图像分割的方法，具有更高的分割精度与更好的分割效果。

25、下面结合说明书附图对本发明作进一步描述。

技术特征：

1.一种基于mask r-cnn的红外图像分割的方法，其特征在于，步骤如下：

2.根据权利要求1所述的一种基于mask r-cnn的红外图像分割的方法，其特征在于：步骤1的具体过程为：使用红外相机拍摄获取921张图像，经过数据标注、数据增强与数据清洗后扩增至2760张，按8∶2的比例分为训练集和测试集，训练集图像为2208张，测试集数量为552张。

3.根据权利要求1所述的一种基于mask r-cnn的红外图像分割的方法，其特征在于：步骤2的具体过程为：

4.根据权利要求1所述的一种基于mask r-cnn的红外图像分割的方法，其特征在于：步骤3的具体过程为：

5.根据权利要求1所述的一种基于mask r-cnn的红外图像分割的方法，其特征在于：步骤4的具体过程为：

技术总结
本发明提出了一种基于Mask R‑CNN的红外图像分割的方法。本发明以Mask R‑CNN网络为基础架构，在其中添加了改进的注意力模块来提高模型对红外目标的识别分割能力。然后设计了新的回归框损失函数和掩膜损失函数替换原网络相应部分的损失函数，通过这种无需增加参数的优化方式来解决原网络收敛速度过慢和前后景不平衡的问题，进一步提高了模型在训练过程中的稳定性。此外，本发明还构建了一个包含人、车、自行车和无人机四类目标的红外图像数据集，并将之划分为训练集和测试集。训练集用于训练改进的模型，得到最优参数；测试集用于验证改进后的模型效果，完成红外图像中目标的识别与分割。本发明相较于其他基于深度学习的红外图像分割的方法，具有更高的分割精度与更好的分割效果。

技术研发人员：任侃,田濛洋,陈钱
受保护的技术使用者：南京理工大学
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-20223.html

专利

最新回复(0)