基于知识辅助的SAR图像飞机检测分类方法

专利2024-04-07  85


基于知识辅助的sar图像飞机检测分类方法
技术领域
1.本发明涉及sar图像目标检测技术领域,尤其涉及一种基于知识辅助的sar图像飞机检测分类方法。


背景技术:

2.合成孔径雷达(synthetic aperture radar,sar)基于距离测量并主要观测目标场景的理化性质,具有全天时、全天候的成像能力,在军事及民用飞机目标检测分类中发挥着重要作用。随着sar成像技术的发展,已经可以获取高分辨率的大尺寸的sar图像。然而,复杂的地面环境背景、不同尺寸的目标、密集排列等因素都会影响飞机的检测分类网络性能。高分辨率大场景sar图像飞机目标检测分类已成为一项重要且具有挑战性的任务。
3.目前,基于深度学习的目标检测方法,由于不需要复杂的建模过程且泛化能力强,已成为sar图像目标检测分类领域的主流。该方法主要分为两大类:1)双阶段目标检测方法,包括r-cnn,faster r-cnn等;2)单阶段目标检测方法,包括ssd,yolo等。上述方法均是基于锚框的检测方法,对于大场景sar图像中的飞机目标检测,仍然存在一些问题,例如,锚框的设计对大小、纵横比和数量非常敏感,调参难度高且使用起来不够简便;由于锚框的尺寸固定,使得网络的普适性不强,在不同的任务下都需要人为根据经验调节,否则很难达到较好的应用效果;目标框之间需要比较iou(intersection over union,交并比)大小,导致浪费计算资源。
4.对于sar图像飞机目标检测分类而言,大场景sar图像大部分为背景区域,机场区域所占面积不多,逐像素检测不光计算复杂,而且受其它地物信息的干扰,会产生很多虚警;由于sar的成像机制原因,飞机目标在sar图像中呈现为离散的散射点分布,整体性较弱;飞机目标尺寸不一,面临多尺度目标检测的困难;当遇到目标密集停靠时,在非极大值抑制的操作下,一部分目标漏检,难以达到良好的检测分类精度。另外,遥感观测结果和时空地理信息之间存在着高度非线性的关系,很难直接用物理模型解释,这阻碍了人们从中获取先验信息并进行相关应用,遥感应用的水平严重滞后于空间遥感技术的发展。
5.因此,亟需一种能够减轻大场景sar图像的目标分类困难程度,并提高目标分类精确度的飞机目标检测分类方法。


技术实现要素:

6.基于此,有必要针对上述技术问题,提供一种基于知识辅助的sar图像飞机检测分类方法。
7.一种基于知识辅助的sar图像飞机检测分类方法,包括以下步骤:获取待测大场景的sar图像,在检测到所述sar图像中存在机场时,提取机场的感兴趣区域;将所述机场的感兴趣区域进行切片,获取多个切片,根据convnext-t网络构造目标特征提取网络,将多个切片输入所述目标特征提取网络,获取感兴趣区域的图像特征;通过mlp网络构造多模态领域知识特征提取模型,获取领域知识并输入所述多模态领域知识特征提取模型,得到多模态
领域知识特征;通过自适应投影的方式,将多模态领域知识特征动态更新到图像特征中,并对更新后的图像特征进行自注意力增强操作,获取带有领域知识权重的目标特征;设计无锚框检测头,通过所述无锚框检测头对目标特征中的飞机目标进行位置回归,并对位置回归后的飞机目标进行分类,获取sar图像的目标检测分类结果。
8.在其中一个实施例中,所述获取待测大场景的sar图像,在检测到所述sar图像中存在机场时,提取机场的感兴趣区域,具体包括:获取待测大场景的sar图像,检测所述sar图像中是否存在机场;若所述sar图像中不存在机场,则结束进程;若所述sar图像中存在机场,则将所述sar图像携带的地理位置信息,与实际机场的经纬度信息库进行比对;在存在实际机场的经纬度信息覆盖所述地理位置信息时,认定所述sar图像中包含机场区域,并获取sar图像中机场的名称和地理位置。
9.在其中一个实施例中,所述将所述机场的感兴趣区域进行切片,获取多个切片,根据convnext-t网络构造目标特征提取网络,将多个切片输入所述目标特征提取网络,获取感兴趣区域的图像特征,具体包括:将所述机场的感兴趣区域分割为1024*1024大小的多个切片;根据convnext-t网络构造目标特征提取网络,将所述多个切片输入目标特征提取网络,获取感兴趣区域的图像特征,所述目标特征提取网络包括依次级联的卷积层、第一ln层、第一convnext block模块、第一下采样层、第二convnext block模块、第二下采样层、第三convnext block模块、第三下采样层、第四convnext block模块、全局池化层、第四ln层和全连接层。
10.在其中一个实施例中,所述通过mlp网络构造多模态领域知识特征提取模型,获取领域知识并输入所述多模态领域知识特征提取模型,得到多模态领域知识特征,具体包括:通过mlp网络构造多模态领域知识特征提取模型;获取领域知识信息,所述领域知识信息包括经度、纬度、日期、目标尺寸、机翼面积、机翼后掠角和飞机发动机数量,将所述领域知识信息标准化为[-1,1]的区间,并按照通道进行连接:
[0011][0012]
式中,lon、lat、date、length、width、wing
area
、sweep
angle
、num
engine
分别表示与图像相关的纬度、经度、日期信息、长度、宽度、机翼面积、机翼后掠角和飞机发动机数量信息,concat(
·
)表示通道连接;表示附加信息的中间编码结果,将领域知识信息映射到r
16
,为:
[0013][0014]
根据映射结果,采用mlp网络获取多模态领域知识特征ze,为:
[0015]
ze=relu(ln(f(xe)))
[0016]
式中,relu(
·
)表示relu激活函数,ln(
·
)表示层归一化,f(
·
)表示全连接层。
[0017]
在其中一个实施例中,所述通过自适应投影的方式,将多模态领域知识特征动态更新到图像特征中,并对更新后的图像特征进行自注意力增强操作,获取带有领域知识权重的目标特征,具体包括:根据多模态领域知识特征ze生成动态投影的权重w:
[0018]
w=reshape(f(ze))
[0019]
式中,reshape(
·
)表示将一维特征重构为二维特征,f(
·
)表示全连接层;通过自适应投影的方式,将所述多模态领域知识特征更新到图像特征当中,获取目标特征,并对目
标特征进行自注意力增强;
[0020][0021][0022]
式中,dim表示维度信息,对于经过convnext-t特征提取得到的图像特征zi和通过mlp提取到的多模态特征ze,用补0的方式将维度di和de进行扩展:
[0023][0024]
最终维度信息表示为:
[0025]
dim=concat({zi,ze})=z
′i+z
′e[0026]
通过跳跃连接的方式,将自注意力增强后的目标特征和图像特征进行连接。
[0027]
在其中一个实施例中,所述设计无锚框检测头,通过所述无锚框检测头对目标特征中的飞机目标进行位置回归,具体包括:建立一组自适应的特征点集:
[0028][0029]
式中,n为卷积核的大小;采用无锚框检测头的初始卷积层得到特征图,并通过第一卷积层产生第一组偏移量;根据所述第一偏移量对所述特征点集进行更新,获取每个特征点对应的第一组点集,其中,点集的更新通过预测框和真值边界框之间的左上和右下点距离损失及后续阶段的目标分类损失驱动;将所述特征图和第一偏移量通过第二卷积层,得到第二组偏移量,通过第二组偏移量在第一组点集的基础上进行微调,得到第二组点集;将特征图和第二偏移量依次通过第三卷积层,得到第三组偏移量为通过所述第三组偏移量在所述第二组点集的基础上进行微调,得到经过偏移量修正的第三组点集,为:
[0030][0031]
将所述第三组点集转化为边界框,定义一个转换函数:
[0032]
t:r
p
→bp
[0033]
式中,r
p
表示目标p的关键点,b
p
表示一个伪边界框;通过转换函数计算所述第三组点集中所有点的均值,作为边界框的中心点坐标,二阶矩作为边界框的宽和高,即求出所有点的均值和方差,通过两个全局学习的系数将均值和方差还原为边界框;通过smooth l1对边界框的左上角和右下角之间的距离进行位置回归,公式为:
[0034][0035]
式中,x表示预测框和真实框之间的位置差异。
[0036]
在其中一个实施例中,所述初始卷积层包括3层256-d 3
×
3卷积层;所述第一卷积层包括256-d 3
×
3卷积层和18-d 1
×
1卷积层;所述第二卷积层包括256-d 3
×
3的可形变卷积层和18-d 1
×
1卷积层;所述第三卷积层包括两层256-d 3
×
3的可形变卷积层和一层18-d 1
×
1卷积层。
[0037]
在其中一个实施例中,所述对位置回归后的飞机目标进行分类,获取sar图像的目
标检测分类结果,具体包括:在得到特征图后,将所述特征图和第一个偏移量输入分类卷积层,得到目标特征图;将所述目标特征图中每个位置的区域与真值的交并比大于0.5认定为正样本,小于0.4认定为背景;采用focal loss损失函数对所述目标特征图进行飞机目标分类,获取sar图像的目标检测分类结果:
[0038]
fl(p
t
)=-α
t
(1-p
t
)
γ
log(p
t
)
[0039]
式中,y为真实标签类别,p∈[0,1]为y=1的概率值;参数α∈[0,1],控制正负样本的贡献权重,默认值为0.25;参数γ为聚焦参数,默认值为2。
[0040]
在其中一个实施例中,所述分类卷积层包括256-d 3
×
3的可形变卷积层和num_class-d 1
×
1卷积层,num_class表示分类任务的类别数。
[0041]
相比于现有技术,本发明的优点及有益效果在于:通过获取待测大场景的sar图像,在检测到sar图像中存在机场时,提取机场的感兴趣区域,将机场的感兴趣区域进行切片,获取多个切片,根据convnext-t网络构造目标特征提取网络,将多个切片输入目标特征提取网络,获取感兴趣区域的图像特征;通过mlp网络构造多模态领域知识特征提取模型,获取领域知识并输入该模型中,得到多模态领域知识特征;通过自适应投影的方式,将多模态领域知识特征动态更新到图像特征中,并对更新后的图像特征进行自注意力增强操作,获取带有领域知识权重的目标特征,设计无锚框检测头,根据无锚框检测头对目标特征中的飞机目标进行位置回归和目标分类,获取sar图像的目标检测分类结果,利用更高维度的领域知识,有效减轻了相似飞机目标分类难度,使得sar图像易于理解,增强了网络的可解释性,同时能够通过无锚框检测头进行更细粒度的位置表示和目标分类,提升了飞机目标检测分类的准确度。
附图说明
[0042]
图1为一个实施例中基于知识辅助的sar图像飞机检测分类方法的流程示意图;
[0043]
图2为一个实施例中基于知识辅助的sar图像飞机检测分类方法的流程框图;
[0044]
图3为一个实施例中基于知识辅助的sar图像飞机检测分类方法的整体网络结构示意图。
[0045]
图4为一个实施例中无锚框检测头的结构示意图。
具体实施方式
[0046]
为了使本发明的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本发明做进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0047]
在一个实施例中,如图1至图4所示,提供了一种基于知识辅助的sar图像飞机检测分类方法,包括以下步骤:
[0048]
步骤s101,获取待测大场景的sar图像,在检测到sar图像中存在机场时,提取机场的感兴趣区域。
[0049]
具体地,通过合成孔径雷达获取待测大场景的sar图像,检测sar图像中是否存在
机场,在sar图像中不存在机场时,结束进程;在sar图像中存在机场时,识别机场区域,并将机场区域作为感兴趣区域进行提取。
[0050]
步骤s102,将机场的感兴趣区域进行切片,获取多个切片,根据convnext-t网络构造目标特征提取网络,将多个切片输入目标特征提取网络,获取感兴趣区域的图像特征。
[0051]
具体地,将机场的感兴趣区域进行切片,获取多个切片,通过convnext-t网络构造目标特征提取网络,将多个切片输入convnext-t网络,进行目标特征提取,获取感兴趣区域的图像特征。
[0052]
其中,convnext-t网络是依照transformer网络的一些先进思想对现有的经典resnet网络进行了一些调整改进,结合这两种网络的优势,提高了cnn网络的性能表现,能够进行更快的推理并拥有更高的准确率。
[0053]
步骤s103,通过mlp网络构造多模态领域知识特征提取模型,获取领域知识并输入所述多模态领域知识特征提取模型,得到多模态领域知识特征。
[0054]
具体地,采用mlp(multi-layer perceptrons,多层感知器)网络,构造多模态领域知识特征提取模型,并将领域知识输入多模态领域知识特征提取模型,从而获取带有领域知识的多模态领域知识特征,多模态领域知识特征利用了比传统目标检测方法更高维度的信息,使得sar图像易于理解,提高数据的吕勇率,增强了网络的可解释性。
[0055]
其中,领域知识可以是与图像相关的经度、纬度和日期等信息,及与目标类别相关的目标尺寸、机翼面积、机翼后掠角、飞机发动机数量等信息。
[0056]
步骤s104,通过自适应投影的方式,将多模态领域知识特征动态更新到图像特征中,并对更新后的图像特征进行自注意力增强操作,获取带有领域知识权重的目标特征。
[0057]
具体地,通过自适应投影的方式,将带有领域知识信息的多模态领域知识特征动态更新到图像特征中,并通过自注意力机制对更新后的图像特征进行自注意力增强操作,获取带有领域知识权重的目标特征。
[0058]
其中,自注意机制的关键思路是求取隐藏单元计算出的值的加权平均,且用在加权平均运算中的权重是通过隐藏单元之间的相似度函数动态地得到的。
[0059]
具体地,通过自适应投影的方式,将图像特征和多模态领域知识特征作为输入,进行n次迭代,从而将带有领域知识信息的多模态领域知识特征动态更新到图像特征中,并通过自注意力机制,对更新后的图像特征进行自注意力增强,获取带有领域知识权重的目标特征。
[0060]
步骤s105,设计无锚框检测头,通过无锚框检测头对目标特征中的飞机目标进行位置回归,并对位置回归后的飞机目标进行分类,获取sar图像的目标检测结果。
[0061]
具体地,设计无锚框检测头,如图4所示,无锚框检测头包括有两个支路,分别进行位置回归和目标分类。需要注意的是,本发明不对无锚框检测头的结构进行限定,只要能够实现位置回归和目标分类的功能即可。
[0062]
通过无锚框检测头对带有领域知识权重的目标特征进行位置回归,确保最终输出的检测框能够以最佳的形态框住飞机目标,并对进行位置回归后的飞机目标进行分类,获取sar图像的目标检测结果,提高了飞机目标的检测分类精度。
[0063]
在本实施例中,通过获取待测大场景的sar图像,在检测到sar图像中存在机场时,提取机场的感兴趣区域,将机场的感兴趣区域进行切片,获取多个切片,根据convnext-t网
络构造目标特征提取网络,将多个切片输入目标特征提取网络,获取感兴趣区域的图像特征;通过mlp网络构造多模态领域知识特征提取模型,获取领域知识并输入该模型中,得到多模态领域知识特征;通过自适应投影的方式,将多模态领域知识特征动态更新到图像特征中,并对更新后的图像特征进行自注意力增强操作,获取带有领域知识权重的目标特征,设计无锚框检测头,根据无锚框检测头对目标特征中的飞机目标进行位置回归和目标分类,获取sar图像的目标检测分类结果,利用更高维度的领域知识,有效减轻了相似飞机目标分类难度,使得sar图像易于理解,增强了网络的可解释性,同时能够通过无锚框检测头进行更细粒度的位置表示和目标分类,提升了飞机目标检测分类的准确度。
[0064]
其中,步骤s101具体包括:获取待测大场景的sar图像,检测sar图像中是否存在机场;若sar图像中不存在机场,则结束进程;若sar图像中存在机场,则将sar图像携带的地理位置信息,与实际机场的经纬度信息库进行比对;在存在实际机场的经纬度信息覆盖地理位置信息时,认定sar图像中包含机场区域,并获取sar图像中机场的名称和地理位置。
[0065]
具体地,通过合成孔径雷达获取待测大场景的sar图像,对sar图像进行检测,判断其是否包含有机场,并在sar图像中不包含机场时,结束进程;在sar图像中包含机场时,获取sar图像携带的地理位置信息,并将地理位置信息与实际机场的经纬度信息库进行比对,当sar图像中的地理位置信息被经纬度信息库中的某一经纬度信息覆盖时,认定该图像中包含有机场区域,并根据经纬度信息库获取sar图像上机场的机场名称和地理位置。
[0066]
其中,步骤s102具体包括:将机场的感兴趣区域分割为1024*1024大小的多个切片;根据convnext-t网络构造目标特征提取网络,将多个切片输入目标特征提取网络,获取感兴趣区域的图像特征,目标特征提取网络包括依次级联的卷积层、第一ln层、第一convnext block模块、第一下采样层、第二convnext block模块、第二下采样层、第三convnext block模块、第三下采样层、第四convnext block模块、全局池化层、第四ln层和全连接层。
[0067]
具体地,在获取机场的感兴趣区域后,将该感兴趣区域分割为1024*1024大小的多个切片,根据convnext-t网络目标特征提取网络,将多个切片输入目标特征提取网络,获取感兴趣区域的图像特征。其中,目标特征提取网络的结构包括输入层、依次级联的卷积层、第一ln层、第一convnext block模块、第一下采样层、第二convnext block模块、第二下采样层、第三convnext block模块、第三下采样层、第四convnext block模块、全局池化层、第四ln层和全连接层。
[0068]
其中,第一ln层和第四ln层均为标准化层,是对图层进行归一化的操作。全局池化层是用于将最后一层的特征图进行整张图的一个均值池化,形成一个特征点,将这些特征点组成最后的特征向量,进行softmax中进行计算。全连接层是通过将每一个结点都与上一层的所有结点相连,实现对提取到的所有特征的综合。
[0069]
其中,步骤s103具体包括:通过mlp网络构造多模态领域知识特征提取模型;获取领域知识信息,领域知识信息包括经度、纬度、日期、目标尺寸、机翼面积、机翼后掠角和飞机发动机数量,将领域知识信息标准化为[-1,1]的区间,并按照通道进行连接:
[0070][0071]
式中,lon、lat、date、length、width、wing
area
、sweep
angle
、num
engine
分别表示与图像相关的纬度、经度、日期、长度、宽度、机翼面积、机翼后掠角和飞机发动机数量,concat(
·
)
表示通道连接;表示附加信息的中间编码结果,将领域知识信息映射到r
16
,为:
[0072][0073]
根据映射结果,采用mlp网络获取多模态领域知识特征ze,为:
[0074]
ze=relu(ln(f(xe)))
[0075]
式中,relu(
·
)表示relu激活函数,ln(
·
)表示层归一化,f(
·
)表示全连接层。
[0076]
具体地,通过mlp网络构造多模态领域知识特征提取模型;通过多模态路径接收经度、纬度、日期、长度、宽度、机翼面积、机翼后掠角和飞机发动机数量等领域知识,将领域知识标准化到[-1,1]的区间,并按照通道进行连接,将领域知识进行映射,根据多模态领域知识特征提取模型提取出映射后的多模态特征,其中,mlp网络是全连接层、层归一化和relu激活函数的简单序列。
[0077]
其中,步骤s104具体包括:根据多模态领域知识特征ze生成动态投影的权重w:
[0078]
w=reshape(f(ze))
[0079]
式中,reshape(
·
)表示将一维特征重构为二维特征,f(
·
)表示全连接层;通过自适应投影的方式,将多模态领域知识特征更新到图像特征当中,获取目标特征,并对目标特征进行自注意力增强;
[0080][0081][0082]
式中,dim表示维度信息,对于经过convnext-t特征提取得到的图像特征zi和通过mlp提取到的多模态特征ze,用补0的方式将维度di和de进行扩展:
[0083][0084]
最终维度信息表示为:
[0085]
dim=concat({zi,ze})=z
′i+z
′e[0086]
通过跳跃连接的方式,将自注意力增强后的目标特征和图像特征进行连接。
[0087]
具体地,根据多模态领域知识特征生成动态投影的权重,将多模态领域知识特征以自适应投影的方式更新到图像特征中,获取目标特征,并对目标特征进行自注意力增强,此外,在注意力增强后的目标特征和图像特征之间使用跳跃连接,从而避免模型出现退化。
[0088]
其中,通过无锚框检测头进行位置回归时,具体包括:建立一组自适应的特征点集:
[0089][0090]
式中,n为卷积核的大小;采用无锚框检测头的初始卷积层得到特征图,并通过第一卷积层产生第一组偏移量;根据第一偏移量对特征点集进行更新,获取每个特征点对应的第一组点集,其中,点集的更新通过预测框和真值边界框之间的左上和右下点距离损失及后续阶段的目标分类损失驱动;将特征图和第一偏移量通过第二卷积层,得到第二组偏移量,通过第二组偏移量在第一组点集的基础上进行微调,得到第二组点集;将特征图和第二偏移量依次通过第三卷积层,得到第三组偏移量为通过第三组偏移量
在所述第二组点集的基础上进行微调,得到经过偏移量修正的第三组点集,为:
[0091][0092]
将第三组点集转化为边界框,定义一个转换函数:
[0093]
t:r
p
→bp
[0094]
式中,r
p
表示目标p的关键点,b
p
表示一个伪边界框;通过转换函数计算所述第三组点集中所有点的均值,作为边界框的中心点坐标,二阶矩作为边界框的宽和高,即求出所有点的均值和方差,通过两个全局学习的系数将均值和方差还原为边界框;通过smooth l1对边界框的左上角和右下角之间的距离进行位置回归,公式为:
[0095][0096]
式中,x表示预测框和真实框之间的位置差异。
[0097]
其中,初始卷积层包括3层256-d 3
×
3卷积层;第一卷积层包括256-d 3
×
3卷积层和18-d 1
×
1卷积层;第二卷积层包括256-d 3
×
3的可形变卷积层和18-d 1
×
1卷积层;第三卷积层包括两层256-d 3
×
3的可形变卷积层和一层18-d 1
×
1卷积层。
[0098]
具体地,如图4所示,为无锚框检测头的结构示意图;在进行无锚框检测头的设计时,通过一组分布在目标空间范围和具有重要语义信息位置上的点集,监督检测分类网络的训练。通过3层256-d 3
×
3卷积层得到特征图,再依次通过256-d 3
×
3卷积层和18-d 1
×
1卷积层,产生第一组偏移量,于是,在点集中每个点的横纵坐标分别产生9个偏移量,共18个,并在特征点集的基础上得到每个位置对应的第一组点集。其中,点集的学习是由两个目标驱动的,即:预测框和真值边界框之间的左上和右下点距离损失和后续阶段的目标分类损失。
[0099]
将特征图和第一组偏移量依次通过256-d 3
×
3的可形变卷积层和18-d 1
×
1卷积层,得到第二组偏移量,通过第二组偏移量在第一组点集的基础上进行微调,得到第二组点集。
[0100]
将特征图和第二组偏移量依次通过两层256-d 3
×
3的可形变卷积层和一层18-d 1
×
1卷积层,得到第三组偏移量,通过第三组偏移量在第二组点集的基础上进行微调,得到经过偏移量修正的第三组点集。
[0101]
将第三组点集的点转换为边界框,定义一个转换函数,通过计算点集中所有点的均值作为边界框的中心坐标,二阶矩作为边界框的宽和高,即求出所有点的均值和方差,通过两个全局学习的系数将均值和方差还原为边界框,并通过smooth l1损失算法对边界框的左上角和右下角之间的距离进行位置回归,获取位置回归后的特征图。通过上述偏移量修正,能够提高对sar图像中飞机目标的检测精度,减轻了相似飞机目标的分类困难程度。
[0102]
其中,通过无锚框检测头进行目标检测分类时,具体包括:在得到特征图后,将特征图和第一个偏移量输入分类卷积层,得到目标特征图;将所述目标特征图中每个位置的区域与真值的交并比大于0.5认定为正样本,小于0.4认定为背景;采用focal loss损失函数对目标特征图进行飞机目标分类,获取sar图像的目标检测分类结果:
[0103]
fl(p
t
)=-α
t
(1-p
t
)
γ
log(p
t
)
[0104]
式中,y为真实标签类别,p∈[0,1]为y=1的概率值;参数α∈[0,1],控制正负样本的贡献权重,默认值为0.25;参数γ为聚焦参数,默认值为2。
[0105]
其中,分类卷积层包括256-d 3
×
3的可形变卷积层和num_class-d 1
×
1卷积层,num_class表示分类任务的类别数。
[0106]
具体地,在通过无锚框检测头进行目标检测分类时,在回归经过三个卷积层之后,直接进行分类,通过在特征图和第一个偏移量上进行一次256-d 3
×
3的可形变卷积和一次num_class-d 1
×
1的卷积,num_class表示分类任务的类别数。经过num_class-d 1
×
1卷积层后,目标特征图中每个位置的区域与真值的交并比大于0.5认定为正样本,小于0.4认定为背景,其余忽略不计。通过focal loss损失函数获取sar图像的目标检测分类结果,实现了大场景sar图像的飞机目标检测分类,且具有良好的检测分类精度。
[0107]
本发明利用可形变卷积构造网络的无锚框检测头,通过一组分布在目标空间范围和具有重要语义信息位置上的特征点集,提供了更细粒度的位置表示和分类信息,这些点的训练由目标定位和分类共同驱动,与真值边界框紧密结合,引导正确分类目标,摆脱了边界框的限制,使得网络的普适性得以增强,也降低了计算的复杂度。
[0108]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0109]
显然,本领域的技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在计算机存储介质(rom/ram、磁碟、光盘)中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以,本发明不限制于任何特定的硬件和软件结合。
[0110]
以上内容是结合具体的实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

技术特征:
1.一种基于知识辅助的sar图像飞机检测分类方法,其特征在于,包括以下步骤:获取待测大场景的sar图像,在检测到所述sar图像中存在机场时,提取机场的感兴趣区域;将所述机场的感兴趣区域进行切片,获取多个切片,根据convnext-t网络构造目标特征提取网络,将多个切片输入所述目标特征提取网络,获取感兴趣区域的图像特征;通过mlp网络构造多模态领域知识特征提取模型,获取领域知识并输入所述多模态领域知识特征提取模型,得到多模态领域知识特征;通过自适应投影的方式,将多模态领域知识特征动态更新到图像特征中,并对更新后的图像特征进行自注意力增强操作,获取带有领域知识权重的目标特征;设计无锚框检测头,通过所述无锚框检测头对目标特征中的飞机目标进行位置回归,并对位置回归后的飞机目标进行分类,获取sar图像的目标检测分类结果。2.根据权利要求1所述的基于知识辅助的sar图像飞机检测分类方法,其特征在于,所述获取待测大场景的sar图像,在检测到所述sar图像中存在机场时,提取机场的感兴趣区域,具体包括:获取待测大场景的sar图像,检测所述sar图像中是否存在机场;若所述sar图像中不存在机场,则结束进程;若所述sar图像中存在机场,则将所述sar图像携带的地理位置信息,与实际机场的经纬度信息库进行比对;在存在实际机场的经纬度信息覆盖所述地理位置信息时,认定所述sar图像中包含机场区域,并获取sar图像中机场的名称和地理位置。3.根据权利要求1所述的基于知识辅助的sar图像飞机检测分类方法,其特征在于,所述将所述机场的感兴趣区域进行切片,获取多个切片,根据convnext-t网络构造目标特征提取网络,将多个切片输入所述目标特征提取网络,获取感兴趣区域的图像特征,具体包括:将所述机场的感兴趣区域分割为1024*1024大小的多个切片;根据convnext-t网络构造目标特征提取网络,将所述多个切片输入目标特征提取网络,获取感兴趣区域的图像特征,所述目标特征提取网络包括依次级联的卷积层、第一ln层、第一convnext block模块、第一下采样层、第二convnext block模块、第二下采样层、第三convnext block模块、第三下采样层、第四convnext block模块、全局池化层、第四ln层和全连接层。4.根据权利要求1所述的基于知识辅助的sar图像飞机检测分类方法,其特征在于,所述通过mlp网络构造多模态领域知识特征提取模型,获取领域知识并输入所述多模态领域知识特征提取模型,得到多模态领域知识特征,具体包括:通过mlp网络构造多模态领域知识特征提取模型;获取领域知识信息,所述领域知识信息包括经度、纬度、日期、目标尺寸、机翼面积、机翼后掠角和飞机发动机数量,将所述领域知识信息标准化为[-1,1]的区间,并按照通道进行连接:
式中,lon、lat、date、length、width、wing
area
、sweep
angle
、numen
gine
分别表示与图像相关的纬度、经度、日期信息、长度、宽度、机翼面积、机翼后掠角和飞机发动机数量信息,concat(
·
)表示通道连接;表示附加信息的中间编码结果,将领域知识信息映射到r
16
,为:根据映射结果,采用mlp网络获取多模态领域知识特征z
e
,为:z
e
=relu(ln(f(x
e
)))式中,relu(
·
)表示relu激活函数,ln(
·
)表示层归一化,f(
·
)表示全连接层。5.根据权利要求4所述的基于知识辅助的sar图像飞机检测分类方法,其特征在于,所述通过自适应投影的方式,将多模态领域知识特征动态更新到图像特征中,并对更新后的图像特征进行自注意力增强操作,获取带有领域知识权重的目标特征,具体包括:根据多模态领域知识特征z
e
生成动态投影的权重w:w=reshape(f(z
e
))式中,reshape(
·
)表示将一维特征重构为二维特征,f(
·
)表示全连接层;通过自适应投影的方式,将所述多模态领域知识特征更新到图像特征当中,获取目标特征,并对目标特征进行自注意力增强;特征,并对目标特征进行自注意力增强;式中,dim表示维度信息,对于经过convnext-t特征提取得到的图像特征z
i
和通过mlp提取到的多模态特征z
e
,用补0的方式将维度d
i
和d
e
进行扩展:最终维度信息表示为:dim=concat({z
i
,z
e
})=z
i

+z
e

通过跳跃连接的方式,将自注意力增强后的目标特征和图像特征进行连接。6.根据权利要求1所述的基于知识辅助的sar图像飞机检测分类方法,其特征在于,所述设计无锚框检测头,通过所述无锚框检测头对目标特征中的飞机目标进行位置回归,具体包括:建立一组自适应的特征点集:式中,n为卷积核的大小;采用无锚框检测头的初始卷积层得到特征图,并通过第一卷积层产生第一组偏移量;根据所述第一偏移量对所述特征点集进行更新,获取每个特征点对应的第一组点集,其中,点集的更新通过预测框和真值边界框之间的左上和右下点距离损失及后续阶段的目标分类损失驱动;将所述特征图和第一偏移量通过第二卷积层,得到第二组偏移量,通过第二组偏移量在第一组点集的基础上进行微调,得到第二组点集;
将特征图和第二偏移量依次通过第三卷积层,得到第三组偏移量为通过所述第三组偏移量在所述第二组点集的基础上进行微调,得到经过偏移量修正的第三组点集,为:将所述第三组点集转化为边界框,定义一个转换函数:t:r
p

b
p
式中,r
p
表示目标p的关键点,b
p
表示一个伪边界框;通过转换函数计算所述第三组点集中所有点的均值,作为边界框的中心点坐标,二阶矩作为边界框的宽和高,即求出所有点的均值和方差,通过两个全局学习的系数将均值和方差还原为边界框;通过smooth l1对边界框的左上角和右下角之间的距离进行位置回归,公式为:式中,x表示预测框和真实框之间的位置差异。7.根据权利要求6所述的基于知识辅助的sar图像飞机检测分类方法,其特征在于,所述初始卷积层包括3层256-d 3
×
3卷积层;所述第一卷积层包括256-d 3
×
3卷积层和18-d 1
×
1卷积层;所述第二卷积层包括256-d 3
×
3的可形变卷积层和18-d 1
×
1卷积层;所述第三卷积层包括两层256-d 3
×
3的可形变卷积层和一层18-d 1
×
1卷积层。8.根据权利要求6所述的基于知识辅助的sar图像飞机检测分类方法,其特征在于,所述对位置回归后的飞机目标进行分类,获取sar图像的目标检测分类结果,具体包括:在得到特征图后,将所述特征图和第一个偏移量输入分类卷积层,得到目标特征图;将所述目标特征图中每个位置的区域与真值的交并比大于0.5认定为正样本,小于0.4认定为背景;采用focal loss损失函数对所述目标特征图进行飞机目标分类,获取sar图像的目标检测分类结果:fl(p
t
)=-α
t
(1-p
t
)
γ
log(p
t
)式中,y为真实标签类别,p∈[0,1]为y=1的概率值;参数α∈[0,1],控制正负样本的贡献权重,默认值为0.25;参数γ为聚焦参数,默认值为2。9.根据权利要求8所述的基于知识辅助的sar图像飞机检测分类方法,其特征在于,所述分类卷积层包括256-d 3
×
3的可形变卷积层和num_class-d 1
×
1卷积层,num_class表示分类任务的类别数。

技术总结
本发明提供一种基于知识辅助的SAR图像飞机检测分类方法,包括:获取待测大场景的SAR图像,提取机场的感兴趣区域,根据感兴趣区域获取多个切片,并输入基于ConvNeXt-T网络构造的目标特征提取网络,获取感兴趣区域的图像特征;通过MLP网络构造多模态领域知识特征提取模型,并结合领域知识,得到多模态领域知识特征;通过自适应投影将多模态领域知识特征动态更新到图像特征中,并进行自注意力增强,获取目标特征;设计无锚框检测头,通过无锚框检测头对目标特征中的飞机目标进行位置回归和目标分类,获取SAR图像的目标检测分类结果。本发明能够有效减轻相似飞机目标分类难度,提升飞机目标检测分类的准确度。机目标检测分类的准确度。机目标检测分类的准确度。


技术研发人员:师皓 岳冰莹 陈亮 盛青青
受保护的技术使用者:北京理工大学重庆创新中心
技术研发日:2022.07.04
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-7620.html

最新回复(0)