一种基于注意力机制的RGB-D特征融合方法与流程

专利2025-09-14  80


本发明属于计算机视觉领域,尤其涉及一种基于注意力机制的rgb-d特征融合方法。


背景技术:

1、计算机视觉领域多模态融合一直是备受关注的研究方向,由于硬件设备或采集数据方式的限制单一类型的图像所捕获的信息不足以全面表征成像场景。相比于单张图像,经过处理的融合图像具有更好的场景表示和视觉感知能力,便于后续的实际视觉应用,如目标检测、跟踪、语义分割、场景理解等。rgb-d融合就是最常见的图像融合,既获得了rgb相机对色彩和边缘感知的能力又获得深度相机对距离感知的能力。

2、现有的rgb-d融合方法大部分都是先对两个输入图像做简单处理后直接通道拼接,并输入到单分支神经网络编码器或者transformer中处理,但这样忽略了两种图像数据格式和图像特征的不同,准确性不高。部分方法虽然对rgb和depth图像设置了独立的分支,但是融合模块堆叠了较多子模块,时间效率不佳。


技术实现思路

1、本发明目的在于提供一种基于注意力机制的rgb-d特征融合方法,以解决现有方法完成视觉任务中准确率低、时间效率低的技术问题。

2、为解决上述技术问题,本发明的一种基于注意力机制的rgb-d特征融合方法的具体技术方案如下:

3、一种基于注意力机制的rgb-d特征融合方法,其特征在于,包括如下步骤:

4、步骤1:对rgb特征图和深度特征图分别进行局部注意力引导的通道特征选择;

5、步骤2:使用跨模态注意力模块进行跨模态注意力引导的特征相关性嵌入;步骤3:计算最终融合结果。

6、进一步的,所述步骤1包括如下具体步骤:

7、步骤1.1:对于输入的rgb图像,使用压缩和激励网络,即se模块进行通道特征选择;

8、步骤1.2:对于输入的深度图像,采用空间金字塔注意力网络,即spa模块进行通道特征选择,所提出的空间金字塔结构自适应地将输入特征图池化到三个不同的尺度:精细平均池化用于捕获更多的特征表示和结构信息,粗糙平均池化旨在在结构信息和结构正则化之间取得平衡,1×1平均池化是传统的全局平均池化gap,然后将这三个输出上采样到与精细表示相同的空间分辨率,并使用加权求和进行组合;

9、步骤1.3:判断步骤1.1和步骤1.2所得到的特征图是否通道数相同,如果相同就直接相加,如果不同就通过一个卷积核为1的卷积将depth分支扩展到与rgb分支通道数相同再相加,得到局部注意力引导的通道特征选择的结果,并作为步骤2的输入。

10、进一步的,所述步骤1.1包括如下步骤:

11、首先将每个通道上的空间特征编码压缩为一个全局特征,采用全局平局池化来实现,输出维度为1×1×c,激励操作中首先是个全连接层fc1对通道数进行降维,然后是一个relu激活函数,再是一个全连接层fc2对通道数进行升维,最后是一个sigmoid激活函数,得到的输出维度也是1×1×c,最后加权就是就是通道权重相乘,得到的结果维度维w×h×c。

12、进一步的,所述步骤1.2包括如下步骤:

13、假设特征图的输入为x∈rw×h×c,用ρ(·)表示自适应平均池化,ω∈r3为可训练的参数,空间金字塔结构组件的输出表示为:

14、s=ωt[ρfine(x)ρcoarse(x)ρglobal(x)]

15、根据实际训练的情况金字塔尺度分别取147的时候可以兼顾时间效率和训练效果,由于最大平均池化后得到的三个特征图大小不一样,要对小的特征图进行上采样到最精细化的大小,然后进行加权求和,然后进行激励操作,首先是个全连接层fc1对通道数进行降维,然后是一个relu激活函数,再是一个全连接层fc2对通道数进行升维,最后是一个sigmoid激活函数,得到的输出维度是7×7×c,对激励操作的结果进行上采样到h×w×c,并与原始的深度特征图相乘,得到此步骤的结果。

16、进一步的,所述步骤2包括如下步骤:

17、步骤2.1:定义跨模态自相似性;

18、步骤2.2:特征嵌入;

19、步骤2.3:多模态信息的拆分和混合;

20、步骤2.4:子空间中的表示学习。

21、进一步的,所述步骤2.1包括如下步骤:

22、假设rgb和depth特征无缝嵌入到key和query中,则对于像素(i0,j0)与其他像素(i,j)的跨模态自相似性定义为:

23、

24、其中krn,i,j代表像素keyrgb的第n个特征值,同理qrn,i0,j0,kdn,i,j,qdn,i0,j0分别代表像素queuergb,keydepth,queuedepth的第n个特征值。

25、进一步的,所述步骤2.2包括如下步骤:

26、跨模态注意力模块cma有三个输入特征,分别是rgb特征、depth特征和步骤1中得到的初步融合特征,在进行后续处理之前首先要将这三个输入特征嵌入到向量空间k,q,v中,

27、

28、进一步的,所述步骤2.3包括如下步骤:

29、对k和q序列进行通道混合:

30、kq=cat(krgb,qrgb,kdepth,qdepth)

31、kq=view(b,n,-1)(trans(2,3)(view(b,n,2,channels/2)(kq)))

32、k1,q1,k2,q2=split(kq)

33、得到的混合特征均匀对来自rgb和depth输入的特征进行混合,可以有效表征图像的各种信息。

34、进一步的,所述步骤2.4包括如下步骤:

35、计算跨模态相似度,并将计算结果嵌入到融合的特征值中:通过计算点积k1、q1和k2、q2,得到子空间w1和w2的两种表示,然后,w1和w2通过点积将信息嵌入到v1和v2中,融合特征fused2是通道维度上v1和v2的拼接,再进行一层简单卷积加归一化后得到的结果:

36、

37、fused2=bn(conv(cat(w1·v1,w2·v2)))

38、进一步的,所述步骤3包括如下步骤:

39、根据步骤1得到的结果fused1和步骤2得到的结果fused2,将其直接相加得到本方法融合后的最终结果fused,看做fused2是对fused1的修正,两个融合结果相加得到的结果对图像的表征能力强于任何一种结果的单独表征,得到的结果进一步与主干网络进行相加融合,并作为多层解码器的输入。

40、本发明的一种基于注意力机制的rgb-d特征融合方法具有以下优点:本发明的一种基于注意力机制的rgb-d特征融合方法,将双分支局部注意力引导的通道特征选择、跨模态注意力引导的特征相关性嵌入以及将以上两种方法相结合得到模块融合结果,可以在兼顾时间效率的同时提升rgb-d融合任务的准确性,具有良好的应用前景,并且已经在部分任务中证明了有效性。本发明方法可以充分利用rgb图像和深度图像中所包含的信息,与现有方法相比在完成计算机视觉任务时的准确率更高,并且网络结构更简单时间效率更好。


技术特征:

1.一种基于注意力机制的rgb-d特征融合方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于注意力机制的rgb-d特征融合方法,其特征在于,所述步骤1包括如下具体步骤:

3.根据权利要求2所述的基于注意力机制的rgb-d特征融合方法,其特征在于,所述步骤1.1包括如下步骤:

4.根据权利要求2所述的基于注意力机制的rgb-d特征融合方法,其特征在于,所述步骤1.2包括如下步骤:

5.根据权利要求1所述的基于注意力机制的rgb-d特征融合方法,其特征在于,所述步骤2包括如下步骤:

6.根据权利要求5所述的基于注意力机制的rgb-d特征融合方法,其特征在于,所述步骤2.1包括如下步骤:

7.根据权利要求5所述的基于注意力机制的rgb-d特征融合方法,其特征在于,所述步骤2.2包括如下步骤:

8.根据权利要求5所述的基于注意力机制的rgb-d特征融合方法,其特征在于,所述步骤2.3包括如下步骤:

9.根据权利要求5所述的基于注意力机制的rgb-d特征融合方法,其特征在于,所述步骤2.4包括如下步骤:

10.根据权利要求1所述的基于注意力机制的rgb-d特征融合方法,其特征在于,所述步骤3包括如下步骤:


技术总结
本发明属于计算机视觉领域,公开了一种基于注意力机制的RGB‑D特征融合方法,包括如下步骤:步骤1:对RGB特征图和深度特征图分别进行局部注意力引导的通道特征选择;步骤2:使用跨模态注意力模块进行跨模态注意力引导的特征相关性嵌入;步骤3:计算最终融合结果。本发明法可以充分利用RGB图像和深度图像中所包含的信息,与现有方法相比在完成计算机视觉任务时的准确率更高,并且网络结构更简单时间效率更好。

技术研发人员:张建明,毛岳峰,朱科,朱骞
受保护的技术使用者:余姚市机器人研究中心
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-16846.html

最新回复(0)