本发明属于视觉巡检,具体涉及基于多模态提示协同的视觉巡检多任务学习方法。
背景技术:
1、视觉巡检一直是工业生产、运维管理、检测监控的重要保障手段。传统的视觉巡检一直依赖人工巡检方法,受时间和空间的影响很大,劳动强度高、效率低下且成本高昂。尤其在某些自然条件或生成条件复杂的环境中,人工巡检的方式难以实施,或者即使应用人工巡检也难以得到理想的巡检效果。随着机器人技术的快速发展,采用巡检机器人代替人工进行长时间、复杂环境的巡检任务成为了目前的主要方法,越来越复杂的生产环境要求巡检机器人不断地提高智能化、多任务化水平。近年来,深度学习技术的快速发展带动了人工智能领域各种技术的大幅飞跃,尤其是自然语言处理和计算机视觉等领域,出现了大量高效率、高精度的自然语言处理、目标检测识别、场景分割、场景理解等方法,视觉巡检机器人也在逐步采用人工智能算法替换传统的机器学习方法以适应更复杂的应用场景。
2、目前,视觉巡检机器人采用计算机视觉算法模拟人类视觉系统工作方式,感知、理解和处理外在环境,但是单一的可见光视觉数据能够提供的数据有限,且采用单一视觉源(如可见光图像、深度图像或红外图像)的视觉巡检方法通常易受环境干扰,而采用多种视觉源的视觉巡检方法会在检测过程中遇到不可避免的检测置信度问题。目前大模型在工业领域应用表现良好,采用多模态提示协同方法进行巡检任务学习是综合多种数据来源进行检测的合适方法,目前多模态提示协同学习一般采用分离的特征提取器和多模态特征融合模块联合的方式,针对单个分支进行提示来进行调整无法达到最优效果,并且针对未知类别的检测性能下降。
技术实现思路
1、本发明所要解决的技术问题是如何克服多模态特征分布差异大、单独分支优化效果不足等缺点,从而提升针对视觉巡检多任务的模型调整效果,保证复杂场景下对未知类别的检测性能。
2、为解决上述技术问题,本发明采取的技术方案为:
3、基于多模态提示协同的视觉巡检多任务学习方法,以多模态提示协同多任务学习网络作为视觉-语言模型实现视觉巡检多任务学习,所述多模态提示协同多任务学习网络包括语言提示编码器和视觉编码器,语言提示编码器包括并行的冻结语言编码器和语言编码器;
4、冻结语言编码器,用于确保语言编码器的调整不大于阈值限度;
5、语言编码器与视觉编码器通过耦合函数计算二者特征的余弦相似性衡量两个任务的相似程度,以最大限度地提高总相似性高的任务组的视觉和语言表征的一致性,实现视觉巡检多任务学习的高效联合训练。
6、为优化上述技术方案,采取的具体措施还包括:
7、上述的方法包括以下步骤:
8、步骤1:设置多模态提示协同多任务学习网络参数;
9、步骤2:冻结预训练视觉-语言模型,给定所有任务初始共享源提示,通过耦合函数计算语言编码器与视觉编码器针对两个任务共享提示参数的梯度余弦相似性,衡量两个任务的相似程度,以将视觉巡检多任务训练数据集中的任务进行分组;
10、步骤3:针对每组任务,提供组初始源提示和任务初始源提示,结合缩放矩阵,生成语言编码器和视觉编码器的提示;
11、步骤4:基于语言编码器和视觉编码器的提示,将每组任务的训练集分成多个批次进行训练,其中每个训练批次包含若干语言-视觉提示对。
12、上述的步骤2通过耦合函数计算语言编码器与视觉编码器两个任务共享提示参数的梯度余弦相似性,具体如下:
13、
14、其中,表示梯度余弦相似性,代表语言编码器与视觉编码器针对的两个不同的任务,表示初始共享源提示;表示初始共享源提示的梯度;表示交叉熵损失函数。
15、上述的步骤3所述语言编码器和视觉编码器的提示的生成方式为:
16、
17、
18、
19、
20、其中,、分别为语言编码器和视觉编码器针对单个任务的语言提示和视觉提示;、分别为语言编码器和视觉编码器的初始语言源提示和视觉源提示;表示克罗内克积运算;和分别为组初始源提示和任务初始源提示;分别对应语言编码器组提示缩放矩阵、视觉编码器组提示缩放矩阵、语言编码器组任务提示缩放矩阵、视觉编码器组任务提示缩放矩阵。
21、上述的步骤4中,针对语言提示,首先将语言提示经过词法分心后,投影到词向量空间,得到,表示词向量的长度;
22、将每条语言提示编码成长度的向量,然后经过长度为的语言编码器的转换,最终得到的语言编码器输出;
23、在语言编码器的每一个转换层,进行的向量转换,具体形式如下:
24、
25、
26、其中,表示参数的串联操作;
27、和表示语言编码器模型连续两层词元(tokens),表示相连语言编码器第层的转换函数,表示语言编码器第层组提示,表示语言编码器第层任务提示,和分别对应语言编码器第层组提示缩放矩阵、任务提示缩放矩阵,和分别表示组源提示和任务源提示;
28、最后,经由投影函数将投影到视觉-语言模型潜在嵌入空间获得最终的语言表示。
29、上述的步骤4中,针对视觉输入,首先进行视觉输入的块向量化,其中采用对齐的视觉图像、红外图像和深度图像作为联合的视觉输入图像,三种视觉输入在通道维度连接,组成的输入图像格式为,其中表示矩阵高度和长度,表示图像的通道数;将输入图像重组成一组输入2维图像块,构成的图像块,图像块的尺寸为,图像块的数量,然后使用可训练线性投影函数将图像块转换到维潜在向量,完成块向量化,计算方式如下:
30、
31、其中,表示不同图像块,表示图像向量化操作,表示图像位置向量化操作表示数据所在的维度空间。
32、然后与可学习类别标签组合成,输入到视觉编码器中。
33、上述的视觉编码器的每层采用多头自注意力模块msa和多层感知器mlp组成,每层开始时进行层归一化,在msa和mlp间采用残差连接,多层感知器mlp包含两个gelu非线性激活层,依次叠加至个视觉编码器层;对于第层,被传递到层,通过以下所属的转换器顺序处理:
34、
35、
36、
37、
38、其中,表示第层的类别词元和图像词元的连接向量,是和的计算中间变量,表示视觉编码器第层的组提示,表示视觉编码器第层的单独任务提示,分别表示视觉编码器第层的组提示缩放矩阵、任务提示缩放矩阵,分别表示第层的组源提示和任务源提示,表示归一化结果,和表示第层的类别词元和图像词元;
39、、分别为自注意力、归一化、多层感知函数。
40、上述的视觉编码器的单独任务视觉提示在训练过程中根据语言编码器和视觉编码器的前一层的提示进行动态更新,计算方式可以用下式表示:
41、
42、其中,是平衡权重,控制动态更新,归一化指数函数控制输出概率和为1,表示视觉编码器第层单独任务提示,分别表示视觉编码器和语言编码器的第层单独任务提示。
43、经过视觉编码器的编码转换,通过最后一个编码器层得到的图像的标记为,使用图像投影函数将其投影到视觉-语言模型潜在嵌入空间,获得最终的视觉表示:。
44、上述的步骤4训练过程中采用的损失函数为:
45、
46、
47、
48、
49、其中,分别为组共享提示参数损失函数、单个任务提示参数损失函数、语言编码器参数调整损失函数;表示语言编码器中组提示和任务提示的连接,表示组初始源提示和任务初始源提示的连接,和分别为组初始源提示和任务初始源提示;分别对应语言编码器组提示缩放矩阵、视觉编码器组提示缩放矩阵、语言编码器任务提示缩放矩阵、视觉编码器任务提示缩放矩阵,是惩罚权重,控制训练过程中语言编码器调整后的权重调整幅度,表示语言编码器层数。
50、本发明具有以下有益效果:
51、本发明设计了包含语言、可见光图像、红外图像和深度图像多模态输入的视觉巡检多任务学习方法,扩展了视觉巡检的多模态输入类型边界,针对不同数据来源同时进行多任务网络模型学习,能够融合多传感器数据同时解决不同问题:针对视觉巡检中的多任务学习,针对单一视觉源和多视觉源方法存在的易受干扰、融合取信困难等不足,采用多模态提示协同学习框架,采用多模态数据弥补单一可见光视觉数据单一的缺陷,针对视觉数据提供合理的语言提示,结合大语言模型在大规模知识积累和可迁移学习和参数微调方面的优势,与可见光图像、深度图像、红外图像等多模态视觉数据构成多模态视觉-语言模型,实现视觉巡检多任务学习方法,提高巡检机器人的应用场景范围和检测精度,增强视觉巡检的可靠性和精确性。本发明采用预训练的大语言/视觉模型,采用多模态提示协同的方式改善可见光图像、深度图像和红外图像与语言表示的一致性,促进视觉提示和语言提示间的关联性,确保二者相互协同,最终实现视觉巡检任务的多任务学习。
52、本发明针对视觉巡检任务的特殊性提出了同构融合多模态提示协同学习框架同时针对语言提示和视觉提示进行调整,增强二者的关联性,并约束语言编码器调整程度以保证模型不会只针对语言提示内容做出优化,而针对未出现内容出现检测性能下降的现象,最终提升视觉巡检多任务模型的调整效果,保证视觉巡检多任务学习方法的针对性和泛化性。
53、本发明设计了冻结预训练视觉-语言模型与可学习语言之间的调整损失函数,约束语言模型提示的调整幅度,避免在训练过程中模型针对某些语言提示过拟合导致视觉-语言模型的泛化性降低,确保了多任务学习结果的可推广性。
54、本发明设计了可学习共享源提示和可学习缩放矩阵,增强语言编码器和视觉编码器二者可学习提示的一致性;根据共享源提示生成组共享提示和单个任务提示,实现单任务学习和组内任务学习性能的一致提升。依赖以上两种操作整个网络训练过程的多模态提示协同训练。
1.基于多模态提示协同的视觉巡检多任务学习方法,其特征在于,以多模态提示协同多任务学习网络作为视觉-语言模型实现视觉巡检多任务学习,所述多模态提示协同多任务学习网络包括语言提示编码器和视觉编码器,语言提示编码器包括并行的冻结语言编码器和语言编码器;
2.根据权利要求1所述的基于多模态提示协同的视觉巡检多任务学习方法,其特征在于,所述方法包括以下步骤:
3.根据权利要求2所述的基于多模态提示协同的视觉巡检多任务学习方法,其特征在于,所述步骤2通过耦合函数计算语言编码器与视觉编码器两个任务共享提示参数的梯度余弦相似性,具体如下:
4.根据权利要求2所述的基于多模态提示协同的视觉巡检多任务学习方法,其特征在于,步骤3所述语言编码器和视觉编码器的提示的生成方式为:
5.根据权利要求2所述的基于多模态提示协同的视觉巡检多任务学习方法,其特征在于,所述步骤4中,针对语言提示,首先将语言提示经过词法分心后,投影到词向量空间,得到,表示词向量的长度;
6.根据权利要求2所述的基于多模态提示协同的视觉巡检多任务学习方法,其特征在于,所述步骤4中,针对视觉输入,首先进行视觉输入的块向量化,其中采用对齐的视觉图像、红外图像和深度图像作为联合的视觉输入图像,三种视觉输入在通道维度连接,组成的输入图像格式为,其中表示矩阵高度和长度,表示图像的通道数;将输入图像重组成一组输入2维图像块,构成的图像块,图像块的尺寸为,图像块的数量,然后使用可训练线性投影函数将图像块转换到维潜在向量,完成块向量化,计算方式如下:
7.根据权利要求6所述的基于多模态提示协同的视觉巡检多任务学习方法,其特征在于,所述视觉编码器的每层采用多头自注意力模块msa和多层感知器mlp组成,每层开始时进行层归一化,在msa和mlp间采用残差连接,多层感知器mlp包含两个gelu非线性激活层,依次叠加至个视觉编码器层;对于第层,被传递到层,通过以下所属的转换器顺序处理:
8.根据权利要求7所述的基于多模态提示协同的视觉巡检多任务学习方法,其特征在于,所述视觉编码器的单独任务视觉提示在训练过程中根据语言编码器和视觉编码器的前一层的提示进行动态更新,计算方式用下式表示:
9.根据权利要求8所述的基于多模态提示协同的视觉巡检多任务学习方法,其特征在于,经过视觉编码器的编码转换,通过最后一个编码器层得到的图像的标记为,使用图像投影函数将其投影到视觉-语言模型潜在嵌入空间,获得最终的视觉表示:。
10.根据权利要求1所述的基于多模态提示协同的视觉巡检多任务学习方法,其特征在于,步骤4训练过程中采用的损失函数为: