一种基于CLIP模型的像素-文本匹配的变压器缺陷检测方法

专利2025-08-02  22


本发明属于变压器设备缺陷检测,涉及一种基于clip模型的像素-文本匹配的变压器缺陷检测方法。


背景技术:

1、变压器是电力传输系统中不可或缺的设备之一,变压器的使用可以减少电力传输过程中的能量损耗,提高传输效率,同时实现电能的转换和分配,满足不同用户的需求。然而,变压器在使用中可能发生异常或存在隐患,这些隐患可能引发电力传输系统产生故障。其中,变压器设备缺陷包括渗漏油、金属锈蚀、部件外观破损等。变压器设备渗漏油可能会导致变压器过热,增加绝缘老化的风险,金属锈蚀可能使变压器更容易发生机械损坏,这些缺陷如果不及时修复,可能会导致电力系统的中断,甚至影响供电的有效性和可靠性。因此,对变压器进行定期的检测是非常重要的,可以及早发现并处理潜在的问题,确保电力系统的安全运行。

2、由于变压器设备缺陷的图像分割数据不容易获取,导致缺陷检测更加具有挑战性。在缺陷检测中,由于模型需要泛化到不同域的异常,其中前景特征,背景特征和异常区域可能会有很大差异,比如不同产品上的缺陷或不同电力设备上的缺陷。零样本检测(zsad)需要使用辅助数据训练的检测模型来检测异常,而无需目标数据集中的任何训练样本。最近,预先训练的视觉语言模型,如clip(contrastive language–image pre-training),在各种视觉任务上表现出了强大的零样本识别能力。然而,由于缺乏与缺陷相关的知识和将图像-文本对匹配转移到像素预测任务的复杂性,clip在零样本异常检测中的有效性受到限制。


技术实现思路

1、本发明的技术方案用于解决如何在没有足够多相关数据集的情况下,有效地对变压器进行缺陷检测的问题。

2、本发明是通过以下技术方案解决上述技术问题的:

3、一种基于clip模型的像素-文本匹配的变压器缺陷检测方法,包括:

4、步骤1、收集关于变压器缺陷的数据集作为训练集,用于clip模型的预训练;

5、步骤2、在视觉特征提取方面,选择vision transformer作为视觉编码器提取电力设备缺陷的图像特征并添加一个线性层,以适应变压器缺陷检测任务;在文本提示方面,将文本提示写成“正常”和“异常”的形式,选择text transformer作为文本编码器提取表示“正常”和“异常”的文本嵌入,使得模型专注于图像的异常区域而不是对象语义;

6、步骤3、利用像素-文本分数图指导clip模型进行密集预测;

7、步骤4、使用分割损失作为密集预测结果和真实标签之间的训练目标,同时使用像素-文本匹配损失,最小化正向文本和图像之间的距离,最大化负向文本和图像之间的距离;

8、步骤5、收集目标缺陷数据,并将其转化为多模态数据,将多模态数据输入clip模型,得到最终的分割结果。

9、进一步地,步骤2中所述的选择vision transformer作为视觉编码器提取电力设备缺陷的图像特征并添加一个线性层的方法具体如下:

10、(1)选择vision transformer作为视觉主干,并将第1到12层的特征表示为提取最后一层的特征作为密集预测的视觉特征,表示为其中h12、w12和c分别对应第12层主干的高度、宽度和通道数;

11、(2)通过对12层的特征进行全局平均池化来获取全局特征,从而得到

12、(3)通过将全局特征与特征图连接起来并将其传递给多头自注意力层,得到组合的表示,所述的组合的表示的公式为:

13、

14、其中,mhsa()表示多头自注意力层,x12表示vision transformer第12层的特征,表示对12层的特征进行全局平均池化来获取的全局特征;

15、(4)使用组合的表示作为图像编码器的输出,并在在图像编码器后添加一个线性层。

16、进一步地,步骤2中所述的将文本提示写成“正常”和“异常”的形式,选择texttransformer作为文本编码器提取表示“正常”和“异常”的文本嵌入的方法具体如下:

17、使用可学习的文本上下文,通过反向传播直接优化上下文来学习“正常”和“异常”的概念,采用包含“正常”和“异常”状态的描述性提示,计算与“正常”和“异常”状态相关的平均描述符如下:

18、

19、其中,mk是状态的文本表达式的数量,表示状态的第i个文本表达式的嵌入;

20、文本编码器的输入表示为:

21、[p,ek],k=1,2                       (3)

22、其中,分别表示“正常”和“异常”状态的嵌入;同时,是相应的可学习的文本上下文。

23、进一步地,步骤3中所述的所述的利用像素-文本分数图指导clip模型进行密集预测的方法具体如下:

24、在为“正常”和“异常”状态制作不同的文本嵌入后,获得文本特征随后,使用语言兼容的特征图z和文本特征t计算像素-文本分数图如下:

25、

26、其中和是在通道维度上的l2归一化版本,像素-文本分数图表征了像素和文本匹配的结果;

27、将分数图连接到最后一个特征图作为图像解码器的输入以结合语言先验,即

28、采用语义fpn作为图像解码器,使得模型能够更好地恢复图像细节;即:

29、m=imagedecoder(s)                (5)

30、其中,imagedecoder()表示图像解码器,

31、选择二元交叉熵损失作为密集预测结果和真实标签之间的训练目标:

32、

33、其中,为二元交叉熵损失,m表示模型预测结果,y表示真实标签,当模型预测正确时,损失为0;预测错误时损失较大。

34、使用的像素-文本匹配损失旨在将图像级特征转化为像素级特征,将原始的clip模型的对比损失函数中的余弦相似度替换为像素-文本分数图。

35、进一步地,所述的像素-文本匹配损失的计算如下:

36、

37、其中,si,i表示正样本的像素-文本分数图,si,j表示负样本的像素-文本分数图,τ是超参数。

38、一种电子设备,包括存储器以及处理器,所述存储器用于存储支持处理器执行上述基于clip模型的像素-文本匹配的变压器缺陷检测方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。

39、一种存储介质,存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述基于clip模型的像素-文本匹配的变压器缺陷检测方法的步骤。

40、本发明的优点在于:

41、本发明将clip中原始的图像-文本匹配转化为像素-文本匹配,并使用像素-文本分数图指导变压器缺陷的检测;首先收集变压器设备的缺陷数据,并将其转化为图像文本对,然后将其输入到模型中,将多模态数据映射到同一的多模态空间中,其次提取图像嵌入和用于表示“正常”和“异常”状态的文本嵌入,然后计算像素-文本分数图,这些分数图被馈送到fpn图像解码器并使用真实标签进行监督,经过训练后,将模型用于变压器设备缺陷的数据集,得到变压器设备缺陷的最终分割结果。本发明将clip强大的零样本识别能力转移到图像分割领域,在没有足够多相关数据集的情况下,能够有效地对变压器进行缺陷检测;优点如下:1)通过多模态学习,能够充分利用多模态数据的信息,提高缺陷数据标注的准确性;2)利用clip强大的零样本识别能力,在自然语言的监督下,对于同一种缺陷,即使场景变化较大,也可以准确检测出相应的缺陷,进一步提高对变压器进行缺陷检测的准确性;3)在语言域,为异常和典型场景独立学习文本表示,有助于弥合知识差距,指导模型学习“正常”和“异常”的概念;4)在图像域,视觉特征经过微调,将全局特征和特征图的组合连接起来作为图像编码器的输出,不仅保留了足够的空间信息,还能够与语言特征很好地对齐;在图像编码器之后加入了线性层,对线性层微调可以进一步细化视觉表示,以适应变压器缺陷检测任务。


技术特征:

1.一种基于clip模型的像素-文本匹配的变压器缺陷检测方法,其特征在于,包括:

2.根据权利要求1所述的基于clip模型的像素-文本匹配的变压器缺陷检测方法,其特征在于,步骤2中所述的选择vision transformer作为视觉编码器提取电力设备缺陷的图像特征并添加一个线性层的方法具体如下:

3.根据权利要求1所述的基于clip模型的像素-文本匹配的变压器缺陷检测方法,其特征在于,步骤2中所述的将文本提示写成“正常”和“异常”的形式,选择text transformer作为文本编码器提取表示“正常”和“异常”的文本嵌入的方法具体如下:

4.根据权利要求3所述的基于clip模型的像素-文本匹配的变压器缺陷检测方法,其特征在于,步骤3中所述的所述的利用像素-文本分数图指导clip模型进行密集预测的方法具体如下:

5.根据权利要求4所述的基于clip模型的像素-文本匹配的变压器缺陷检测方法,其特征在于,所述的像素-文本匹配损失的计算如下:

6.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1至5任一项所述基于clip模型的像素-文本匹配的变压器缺陷检测方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。

7.一种存储介质,存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至5任一项所述基于clip模型的像素-文本匹配的变压器缺陷检测方法的步骤。


技术总结
一种基于CLIP模型的像素‑文本匹配的变压器缺陷检测方法,属于变压器设备缺陷检测技术领域,解决在没有足够多相关数据集的情况下,如何有效地对变压器进行缺陷检测的问题,本发明将CLIP中原始的图像‑文本匹配转化为像素‑文本匹配,并使用像素‑文本分数图指导变压器缺陷的检测;收集变压器设备的缺陷数据,并将其转化为图像文本对,将其输入到模型中,将多模态数据映射到同一的多模态空间中,提取图像嵌入和用于表示“正常”和“异常”状态的文本嵌入,计算像素‑文本分数图,这些分数图被馈送到FPN图像解码器并使用真实标签进行监督,经过训练后,将模型用于变压器设备缺陷的数据集,得到变压器设备缺陷的最终分割结果。

技术研发人员:卢一相,李庆淏,竺德,高清维,赵大卫,孙冬
受保护的技术使用者:安徽大学
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-16514.html

最新回复(0)