基于自我提示学习的域泛化行人重识别方法

专利2025-10-06 31

本发明属于行人重识别，更为具体地讲，涉及一种基于自我提示学习的域泛化行人重识别方法。

背景技术：

1、行人重识别(re-identification)旨在从多个不相交的摄像机视图中检索匹配到相同身份的人，它有广泛的应用范围，如视频安全和以人为中心的理解分析，主要致力于解决跨摄像头、场景下行人的识别和检索。在难以获取清晰的人脸视频片段时，行人重识别可以作为人脸识别的技术空白填补，增强跨摄像头数据的时空连续性。

2、行人重识别同时在公共安全和商业经济等社会层面具备巨大的潜在价值。在公共安全方面，行人重识别技术能够代替人工进行嫌疑人以及走失人员的路径查找，极大地预防了安全事故的发生。在商业经济方面，通过行人重识别将收集的客户轨迹转换为效益统计数字，市场管理人员可以获得更多有价值的见解和对客户行为的深入分析。行人重识别的一个主要挑战是跨摄像机场景的变化，如背景、遮挡、照明、拍摄角度等。依靠深度学习的进步，独立同分布假设下的行人重识别已经能够达到优良的效果。

3、然而，当将行人重识别模型部署到现实世界的安全场景时，由于隐私保护及标注成本等原因，目标域数据往往不可用。因此，如何改进行人重识别模型的泛化能力是一个关键技术问题。由于目标域不可见，模型在看不见的场景中会受到背景和遮挡的干扰，从而影响其可辨别性。为了解决这一问题，目前研究人员提出了两类方法。第一类侧重于特征解纠缠，旨在分离与身份相关的信息和与身份无关的信息；第二类基于语义分割，从图像层面将行人部分与干扰因子分离。以前在行人重识别中使用的分割模型，通常是在人类解析数据集上进行的预训练，但传统分割模型下的分割性能较差。随着大规模预训练视觉模型的出现，基于分割的行人重识别逐渐变得有价值起来了。然而，这些大规模预训练的语义分割模型十分依赖于图像的高分辨率和高质量的提示来实现稳定的分割结果，它们在行人重识别的图像上只有通过高质量的手动提示才能获得令人满意的效果。

技术实现思路

1、本发明的目的在于克服现有技术的不足，提供一种基于自我提示学习的域泛化行人重识别方法，通过自动生成高质量的提示集，进行像素级别的目标-场景分离，以缓解模型在未见过的相机场景中受到背景和遮挡等干扰导致的泛化能力不佳，提高行人重识别的准确性。

2、为了实现上述目的，本发明基于自我提示学习的域泛化行人重识别方法包括以下步骤：

3、s1：构建图像分割模型，用于根据提示从输入图像中生成分割掩码图像，分割掩码图像中每个像素值表示输入图像中对应像素属于前景或者背景的概率；根据实际需要设置大规模图像分割任务的数据集，对图像分割模型进行预训练；图像分割模型包括嵌入模块，transformer编码器，池化模块，提示编码器和掩码解码器，其中：

4、嵌入模块用于将大小为c×h×w输入的行人图像x分成n个不重叠的图像补丁，c表示输入行人图像的通道数，h×w表示输入行人图像的尺寸；然后将每个补丁映射为一个向量作为图像令牌，从而得到n个图像令牌xn，n＝1,2,…,n；同时获取每个图像补丁的位置嵌入pn，然后将n个图像令牌xn和位置嵌入pn进行叠加构成图像令牌序列y＝[x1+p1,x2+p2,…,xn+pn]并输出至transformer编码器；

5、transformer编码器包含堆叠的l层transformer编码块，用于对接收到的图像令牌序列y进行编码，每层transformer编码块分别对输入特征提取隐藏表示zj，j＝1,2,…,l，将最后一层输出的隐藏表示zl作为图像令牌序列y的隐藏表示f(z)发送至池化模块；

6、池化模块用于对隐藏表示f(z)进行池化操作，得到特征向量z＝pooling(f(z))并输出至解码器；

7、提示编码器用于对提示信息进行编码得到提示向量t，并输出至掩码解码器；

8、掩码解码器用于根据特征向量z和提示向量t解码得到分割掩码mask；

9、s2：以步骤s1预训练好的图像分割模型作为基础，构建基于自我提示的行人重识别模型，包括步骤s1预训练好的图像分割模型和注意力引导提示生成模块、场景无关特征提取模块、分类器，其中：

10、图像分割模型中的嵌入模块，transformer编码器，池化模块用于对输入图像x进行特征提取，得到行人特征z；

11、注意力引导提示生成模块用于从图像分割模型中transformer编码器的l层transformer编码块中分别获取输入图像令牌和输出隐藏表示中每个图像令牌的注意力，然后生成自我提示集合并输出至图像分割模型的提示编码器，具体方法为：

12、记每层transformer编码块的隐藏表示zj中n个图像令牌分别为zj,n，将输入图像令牌序列y中每个输入图像令牌xn、每层transformer编码块的每个图像令牌zj,n和池化模块输出的特征向量z作为节点，将每层transformer编码块所提取的每个输入图像令牌与输出图像令牌之间的注意力值作为对应图像令牌之间的边的权值，将最后一层输出的图像令牌zl,n与特征向量z之间的边的权值设置为1/n，组成加权有向无环图；然后采用最大流算法，得到每个输入图像令牌xn到特征向量z的最大流路径rn，记其流量为wn；选择前m个最大的流量所对应的输入图像令牌m＝1,2,…,m，nm表示第m个最大流量所对应的输入图像令牌的序号；然后从m个输入图像令牌中选取若干个作为提示图像令牌，将其对应的位置信息作为自我提示构成自我提示集合，提示图像令牌的筛选方法为：

13、1)将输入图像令牌作为第1个提示图像令牌，记其位置信息为s1；

14、2)令序号k＝2，m＝2；

15、3)判断是否表示输入图像令牌的位置，d()表示求取距离，α表示预设的距离阈值，如果是，进入步骤4)，否则进入步骤6)；

16、4)将输入图像令牌作为第k个提示图像令牌；

17、5)令k＝k+1，进入步骤6)；

18、6)判断是否m＜m，如果是，进入步骤7)，否则筛选结束；

19、7)令m＝m+1，返回步骤3)；

20、图像分割模型中的提示解码器用于对自我提示集合中的提示信息进行编码得到提示向量t；

21、图像分割模型中的掩码解码器用于根据特征向量z和提示向量t解码得到分割掩码mask；

22、场景无关特征提取模块用于根据掩码解码器输出的分割掩码mask对transformer编码器第j*层transformer编码块输出的隐藏表示进行处理，j*根据实际需要设置，然后重新输入第j*+1层transformer编码块进行二次特征提取，最后由池化模块得到二次行人特征z′并发送至分类器，隐藏表示处理具体方法为：

23、对分割掩码mask进行高斯卷积将分割边缘的分类结果映射成0到1的浮点值得到像素集分割软掩码mask′；选取第j*层transformer编码块输出的隐藏表示对隐藏表示进行反卷积得到与分割软掩码mask′尺寸相同的特征采用分割软掩码mask′对特征进行过滤操作得到特征然后将特征进行卷积还原为隐藏表示的尺寸得到特征然后将隐藏表示和特征进行融合，得到新的隐藏表示

24、

25、分类器用于根据二次行人特征z′进行分类，得到行人id；

26、s3：根据实际部署场景获取训练样本集，每个训练样本图像表示为i＝1,2,…,d，d表示训练样本图像的数量，训练样本的标签fi表示行人图像中行人的id；

27、s4：固定基于自我提示的行人重识别模型中其他模块的参数，将步骤s3中各个训练样本分别输入基于自我提示的行人重识别模型，对transformer编码器进行优化训练，得到训练好的基于自我提示的行人重识别模型；

28、s5：当需要进行行人重识别时，将行人图像输入步骤s4训练好的基于自我提示的行人重识别模型，得到行人的识别结果。

29、本发明基于自我提示学习的域泛化行人重识别方法，首先构建根据提示对输入图像进行分割得到前景图像的图像分割模型，并采用大规模图像分割任务的数据集进行预训练，然后以预训练好的图像分割模型作为基础，构建基于自我提示的行人重识别模型，在该模型中通过注意力引导的生成自我提示集合，从而生成分割提示，并基于以此得到的分割结果，通过软掩码技术对特征图进行处理，然后二次提取行人特征，根据该二次行人特征进行行人重识别。

30、本发明具有以下有益效果：

31、1)本发明通过引入注意力引导的提示生成方法，可以自动定位到包含行人身份判别信息的区域，生成更加精细的分割提示，提高身份无关信息的筛除能力，从而提高行人重识别的准确率；

32、2)本发明采用与场景独立的特征提取，能够在保证边缘信息损失最小化的同时生成可靠的分割结果；

33、3)本发明能够在面向隐私保护或标注成本较高导致的缺乏目标域数据的情况下，具有较高的实际应用价值。

技术特征：

1.一种基于自我提示学习的域泛化行人重识别方法，包括以下步骤：

2.根据权利要求1所述的域泛化行人重识别方法，其特征在于，所述步骤s1中transformer编码器中的l层transformer编码块交替采用局部注意力机制和全局注意力机制对当前transformer编码块的输入特征进行处理。

3.根据权利要求1所述的域泛化行人重识别方法，其特征在于，所述步骤s2中隐藏表示处理时所选取的transformer编码块序号j*≤0.5l。

4.根据权利要求1所述的域泛化行人重识别方法，其特征在于，所述步骤s4中transformer编码器优化训练时损失函数的计算方法如下：

技术总结
本发明公开了一种基于自我提示学习的域泛化行人重识别方法，首先构建根据提示对输入图像进行分割得到前景图像的图像分割模型，并采用大规模图像分割任务的数据集进行预训练，然后以预训练好的图像分割模型作为基础，构建基于自我提示的行人重识别模型，在该模型中通过注意力引导的生成自我提示集合，从而生成分割提示，并基于以此得到的分割结果，通过软掩码技术对特征图进行处理，然后二次提取行人特征，根据该二次行人特征进行行人重识别。本发明通过自动生成高质量的提示集，进行像素级别的目标‑场景分离，以缓解模型在未见过的相机场景中受到背景和遮挡等干扰导致的泛化能力不佳，提高行人重识别的准确性。

技术研发人员：高联丽,倪浩,李钰科,许辉,宋井宽
受保护的技术使用者：电子科技大学（深圳）高等研究院
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-16887.html

专利

最新回复(0)