一种图像处理方法、装置、设备、介质及计算机程序产品与流程

专利2026-05-13 2

本发明涉及图像处理，特别是涉及一种图像处理方法、装置、设备、介质及计算机程序产品。

背景技术：

1、计算机视觉（computer vision）是人工智能技术的一个重要分支，它的主要任务之一是通过对采集的图像进行处理以获得相应的场景信息，在自动驾驶、智能机器人、智能家居、智慧终端以及交通运输、航空遥感、工业产品装配等工业生产等领域均有广泛的应用。

2、视觉感知模型是计算机视觉技术的核心之一，视觉感知模型的感知能力决定着人工智能的视觉理解能力。由于不同应用场景的需求差异，在训练针对不同应用场景的视觉感知模型时需要采用不同的图像样本，如针对计算资源有限的应用场景通常采用分辨率较低的图像样本训练视觉感知模型，针对小目标、远距离目标的感知场景则采用分辨率较高的图像样本训练视觉感知模型。这就导致了在实际应用中，视觉感知模型一旦部署，就只能处理固定分辨率的输入图像。

3、为使视觉感知模型具有处理不同分辨率的输入图像的能力，需要采用不同分辨率的图像样本训练视觉感知模型。但由于不同分辨率的图像样本之间存在较大的数据分布差异，导致视觉感知模型的优化难度巨大，无法直接应用于视觉感知任务中，从而不能实际解决提升计算机视觉的分辨率泛化能力的问题。

4、如何提升计算机视觉适应不同分辨率的输入图像的分辨率泛化能力，是本领域技术人员需要解决的技术问题。

技术实现思路

1、本发明的目的是提供一种图像处理方法、装置、设备、介质及计算机程序产品，用于提升计算机视觉适应不同分辨率的输入图像的分辨率泛化能力。

2、为解决上述技术问题，本发明提供一种图像处理方法，包括：

3、利用包括多种分辨率的图像样本的图像样本集训练添加多分辨率泛化层的视觉感知模型；

4、在迭代训练中，对每个所述分辨率，利用所述分辨率对应的元学习器更新所述视觉感知模型中的多分辨率泛化层的参数后，将所述分辨率对应的图像样本输入所述视觉感知模型并计算得到感知损失值；

5、利用各所述分辨率对应的所述感知损失值更新所述视觉感知模型的参数以及各所述分辨率对应的所述元学习器的参数，得到当前迭代训练对应的所述视觉感知模型；

6、在达到迭代训练结束条件后，得到训练后的所述视觉感知模型；

7、利用所述元学习器根据待处理视觉感知任务对应的所述分辨率更新所述视觉感知模型的所述多分辨率泛化层的参数后，将所述待处理视觉感知任务的输入图像输入更新后的所述视觉感知模型，得到对所述待处理视觉感知任务的感知目标的视觉感知结果；

8、其中，所述多分辨率泛化层用于对输入的图像特征进行尺寸调整；所述元学习器用于根据对应的所述分辨率的图像特征尺寸生成所述多分辨率泛化层的参数。

9、一方面，利用所述分辨率对应的元学习器更新所述视觉感知模型中的多分辨率泛化层的参数，包括：

10、利用对应的所述元学习器根据所述分辨率对应的图像特征尺寸以及所述多分辨率泛化层对应的图像特征尺寸生成所述多分辨率泛化层的参数。

11、另一方面，利用对应的所述元学习器根据所述分辨率对应的图像特征尺寸以及所述多分辨率泛化层对应的图像特征尺寸生成所述多分辨率泛化层的参数，包括：

12、根据所述分辨率对应的图像特征尺寸以及第一图像特征尺寸生成图像特征向量；

13、根据所述图像特征向量和所述多分辨率泛化层对应的图像特征尺寸生成所述多分辨率泛化层的参数；

14、其中，所述第一图像特征尺寸为所述元学习器对应的所述分辨率的图像样本经过所述视觉感知模型中首个所述多分辨率泛化层之前的网络层处理后的图像特征尺寸。

15、另一方面，根据所述分辨率对应的图像特征尺寸以及第一图像特征尺寸生成图像特征向量，包括：

16、将基准图像特征尺寸、所述第一图像特征尺寸以及第二图像特征尺寸进行拼接，得到所述图像特征向量；

17、其中，所述基准图像特征尺寸为所述图像样本集中的基准图像样本经过所述视觉感知模型处理后的图像特征尺寸；所述第二图像特征尺寸为所述元学习器对应的所述分辨率的图像样本输入所述视觉感知模型处理后的图像特征尺寸。

18、另一方面，所述第一图像特征尺寸的确定步骤包括：

19、依次对所述第一图像特征进行深度分离卷积运算和全局均值池化运算后，得到所述第一图像特征尺寸。

20、另一方面，所述多分辨率泛化层的计算步骤，包括：

21、分别对输入的图像特征进行深度特征提取以及基于所述分辨率的注意力权重生成；

22、将深度特征提取结果与生成的注意力权重进行拼接后输出。

23、另一方面，对输入的图像特征进行深度特征提取，包括：

24、对输入的图像特征依次进行第一次深度分离卷积运算、归一化运算以及第二次深度分离卷积运算，得到所述深度特征提取结果。

25、另一方面，对输入的图像特征进行基于所述分辨率的注意力权重生成，包括：

26、对输入的图像特征依次进行全局均值池化运算和线性层运算，得到所述注意力权重。

27、另一方面，利用所述元学习器更新所述多分辨率泛化层的参数，包括：

28、利用所述元学习器更新所述多分辨率泛化层的线性层的参数。

29、另一方面，利用各所述分辨率对应的所述感知损失值更新所述视觉感知模型的参数以及各所述分辨率对应的所述元学习器的参数，包括：

30、以各所述分辨率对应的所述感知损失值的和值计算得到所述视觉感知模型的模型学习损失值；

31、利用所述模型学习损失值更新所述视觉感知模型的参数以及各所述分辨率对应的所述元学习器的参数。

32、另一方面，所述元学习器的参数更新步骤包括：

33、在所述视觉感知模型的迭代训练前，随机初始化各所述分辨率对应的所述元学习器的参数；

34、在所述视觉感知模型的迭代训练中，根据各所述分辨率对应的所述感知损失值更新所述元学习器的参数。

35、另一方面，根据各所述分辨率对应的所述感知损失值更新所述元学习器的参数，包括：

36、根据所述元学习器当前的参数、所述元学习器对应的学习率以及各所述分辨率对应的所述感知损失值更新所述元学习器的参数。

37、另一方面，还包括：

38、在所述视觉感知模型的迭代训练中更新所述元学习器对应的学习率。

39、另一方面，所述视觉感知模型的参数更新步骤包括：

40、在所述视觉感知模型的迭代训练前，随机初始化所述视觉感知模型的参数；

41、在所述视觉感知模型的迭代训练中，根据各所述分辨率对应的所述感知损失值更新所述视觉感知模型的参数。

42、另一方面，根据各所述分辨率对应的所述感知损失值更新所述视觉感知模型的参数，包括：

43、根据所述视觉感知模型当前的参数、所述视觉感知模型对应的学习率以及各所述分辨率对应的所述感知损失值更新所述视觉感知模型的参数。

44、另一方面，还包括：

45、在所述视觉感知模型的迭代训练中更新所述视觉感知模型对应的学习率。

46、为解决上述技术问题，本发明还提供一种图像处理装置，包括：

47、模型训练单元，用于利用包括多种分辨率的图像样本的图像样本集训练添加多分辨率泛化层的视觉感知模型；在迭代训练中，对每个所述分辨率，利用所述分辨率对应的元学习器更新所述视觉感知模型中的多分辨率泛化层的参数后，将所述分辨率对应的图像样本输入所述视觉感知模型并计算得到感知损失值；利用各所述分辨率对应的所述感知损失值更新所述视觉感知模型的参数以及各所述分辨率对应的所述元学习器的参数，得到当前迭代训练对应的所述视觉感知模型；在达到迭代训练结束条件后，得到训练后的所述视觉感知模型；

48、模型微调单元，用于利用所述元学习器根据待处理视觉感知任务对应的所述分辨率更新所述视觉感知模型的所述多分辨率泛化层的参数，得到更新后的所述视觉感知模型；

49、图像处理单元，用于将所述待处理视觉感知任务的输入图像输入更新后的所述视觉感知模型，得到对所述待处理视觉感知任务的感知目标的视觉感知结果；

50、其中，所述多分辨率泛化层用于对输入的图像特征进行尺寸调整；所述元学习器用于根据对应的所述分辨率的图像特征尺寸生成所述多分辨率泛化层的参数。

51、为解决上述技术问题，本发明还提供一种图像处理设备，包括：

52、存储器，用于存储计算机程序；

53、处理器，用于执行所述计算机程序，所述计算机程序被所述处理器执行时实现如上述任意一项所述图像处理方法的步骤。

54、为解决上述技术问题，本发明还提供一种非易失性存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述图像处理方法的步骤。

55、为解决上述技术问题，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述图像处理方法的步骤。

56、本发明所提供的图像处理方法，有益效果在于在视觉感知模型中添加用于对输入的图像特征进行尺寸调整的多分辨率泛化层，在利用包括多种分辨率的图像样本的图像样本集训练该视觉感知模型时，利用元学习器根据分辨率对应的图像特征尺寸生成多分辨率泛化层的参数，将分辨率对应的图像样本输入此时的视觉感知模型并计算得到感知损失值，同理得到各分辨率对应的感知损失值并利用各感知损失值更新视觉感知模型的参数以及各分辨率对应的元学习器的参数，得到当前迭代训练对应的视觉感知模型，由此进行迭代训练得到训练后的视觉感知模型，降低了不同分辨率图像样本的数据分布差异带来的优化难度，从而提升了视觉感知模型处理不同分辨率的输入图像的分辨率泛化能力；在推理过程中只需利用元学习器根据待处理视觉感知任务对应的分辨率更新视觉感知模型的多分辨率泛化层的参数，即可适应应用场景的输入图像分辨率，从而提升了计算机视觉适应不同分辨率的输入图像的分辨率泛化能力。

57、本发明还提供一种图像处理装置、设备、介质及计算机程序产品，具有上述有益效果，在此不再赘述。

技术特征：

1.一种图像处理方法，其特征在于，包括：

2.根据权利要求1所述的图像处理方法，其特征在于，利用所述分辨率对应的元学习器更新所述视觉感知模型中的多分辨率泛化层的参数，包括：

3.根据权利要求2所述的图像处理方法，其特征在于，利用对应的所述元学习器根据所述分辨率对应的图像特征尺寸以及所述多分辨率泛化层对应的图像特征尺寸生成所述多分辨率泛化层的参数，包括：

4.根据权利要求3所述的图像处理方法，其特征在于，根据所述分辨率对应的图像特征尺寸以及第一图像特征尺寸生成图像特征向量，包括：

5.根据权利要求3所述的图像处理方法，其特征在于，所述第一图像特征尺寸的确定步骤包括：

6.根据权利要求1所述的图像处理方法，其特征在于，所述多分辨率泛化层的计算步骤，包括：

7.根据权利要求6所述的图像处理方法，其特征在于，对输入的图像特征进行深度特征提取，包括：

8.根据权利要求6所述的图像处理方法，其特征在于，对输入的图像特征进行基于所述分辨率的注意力权重生成，包括：

9.根据权利要求8所述的图像处理方法，其特征在于，利用所述元学习器更新所述多分辨率泛化层的参数，包括：

10.根据权利要求1所述的图像处理方法，其特征在于，利用各所述分辨率对应的所述感知损失值更新所述视觉感知模型的参数以及各所述分辨率对应的所述元学习器的参数，包括：

11.根据权利要求1所述的图像处理方法，其特征在于，所述元学习器的参数更新步骤包括：

12.根据权利要求11所述的图像处理方法，其特征在于，根据各所述分辨率对应的所述感知损失值更新更新所述元学习器的参数，包括：

13.根据权利要求12所述的图像处理方法，其特征在于，还包括：

14.根据权利要求1所述的图像处理方法，其特征在于，所述视觉感知模型的参数更新步骤包括：

15.根据权利要求14所述的图像处理方法，其特征在于，根据各所述分辨率对应的所述感知损失值更新所述视觉感知模型的参数，包括：

16.根据权利要求15所述的图像处理方法，其特征在于，还包括：

17.一种图像处理装置，其特征在于，包括：

18.一种图像处理设备，其特征在于，包括：

19.一种非易失性存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至16任意一项所述图像处理方法的步骤。

20.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至16任意一项所述图像处理方法的步骤。

技术总结
本发明涉及图像处理技术领域，具体公开了一种图像处理方法、装置、设备、介质及计算机程序产品，通过在视觉感知模型中添加用于对输入的图像特征进行尺寸调整的多分辨率泛化层，在利用多种分辨率图像样本训练视觉感知模型时，利用元学习器根据分辨率对应的图像特征尺寸生成多分辨率泛化层的参数，将对应的图像样本输入此时的视觉感知模型并计算得到感知损失值，利用各感知损失值更新视觉感知模型的参数以及元学习器的参数，迭代训练得到视觉感知模型，降低了不同分辨率图像样本的数据分布差异带来的优化难度，提升了视觉感知模型处理不同分辨率的输入图像的分辨率泛化能力，进而提升了计算机视觉适应不同分辨率的输入图像的分辨率泛化能力。

技术研发人员：张腾飞,李茹杨,张恒,邓琪,赵雅倩,李仁刚
受保护的技术使用者：苏州元脑智能科技有限公司
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-21211.html

专利

最新回复(0)