本发明涉及计算机视觉,尤其涉及一种全景场景图生成方法、装置、设备以及存储介质。
背景技术:
1、计算机视觉领域的快速发展使得图像分类、语义分割和视觉关系检测等视觉任务在短时间内获得了许多突破性成果,这些成果是由卷积神经网络以及全卷积网络驱动的。
2、在此基础上,图像理解的研究逐渐从低级特征提取发展到高级语义学习,下一步的方向是推断多个对象之间的语义关系,从而推动多模态任务的发展,例如视觉问答、图像描述和视觉常识推理等任务。其中,全景场景图的出现为图像理解提供了一个推断视觉场景的平台。
3、在现有全景场景图生成方案中,一个显著的技术缺陷是缺乏对丰富文本信息的利用。现有全景场景图生成方案主要依赖视觉信息处理,或者在最好的情况下,仅使用简单的文本标签和基本描述性信息来辅助物体关系的识别和分类。这样做的局限性在于,简单文本信息无法充分捕捉复杂的物体间关系和场景的语义复杂性,尤其是在处理不常见的关系类别时效果尤为有限。
技术实现思路
1、本发明实施例提供了一种全景场景图生成方法、装置、设备及存储介质。
2、第一方面,本发明实施例提供了一种全景场景图生成方法,该方法包括:
3、对指定图像进行分析,得到关系提议文本特征以及关系判断文本特征;
4、对指定图像进行处理,得到视觉特征、物体类别以及掩码;
5、将视觉特征分别与关系提议文本特征、关系判断文本特征进行融合;
6、对视觉特征与关系提议文本特征融合后得到的特征进行解码,得到关系提议预测结果;对视觉特征与关系判断文本特征融合后得到的特征进行解码,得到关系判断预测结果;
7、将关系提议预测结果与关系判断预测结果进行融合,得到关系预测结果;
8、结合关系预测结果、物体类别以及掩码,生成全景场景图。
9、在第一方面的一些可实现方式中,对指定图像进行分析,得到关系提议文本特征以及关系判断文本特征,包括:
10、对指定图像进行分析,获取关系提议提示问题以及关系判断提示问题;
11、根据关系提议提示问题以及关系判断提示问题,获取关系提议文本特征以及关系判断文本特征。
12、在第一方面的一些可实现方式中,根据关系提议提示问题以及关系判断提示问题,获取关系提议文本特征以及关系判断文本特征,包括:
13、基于关系提议提示问题以及关系判断提示问题对大语言模型进行提问,得到关系提议文本以及关系判断文本;
14、使用文本特征提取器对关系提议文本以及关系判断文本进行文本特征提取,得到关系提议文本特征以及关系判断文本特征;或者,
15、根据关系提议提示问题以及关系判断提示问题从文本特征数据库中查找对应的关系提议文本特征以及关系判断文本特征。
16、在第一方面的一些可实现方式中,对指定图像进行处理,得到视觉特征、物体类别以及掩码,包括:
17、使用全景图像分割模型对指定图像进行处理,得到视觉特征、物体类别以及掩码。
18、在第一方面的一些可实现方式中,对视觉特征与关系提议文本特征融合后得到的特征进行解码,得到关系提议预测结果,包括:
19、将视觉特征与关系提议文本特征融合后得到的特征输入关系提议解码器,在关系提议解码器中,通过自注意力层对视觉特征进行处理,以集中视觉特征中的关系信息,通过交叉注意力层对处理后的视觉特征与关系提议文本特征进行处理,将潜在关系的常识知识整合进视觉特征,以此为基础,通过关系预测层预测主客体间的可能关系,得到关系提议预测结果。
20、在第一方面的一些可实现方式中,对视觉特征与关系判断文本特征融合后得到的特征进行解码,得到关系判断预测结果,包括:
21、将视觉特征与关系判断文本特征融合后得到的特征输入关系判断解码器,在关系判断解码器中,视觉特征与每个<主体-关系-客体>三元组对应的关系判断文本特征独立交互,将所有通过关系预测层并行预测得到的关系预测结果合并,得到关系判断预测结果。
22、在第一方面的一些可实现方式中,将关系提议预测结果与关系判断预测结果进行融合,得到关系预测结果,包括:
23、将关系提议文本特征、关系判断文本特征以及关系提议文本特征输入门控网络,生成关系提议预测结果以及关系判断预测结果对应的权重;
24、根据关系提议预测结果以及关系判断预测结果对应的权重,对关系提议预测结果以及关系判断预测结果进行加权求和,得到关系预测结果。
25、第二方面,本发明实施例提供了一种全景场景图生成装置,该装置包括:
26、分析模块,用于对指定图像进行分析,得到关系提议文本特征以及关系判断文本特征;
27、处理模块,用于对指定图像进行处理,得到视觉特征、物体类别以及掩码;
28、融合模块,用于将视觉特征分别与关系提议文本特征、关系判断文本特征进行融合;
29、解码模块,用于对视觉特征与关系提议文本特征融合后得到的特征进行解码,得到关系提议预测结果;对视觉特征与关系判断文本特征融合后得到的特征进行解码,得到关系判断预测结果;
30、融合模块,还用于将关系提议预测结果与关系判断预测结果进行融合,得到关系预测结果;
31、生成模块,用于结合关系预测结果、物体类别以及掩码,生成全景场景图。
32、第三方面,本发明实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
33、第四方面,本发明实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如上所述的方法。
34、在本发明实施例中,可以在丰富文本信息的辅助下,实现更准确的关系预测,进而生成无偏的全景场景图。
35、应当理解,
技术实现要素:
部分中所描述的内容并非旨在限定本发明实施例的关键或重要特征,亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。
1.一种全景场景图生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对指定图像进行分析,得到关系提议文本特征以及关系判断文本特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述关系提议提示问题以及所述关系判断提示问题,获取关系提议文本特征以及关系判断文本特征,包括:
4.根据权利要求1所述的方法,其特征在于,所述对指定图像进行处理,得到视觉特征、物体类别以及掩码,包括:
5.根据权利要求1所述的方法,其特征在于,所述对所述视觉特征与所述关系提议文本特征融合后得到的特征进行解码,得到关系提议预测结果,包括:
6.根据权利要求1所述的方法,其特征在于,所述对所述视觉特征与所述关系判断文本特征融合后得到的特征进行解码,得到关系判断预测结果,包括:
7.根据权利要求1所述的方法,其特征在于,所述将所述关系提议预测结果与所述关系判断预测结果进行融合,得到关系预测结果,包括:
8.一种全景场景图生成装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的方法。
