一种面向智慧城市场景的视觉定位方法及系统

专利2023-06-08  98



1.本发明涉及移动智能体视觉定位技术领域,尤其是涉及一种面向智慧城市场景的视觉定位方法及系统。


背景技术:

2.随着深度学习和计算机视觉技术的快速发展,深度学习在计算机视觉领域和机器人领域显示出了强大的能力。相比于传统的基于手工设计的特征,基于学习的方法能够自动从输入数据中获取有效的特征,对环境有更好的适应能力,能更好的应用于移动智能体。让机器人完成不同种类的任务,一直是科学研究的热点和难点,特别的对于移动机器人,实现其他任务的前提是需要确定自身在环境中所处的位置,定位的准确程度决定着机器人是否能够安全的导航,定位是slam技术的关键一环,它能够应用于移动机器人使机器人在未知环境中,根据搭载的传感器获取的数据,实现自身的定位。
3.根据神经网络训练是否需要真值,可以将基于深度学习的定位分为自监督学习的方法和无监督学习的方法,自监督学习的方法不需要真值。对于监督学习的方法,需要大量的真值数据,在现实世界中,真值数据的获取难度和成本都较高,它们限制了监督学习方法的性能和泛化能力;而无监督学习的方法,不需要真值,基于相机的视觉定位,能很容易的获取数据且成本低,基于无监督学习的方法能利用无标记的视频序列数据,就能估计相机的位姿。现在的研究者更多的倾向于无监督或者自监督的方法,无监督学习也是现在的研究热点。
4.按照传感器的不同,基于视觉的方法主要有单目、双目和rgbd等。对于双目相机,会存在计算量大以及面对无纹理环境导致定位失败的问题;对于rgbd相机成本较高,且不容易部署;而单目相机成本低,易部署,但会失去深度信息。
5.现有的主流的无监督的单目相机位姿估计方法,采用一个posenet网络得到帧间位姿,而posenet网络预测的准确性直接影响着整个系统的性能,限制了无监督学习网络的性能提高。


技术实现要素:

6.本发明的目的就是为了克服上述现有技术存在的缺陷而提供了一种面向智慧城市场景的视觉定位方法及系统,通过引入gnn对光流进行精炼,提高了相机位姿估计的能力。
7.本发明的目的可以通过以下技术方案来实现:
8.根据本发明的第一方面,提供了一种面向智慧城市场景的视觉定位方法,该方法包括以下步骤:
9.步骤s1、移动智能体通过单目相机获取当前场景下的rgb图像并进行预处理,得到图像序列;
10.步骤s2、将预处理得到的图像序列分别输入至光流学习网络pwc-net和深度估计
自监督monodepth2网络,提取光流信息和深度信息;
11.步骤s3、将光流信息输入至图神经网络gnn,得到精炼的对应点;
12.步骤s4、基于对应点和相机内参矩阵,求解相机位姿;
13.步骤s5、利用步骤s2得到深度信息和步骤s4求解得到的相机位姿信息,得到合成光流以及输入图像序列对应的合成视图;
14.步骤s6、构造包含光流损失、光度一致性损失、结构相似性损失和深度平滑损失的综合损失函数,对步骤s2~s5构建的单目相机位姿估计模型进行训练;
15.步骤s7、采用训练好的单目相机位姿估计模型,进行相机位姿估计,完成移动智能体在环境中的定位。
16.优选地,所述步骤s1中的当前场景包括室内场景和室外场景。
17.优选地,所述步骤s1中的预处理具体为:将获取当前场景下的rgb图像进行归一化预处理,并转换成需要的数据格式。
18.优选地,所述步骤s2中的光流信息包括前向光流信息和后向光流信息。
19.优选地,所述步骤s4具体为:基于对应点和相机内参矩阵,采用对极几何、八点法和奇异值分解得到基础矩阵或本质矩阵,求解相机位姿t=[r,t];其中,r为旋转矩阵,t为平移向量;
[0020]
所述相机的位姿包括后一帧到当前帧之间的相对位姿以及当前帧到后一帧之间的相对位姿。
[0021]
优选地,所述步骤s5具体为:
[0022]
基于深度估计自监督网络monodepth2网络估计得到的当前帧和后一帧图像序列i
t
,i
t+1
的深度信息d
t
,d
t+1
,以及步骤s4求得的当前帧到后一帧之间的相对位姿t
t

t+1
和后一帧到当前帧之间的相对位姿t
t+1

t
,分别合成当前帧图像序列i
t
中的像素点p
t
在后一帧图像序列i
t+1
的对应点以及后一帧图像序列i
t+1
中的像素点p
t+1
在当前帧图像序列i
t
的对应点,具体表达式为:
[0023][0024][0025]
则,合成的前向光流和后向光流的表达式分别为:
[0026][0027][0028]
式中,k表示相机内参矩阵。
[0029]
优选地,所述步骤s6中的综合损失函数为光流损失、光度一致性损失、结构相似性损失和深度平滑损失的叠加。
[0030]
优选地,所述步骤s6中光流损失包括前向光流与合成的前向光流之间差的绝对值,以及后向光流与合成的后向光流之间差的绝对值。
[0031]
根据本发明的第二方面,提供了一种面向智慧城市场景的视觉定位系统,采用任一项所述的方法,所述系统包括:
[0032]
配备有单目相机的移动智能体,用于获取当前场景下的rgb图像;
[0033]
位姿估计模块,用于对获取的rgb图像进行预处理并采用基于自监督学习的端到端的单目视觉定位模型进行位姿估计。
[0034]
与现有技术相比,本发明具有以下优点:
[0035]
1)本发明以深度学习为基础,提出了一种自监督学习的端到端的单目视觉定位方法,摆脱了主流posenet网络对整个网络框架的限制,引入了新颖的图神经网络对光流的精炼,提高了相机位姿估计的能力;
[0036]
2)本发明提出的视觉定位方法,有效解决了移动智能体在室外和室内等不同场景下的视觉定位问题;
[0037]
3)本发明提出单目视觉定位网络框架,在训练和测试阶段使用同一个框架,不需要区别对待,特别的在测试阶段,只需要整个框架的光流分支,即可完成移动智能体的位姿估计。
附图说明
[0038]
图1是本发明的视觉定位方法流程图;
[0039]
图2是本发明的位姿估计流程图。
具体实施方式
[0040]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
[0041]
实施例
[0042]
结合附图1和2,给出本发明的方法实施例,一种面向智慧城市场景的视觉定位方法,该方法以自监督方式实现端到端的单目相机位姿估计,不需要相机位姿的真值,只需要单目相机采集的rgb彩色图像序列作为网络的输入,且位姿估计的准确度不受限于posenet网络;具体包括以下步骤:
[0043]
步骤s1、移动智能体通过单目相机获取当前场景下的rgb图像并进行预处理,得到图像序列;
[0044]
步骤s2、将预处理得到的图像序列分别输入至光流学习网络pwc-net和深度估计自监督monodepth2网络,提取光流信息和深度信息,具体为:
[0045]
分别从相同的原始相邻图像i
t
,i
t+1
中获得前向光流和后向光流以及对应的深度d
t
,d
t+1

[0046]
步骤s3、为了获得更加稳健的光流对应点,将前向光流和后向光流输入图神经网络gnn得到精炼的对应点
[0047]
步骤s4、基于对应点和相机内参矩阵,求解相机位姿,具体为:
[0048]
得到相邻图像之间的特征对应点后,根据如下对极几何关系和八点法,求得本质矩阵和基础矩阵:
[0049]
[0050]
e=t
∧r[0051]
f=k-t
ek-1
[0052]
其中,t

表示平移t的反对称矩阵,r表示旋转矩阵,k表示相机内参矩阵,p1和p2分别表示图像i
t
,i
t+1
的像素点,e表示本质矩阵,f表示基础矩阵;
[0053]
然后采用八点法和本质矩阵构造一个线性方程组,系数矩阵由特征对应点的位置构成,本质矩阵e的各元素由上述构成的方程解得,接着通过奇异值分解(svd)求得旋转矩阵r和平移向量t,位姿t=[r,t]。
[0054]
步骤s5、利用深度估计自监督monodepth2网络得到深度信息和步骤s4求解得到的相机位姿信息,合成光流以及输入图像序列对应的合成视图,具体为:
[0055]
输入图像i
t
,i
t+1
经过monodepth2网络得到预测的深度d
t
,d
t+1
,同时利用s4中求得的位姿t
t

t+1
,t
t+1

t
,通过以下公式合成p
t
在i
t+1
视图中对应的点:
[0056][0057]
同理:
[0058][0059]
此时,合成的前向光流和后向光流分别用如下公式计算:
[0060][0061][0062]
步骤s6、构造包含光流损失、光度一致性损失、结构相似性损失和深度平滑损失的综合损失函数,对步骤s2~s5构建的单目相机位姿估计模型进行训练;
[0063]
前向光流损失和后向光流损失分别为:
[0064][0065][0066]
光度一致性损失和结构相似性损失(ssim)为:
[0067][0068]
其中,α和β为用以平衡光度一致性损失的参数,本实施例中,参数分别设为α=0.15,β=0.85;
[0069]
深度平滑损失为:
[0070][0071]
其中,表示一阶导数。
[0072]
整个网络的损失函数为上述损失函数之和,用以约束整个网络。
[0073]
步骤s7、采用训练好的单目相机位姿估计模型,输入单目相机采集的彩色视频序
列,经过光流网络、图神经网络,得到精炼的特征对应点,最后沿用s4中的方法,计算得到相机的位姿,完成定位。
[0074]
在训练阶段,移动智能体通过单目摄像头获取当前场景的rgb图像,为了便于网络的学习,将获取的图像进行归一化预处理,并转换成网络需要的tensor数据格式,同时可以加载pwc-net和monodepth2网络的预训练模型,加速网络的收敛,也可以重新开始训练网络,本发明采用加载预训练模型,加快整个网络的收敛速度。
[0075]
在测试阶段,如图2所示,当移动智能体处于未知环境中,移动智能体通过相机捕获环境图像,对输入图像进行归一化处理,并加载训练好的模型,即可对相机进行位姿估计,完成移动智能体在环境中的定位。
[0076]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

技术特征:
1.一种面向智慧城市场景的视觉定位方法,其特征在于,该方法包括以下步骤:步骤s1、移动智能体通过单目相机获取当前场景下的rgb图像并进行预处理,得到图像序列;步骤s2、将预处理得到的图像序列分别输入至光流学习网络pwc-net和深度估计自监督monodepth2网络,提取光流信息和深度信息;步骤s3、将光流信息输入至图神经网络gnn,得到精炼的对应点;步骤s4、基于对应点和相机内参矩阵,求解相机位姿;步骤s5、利用步骤s2得到深度信息和步骤s4求解得到的相机位姿信息,合成光流以及输入图像序列对应的图像视图;步骤s6、构造包含光流损失、光度一致性损失、结构相似性损失和深度平滑损失的综合损失函数,对步骤s2~s5构建的单目相机位姿估计模型进行训练;步骤s7、采用训练好的单目相机位姿估计模型,进行相机位姿估计,完成移动智能体在环境中的定位。2.根据权利要求1所述的一种面向智慧城市场景的视觉定位方法,其特征在于,所述步骤s1中的当前场景包括室内场景和室外场景。3.根据权利要求1所述的一种面向智慧城市场景的视觉定位方法,其特征在于,所述步骤s1中的预处理具体为:将获取当前场景下的rgb图像进行归一化预处理,并转换成需要的数据格式。4.根据权利要求1所述的一种面向智慧城市场景的视觉定位方法,其特征在于,所述步骤s2中的光流信息包括前向光流信息和后向光流信息。5.根据权利要求1所述的一种面向智慧城市场景的视觉定位方法,其特征在于,所述步骤s4具体为:基于对应点和相机内参矩阵,采用对极几何、八点法和奇异值分解得到基础矩阵或本质矩阵,求解相机位姿t=[r,t];其中,r为旋转矩阵,t为平移向量。6.根据权利要求5所述的一种面向智慧城市场景的视觉定位方法,其特征在于,所述相机位姿包括后一帧到当前帧之间的相对位姿以及当前帧到后一帧之间的相对位姿。7.根据权利要求6所述的一种面向智慧城市场景的视觉定位方法,其特征在于,所述步骤s5具体为:基于深度估计自监督网络monodepth2网络估计得到的当前帧和后一帧图像序列i
t
,i
t+1
的深度信息d
t
,d
t+1
,以及步骤s4求得的当前帧到后一帧之间的相对位姿t
t

t+1
和后一帧到当前帧之间的相对位姿t
t+1

t
,分别合成当前帧图像序列i
t
中的像素点p
t
在后一帧图像序列i
t+1
的对应点以及后一帧图像序列i
t+1
中的像素点p
t+1
在当前帧图像序列i
t
的对应点,具体表达式为:表达式为:则,合成的前向光流和后向光流的表达式分别为:则,合成的前向光流和后向光流的表达式分别为:
式中,k表示相机内参矩阵。8.根据权利要求1所述的一种面向智慧城市场景的视觉定位方法,其特征在于,所述步骤s6中的综合损失函数为光流损失、光度一致性损失、结构相似性损失和深度平滑损失的叠加。9.根据权利要求8所述的一种面向智慧城市场景的视觉定位方法,其特征在于,所述步骤s6中光流损失包括前向光流与合成的前向光流之间差的绝对值,以及后向光流与合成的后向光流之间差的绝对值。10.一种面向智慧城市场景的视觉定位系统,其特征在于,采用权利要求1~9任一项所述的方法,所述系统包括:配备有单目相机的移动智能体,用于获取当前场景下的rgb图像;位姿估计模块,用于对获取的rgb图像进行预处理并采用基于自监督学习的端到端的单目视觉定位模型进行位姿估计。

技术总结
本发明涉及一种面向智慧城市场景的视觉定位方法及系统,该方法包括:S1、移动智能体通过单目相机获取当前场景下的RGB图像并进行预处理;S2、将预处理得到的图像序列分别输入至PWC-Net和Monodepth2网络,提取光流信息和深度信息;S3、将光流信息输入至GNN,得到精炼的对应点;S4、基于对应点和相机内参矩阵,求解相机位姿;S5、利用深度信息和相机位姿,合成光流以及输入图像序列对应的图像视图;S6、构造综合损失函数,对S2~S5构建的单目相机位姿估计模型进行训练;S7、采用训练好的单目相机位姿估计模型,进行相机位姿估计,完成移动智能体在环境中的定位。与现有技术相比,本发明通过引入GNN对光流进行精炼,提高了相机位姿估计的能力。的能力。的能力。


技术研发人员:陈启军 王中意 刘成菊
受保护的技术使用者:同济大学
技术研发日:2022.07.25
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-3120.html

最新回复(0)