一种基于深度学习的视觉定位方法、系统和存储介质与流程

专利2024-04-15  98



1.本发明属于深度学习技术领域,具体涉及一种基于深度学习的视觉定位方法、系统和存储介质。


背景技术:

2.在现有的视觉定位技术中,大多都是通过多相机协同,又或者通过深度相机来估计工件姿态,以及通过单目姿态估计来定位工件,这些都需要高精度的真值来训练模型,而这在实际工作中,是非常难以获取的。在机器定位应用中,标准工件的3d模型,深度相机的精度和噪声以及多相机标定的稳定性直接影响视觉定位的准确性。
3.中国专利文献cn112927297 a中公开了一种基于yolo系列的目标检测和视觉定位方法,包括以下步骤:首先,获取待抓取目标的rgb彩色图像图像和深度图像;将采集的rgb彩色图像输入基于darknet框架搭建的yolo系列目标检测模型中,获得坐标信息和类别及置信度;将坐标信息结合深度图像信息解算出待检测目标的空间三维坐标。但是该方法中还存在定位精度不高、噪声影响较大等问题。
4.有鉴于此,有必要开发一种基于深度学习的视觉定位方法来解决上述技术问题。


技术实现要素:

5.本发明的目的在于克服现有技术的不足,提供一种基于深度学习的视觉定位方法、系统和存储介质。解决现有的视觉定位方法中还存在定位精度不高、噪声影响较大等问题。
6.本发明的一个目的在于提供一种基于深度学习的视觉定位方法。
7.一种基于深度学习的视觉定位方法,包括如下步骤:
8.s1、对相机的内参进行标定;
9.s2、采集工件的图像,并对工件特征区域以及特征区域内的特征点进行标注,然后进行离线训练,获得定位检测模型和关键点检测模型;
10.s3、使用定位检测模型对工件进行检测,得到候选定位区域,再使用关键点检测模型对候选区域进行相应类别的关键点检测、并提取关键点,然后计算每个关键点在工件坐标系下的三维坐标;
11.s4、根据所述关键点的图像坐标、所述关键点在工件坐标系下的三维坐标以及相机内参矩阵,求解工件相对相机的相对位姿,最后计算出工件的旋转矩阵和平移矩阵。
12.进一步地,步骤s1中,所述相机的内参通过张正友标定法进行标定。
13.进一步地,步骤s2中,所述工件特征区域以及特征区域内的特征点是基于深度学习进行标注。
14.进一步地,步骤s2中,所述定位检测模型是基于yolox模型训练工件各个面上具有特征的区域得到的。
15.进一步地,步骤s2中,所述关键点检测模型是基于hrnet训练各个特征区域内自定
义的特征点得到的。
16.进一步地,步骤s2中,所述工件的3d模型是已知的。
17.进一步地,步骤s4中,所述求解的算法为dlt、epnp、pnp中的一种。
18.本发明还提供一种基于深度学习的视觉定位系统。
19.一种基于深度学习的视觉定位系统,所述视觉定位系统包括:
20.相机内参标定模块:用于对相机的内参进行标定;
21.检测模型的获取模块:采集工件的图像,并对工件特征区域以及特征区域内的特征点进行标注,然后进行离线训练,获得定位检测模型和关键点检测模型;
22.检测模块:用于使用定位检测模型对工件进行检测,得到候选定位区域,再使用关键点检测模型对候选区域进行相应类别的关键点检测、并提取关键点,然后计算每个关键点在工件坐标系下的三维坐标;
23.视觉定位模块:用于根据所述关键点的图像坐标、所述关键点在工件坐标系下的三维坐标以及相机内参矩阵,求解工件相对相机的相对位姿,最后计算出工件的旋转矩阵和平移矩阵。
24.本发明最后提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载以执行上述任一项所述的检测方法。
25.与现有技术相比,本发明具有如下优点:
26.本发明利用定位检测模型对工件易于定位的部分进行常规检测,再对检测出的候选框利用关键点检测模型去提取特征点,由于工件的3d模型是已知,并且这些特征点之间的位置关系是已知的,通过求解该特征点集的旋转平移矩阵,已得到该识别对象的姿态信息,即可实现工件定位;另外,本发明所述的方法能有效降低系统成本,并且在特定场景下,具有精度高,鲁棒性高等优点。
附图说明
27.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
28.图1为本发明基于深度学习的视觉定位方法流程图;
29.图2为本发明基于深度学习的视觉定位系统框架图。
具体实施方式
30.下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
31.请参阅图1,一种基于深度学习的视觉定位方法,包括如下步骤:
32.s1、对相机的内参进行标定;
33.具体而言,所述相机的内参通过张正友标定法进行标定。
34.s2、采集工件的图像,并对工件特征区域以及特征区域内的特征点进行标注,然后进行离线训练,获得定位检测模型和关键点检测模型;
35.具体而言,所述工件特征区域以及特征区域内的特征点是基于深度学习进行标注;所述定位检测模型是基于yolox模型训练工件各个面上具有特征的区域得到的;所述关键点检测模型是基于hrnet训练各个特征区域内自定义的特征点得到的;所述工件的3d模型是已知的。
36.s3、使用定位检测模型对工件进行检测,得到候选定位区域,再使用关键点检测模型对候选区域进行相应类别的关键点检测、并提取关键点,然后计算每个关键点在工件坐标系下的三维坐标;
37.s4、根据所述关键点的图像坐标、所述关键点在工件坐标系下的三维坐标以及相机内参矩阵,求解工件相对相机的相对位姿,最后计算出工件的旋转矩阵和平移矩阵。
38.具体而言,所述求解的算法为dlt、epnp、pnp中的一种;在本发明的方案中,优选算法为pnp。
39.下面以刚性工件为例进行说明,所述刚性工件的3d模型是已知的。
40.s1、首先采用张正友标定法对相机的内参进行标定;
41.s2、然后采集刚性工件的图像,并且基于深度学习对工件特征区域以及特征区域内的特征点进行标注,然后进行离线训练,获得定位检测模型和关键点检测模型;
42.所述定位检测模型是基于yolox模型训练工件各个面上具有特征的区域得到的,例如选取刚性工件8个特征区域,则需要对所述8个特征区域进行训练;
43.所述关键点检测模型是基于hrnet训练各个特征区域内自定义的特征点得到的,例如对于刚性工件8个特征区域,标注了80个特征点,则需要对所述80个特征点进行训练;
44.s3、使用定位检测模型对工件进行检测,得到3个候选定位区域,再使用关键点检测模型对候选区域进行相应类别的关键点检测、并提取关键点28个,然后计算每个关键点在工件坐标系下的三维坐标;
45.s4、根据所述28个关键点的图像坐标、所述28个关键点在工件坐标系下的三维坐标以及相机内参矩阵k,使用pnp算法求解刚性工件相对相机的相对位姿,最后计算出工件的旋转矩阵r和平移矩阵t。
46.请参阅图2,本发明还提供一种基于深度学习的视觉定位系统,所述视觉定位系统包括:相机内参标定模块101、检测模型的获取模块102、检测模块103和视觉定位模块104;
47.所述相机内参标定模块101用于对相机的内参进行标定;
48.所述检测模型的获取模块102用于采集工件的图像,并对工件特征区域以及特征区域内的特征点进行标注,然后进行离线训练,获得定位检测模型和关键点检测模型;
49.所述检测模块103用于使用定位检测模型对工件进行检测,得到候选定位区域,再使用关键点检测模型对候选区域进行相应类别的关键点检测、并提取关键点,然后计算每个关键点在工件坐标系下的三维坐标;
50.所述视觉定位模块104用于根据所述关键点的图像坐标、所述关键点在工件坐标系下的三维坐标以及相机内参矩阵,求解工件相对相机的相对位姿,最后计算出工件的旋转矩阵和平移矩阵。
51.本发明最后还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计
算机程序被处理器加载以执行上述任一项所述的检测方法。例如,所述计算机程序被处理器加载可以执行如下步骤:
52.对相机的内参进行标定;采集工件的图像,并对工件特征区域以及特征区域内的特征点进行标注,然后进行离线训练,获得定位检测模型和关键点检测模型;使用定位检测模型对工件进行检测,得到候选定位区域,再使用关键点检测模型对候选区域进行相应类别的关键点检测、并提取关键点,然后计算每个关键点在工件坐标系下的三维坐标;根据所述关键点的图像坐标、所述关键点在工件坐标系下的三维坐标以及相机内参矩阵,求解工件相对相机的相对位姿,最后计算出工件的旋转矩阵和平移矩阵。
53.其中,存储介质可以是前述实施例的图像处理设备的内部存储单元,例如图像处理设备的硬盘或内存。存储介质也可以是图像处理设备的外部存储设备,例如图像处理设备上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。
54.以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。

技术特征:
1.一种基于深度学习的视觉定位方法,其特征在于,包括如下步骤:s1、对相机的内参进行标定;s2、采集工件的图像,并对工件特征区域以及特征区域内的特征点进行标注,然后进行离线训练,获得定位检测模型和关键点检测模型;s3、使用定位检测模型对工件进行检测,得到候选定位区域,再使用关键点检测模型对候选区域进行相应类别的关键点检测、并提取关键点,然后计算每个关键点在工件坐标系下的三维坐标;s4、根据所述关键点的图像坐标、所述关键点在工件坐标系下的三维坐标以及相机内参矩阵,求解工件相对相机的相对位姿,最后计算出工件的旋转矩阵和平移矩阵。2.根据权利要求1所述的基于深度学习的视觉定位方法,其特征在于,步骤s1中,所述相机的内参通过张正友标定法进行标定。3.根据权利要求1所述的基于深度学习的视觉定位方法,其特征在于,步骤s2中,所述工件特征区域以及特征区域内的特征点是基于深度学习进行标注。4.根据权利要求1所述的基于深度学习的视觉定位方法,其特征在于,步骤s2中,所述定位检测模型是基于yolox模型训练工件各个面上具有特征的区域得到的。5.根据权利要求1所述的基于深度学习的视觉定位方法,其特征在于,步骤s2中,所述关键点检测模型是基于hrnet训练各个特征区域内自定义的特征点得到的。6.根据权利要求1所述的基于深度学习的视觉定位方法,其特征在于,步骤s2中,所述工件的3d模型是已知的。7.根据权利要求1所述的基于深度学习的视觉定位方法,其特征在于,步骤s4中,所述求解的算法为dlt、epnp、pnp中的一种。8.一种基于深度学习的视觉定位系统,其特征在于,所述视觉定位系统包括:相机内参标定模块:用于对相机的内参进行标定;检测模型的获取模块:采集工件的图像,并对工件特征区域以及特征区域内的特征点进行标注,然后进行离线训练,获得定位检测模型和关键点检测模型;检测模块:用于使用定位检测模型对工件进行检测,得到候选定位区域,再使用关键点检测模型对候选区域进行相应类别的关键点检测、并提取关键点,然后计算每个关键点在工件坐标系下的三维坐标;视觉定位模块:用于根据所述关键点的图像坐标、所述关键点在工件坐标系下的三维坐标以及相机内参矩阵,求解工件相对相机的相对位姿,最后计算出工件的旋转矩阵和平移矩阵。9.一种存储介质,其特征在于,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载以执行权利要求1~7任一项所述的检测方法。

技术总结
本发明公开了一种基于深度学习的视觉定位方法、系统和存储介质。所述视觉定位方法,包括如下步骤:S1、对相机的内参进行标定;S2、采集工件的图像,并对工件特征区域以及特征区域内的特征点进行标注,然后进行离线训练,获得定位检测模型和关键点检测模型;S3、使用定位检测模型对工件进行检测,得到候选定位区域,再使用关键点检测模型对候选区域进行相应类别的关键点检测、并提取关键点,然后计算每个关键点在工件坐标系下的三维坐标;S4、根据所述关键点的图像坐标、所述关键点在工件坐标系下的三维坐标以及相机内参矩阵,求解工件相对相机的相对位姿,最后计算出工件的旋转矩阵和平移矩阵;具有精度高,鲁棒性高等优点。鲁棒性高等优点。鲁棒性高等优点。


技术研发人员:褚怡文 郑军
受保护的技术使用者:聚时科技(上海)有限公司
技术研发日:2022.06.22
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-7797.html

最新回复(0)