一种基于多源信息融合的机器人抓取方法和装置

专利2023-10-11  100



1.本发明涉及机器人技术领域,尤其是涉及一种基于多源信息融合的机器人抓取方法和装置。


背景技术:

2.机器人抓取技术是智能机器人的重要组成部分,在生产制造、物流、医疗、服务等领域都有广泛的应用。人工智能与计算机技术的飞速发展极大地推进了机器人智能化抓取能力的提升。其中,机器人自主抓取物体的操作是机器人在工作环境下非常重要的任务。机器人的抓取能力极大影响了机器人的灵活性,也决定了机器人是否能适应复杂的抓取环境。目前大多数抓取机器人针对的物体种类、位置相对固定,通过对机器人的手动编程来实现抓取。在环境复杂、目标多样、位置变化的情况下,每一次变换都需要手动对控制程序进行改动,是一种耗时、泛化性低的方法。近年来,随着深度学习的发展,许多研究人员在他们的机器人抓取工作中使用具有高效、泛化性强等特点的深度学习算法。深度学习使机器人能够通过从大量数据中学习并获得技能,而无需人类干预。然而,现有基于深度学习的物体抓取方法大多是通过提取物体的rgb特征检测抓取位置,但物体的rgb特征反应的信息具有局限性,不足以保证抓取的精确性和鲁棒性。


技术实现要素:

3.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多源信息融合的机器人抓取方法和装置,用以解决现有技术中抓取精度低、鲁棒性差的问题。
4.本发明的目的可以通过以下技术方案来实现:
5.一种基于多源信息融合的机器人抓取方法,包括以下步骤:
6.步骤s1、获取待抓取物体的rgb图像、光流图像和深度图像;
7.步骤s2、分别对rgb图像、光流图像和深度图像进行特征提取,对应获得rgb特征、光流特征和深度特征;
8.步骤s3、将rgb特征、光流特征和深度特征输入多源信息融合模块,输出获得待抓取物体的融合特征;
9.步骤s4、将融合特征输入物体姿态预测模块,通过物体姿态预测模块对对待抓取物体进行分类,并回归出待抓取物体的抓取位置信息;
10.步骤s5、根据所预测待抓取物体的抓取位置信息,抓取待抓取物体;
11.步骤s6、根据触觉传感器感知触觉信息,判断是否抓取成功。
12.进一步地,所述步骤s1中,通过视觉传感器获取包含待抓取目标的rgb图像、光流图像和深度图像,视觉传感器设置于机器人操作平台正前方的一定高度处,视觉传感器的角度使其能够拍摄到包含整个操平台的场景图像。
13.进一步地,所述步骤s2中,首先将rgb图像、光流图像和深度图像分别输入到具有相同结构的特征提取网络中,然后通过特征提取网络分别提取rgb特征、光流特征和深度特
征。
14.进一步地,所述特征提取网络包括多个密集短连接单元,每个密集短连接单元由一个1
×
1卷积、一个密集短连接模块和一个1
×
1卷积按顺序组成,所述密集短连接模块由拆分模块、短连接模块和特征聚合模块三个子模块组成。
15.进一步地,所述步骤s3中,将rgb特征、光流特征和深度特征送入多源信息融合模块,获得待抓取物体的融合特征;所述多源信息融合模块的实现过程如下:
16.a1、将rgb特征r、光流特征z和深度特征d进行逐像素求和操作,逐像素求和操作的输出w可以由下式计算:
[0017][0018]
a2、将逐像素求和操作的输出w送入残差模块,残差模块的输出特征p可以由下式计算:
[0019]
p=f
residual
(w)+w
[0020]
式中,f
residual
为残差函数;
[0021]
a3、残差模块的输出特征p别前馈到一个卷积核大小为1
×
1的卷积层和一个池化层中,多源信息融合模块的最终输出e可以由下式计算:
[0022]
e=f
convpool
(p)
[0023]
式中,f
convpool
表示1
×
1的卷积层和池化层。
[0024]
进一步地,所述步骤s4中,将多源信息融合模块输出的融合特征输入物体姿态预测模块,通过物体姿态预测模块对对待抓取物体进行分类,并回归出待抓取物体的抓取位置信息;所述待抓取物体的抓取位置信息包括抓取框中心点坐标、抓取框宽度、抓取框高度和抓取框旋转角度。
[0025]
进一步地,所述物体姿态预测模块包括目标检测器和抓取检测器两个分支,目标检测器用于获取待抓取物体的类别分类信息,使用的损失函数为交叉熵损失函数;抓取检测器用于获取待抓取物体的抓取位置信息,使用的损失函数为平滑l1损失函数。
[0026]
进一步地,所述步骤s5中,根据进入抓取范围的待抓取物体的定位信息,调整机器人的抓取姿态执行抓取操作。
[0027]
进一步地,所述步骤s6中,根据触觉传感器感知触觉信息,判断是否抓取成功:若抓取成功,则结束流程;若抓取失败,则返回步骤s5继续执行。
[0028]
一种基于多源信息融合的机器人抓取装置,包括主控制计算机、机械臂、机械手、储物平台、待抓取物体、rgb-d深度相机和rgb-d深度相机固定支架;所述机械手内部安装有用于实时反馈抓取状态、控制夹紧力的触觉传感器;所述主控制计算机用于执行如上任一所述的基于多源信息融合的机器人抓取方法。
[0029]
与现有技术相比,本发明具有如下的有益效果:
[0030]
1、本发明充分考虑了抓取操作的复杂环境,融合rgb图像、光流图像和深度图像,提高了环境复杂、目标多样、位置变化环境下机器人执行抓取任务的精确性和鲁棒性。
[0031]
2、本发明采用卷积神经网络对rgb图像、光流图像和深度图像进行多模态信息融合,充分利用了多模态信息之间的互补性。
[0032]
3、本发明采用触觉传感器实时反馈的待抓取物体的位姿信息,进一步提高了机器人抓取的成功率。
附图说明
[0033]
图1为本发明实施例中基于多源信息融合的机器人抓取方法的流程示意图。
[0034]
图2为本发明实施例中基于多源信息融合的机械手抓取装置的结构示意图。
[0035]
图3为本发明实施例中特征提取网络整体结构示意图。
[0036]
图4为本发明实施例中特征提取单元结构示意图。
[0037]
图5为本发明实施例中密集短连接模块结构示意图。
[0038]
图6为本发明实施例中多源信息融合模块结构示意图。
具体实施方式
[0039]
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0040]
如图1所示,本实施例公开了一种基于多源信息融合的机器人抓取方法,包括以下步骤:
[0041]
步骤s1:获取待抓取物体的rgb图像、光流图像和深度图像。
[0042]
在一些实施例中,所述获取待抓取物体的rgb图像、光流图像和深度图像的具体方法包括:
[0043]
通过视觉传感器获取包含待抓取目标的rgb图像、光流图像和深度图像,视觉传感器设置于机器人操作平台正前方的一定高度处,视觉传感器的角度使其能够拍摄到包含整个操平台的场景图像。本实施例中视觉传感器的设置如图2所示,视觉传感器设置于操作平台正前方1.6m,距操作台操作面高度1.8m处,摄像头朝向操作平台。
[0044]
步骤s2:分别对rgb图像、光流图像和深度图像进行特征提取,获得对应的经过特征提取后的rgb特征、光流特征和深度特征。
[0045]
在一些实施例中,所述分别对rgb图像、光流图像和深度图像进行特征提取的具体方法如下:
[0046]
图3显示了特征提取网络整体结构示意图,首先将rgb图像、光流图像和深度图像分别输入到具有相同结构的卷积神经网络中,然后通过卷积神经网络分别提取rgb特征、光流特征和深度特征;
[0047]
所述特征提取网络由多个密集短连接单元组成,每个密集短连接单元由一个1
×
1卷积、一个密集短连接模块和一个1
×
1卷积按顺序组成,图4显示了特征提取单元结构示意图。所述密集短连接模块由拆分模块、短连接模块和特征聚合模块三个子模块组成,图5显示了密集短连接模块结构示意图。
[0048]
对于给定的训练图像x,为了获得细粒度的多尺度信息,首先将训练图像输入拆分模块。拆分模块将输入训练图像按通道方向划分为n个特征图子集,如图5所示的四个特征图子集,即x1,x2,x3和x4。令xi表示对应的第i个特征图子集,其中i∈{1,2,

,n}。每个特征图子集xi的通道数为输入特征图的通道数量的1/n,每个特征图子集xi的空间大小与输入特征图相同。
[0049]
然后,将拆分模块的输出特征图子集输入短连接模块。短连接模块有一个简单的连接模式:用n个较小的过滤器替换具有m个通道的3
×
3过滤器,每个小过滤器有s个通道,
其中s=m/n。用hi()表示3
×
3卷积,yi表示hi()的输出,其中i∈{1,2,

,n}。特征图子集x1,x2,

,xi与hi()的输出进行逐元素求和,逐元素求和运算的输出ui可以写为:
[0050][0051]
其中,表示逐元素求和运算。
[0052]
然后,输出ui被前馈到hi(),其中i∈{1,2,

,n-1}。因此,输出yi可以写为:
[0053][0054]
需要注意的是,这里使用n作为特征图子集的控制参数。较大的n需要更多的小过滤器,这使网络能够学习具有更丰富感受野大小的特征。
[0055]
之后,为了利用短连接模块中聚合的特征信息,y1,y2,

,yi被前馈到一个特征聚合模块,特征聚合模块由一个拼接函数、一个批量归一化层和一个线性缩放变换操作组成。拼接函数的输出v可通过下式计算获得:
[0056]
v=y1⊙
y2⊙…⊙
yiꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.3)
[0057]
其中,

表示特征图之间的拼接函数。
[0058]
再然后,为了减少过拟合,同时加速网络训练,在拼接函数之后采用批量归一化操作,计算公式如下:
[0059][0060]
其中,f
batch
表示批量归一化操作,qc和vc分别表示q和v的第c个特征图通道。μc和σc是批量归一化的通道均值和标准差。
[0061]
最后,为了增强表示能力,在批量归一化层之后执行线性缩放变换操作,线性缩放变换操作用f
linear
表示。因此特征聚合模块的输出可以由下式计算:
[0062]
gc=f
linear
(qc)=qc×
γc+βcꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.5)
[0063]
其中,gc表示g的第c个特征图通道,γc和βc分别是学习的缩放因子和偏置项。
[0064]
步骤s3:将rgb特征、光流特征和深度特征送入多源信息融合模块,获得待抓取物体的融合特征。
[0065]
在一些实施例中,所述将rgb特征、光流特征和深度特征送入多源信息融合模块,获得待抓取物体的融合特征的具体方法展开如下:
[0066]
图6显示了多源信息融合模块结构示意图,首先将特征提取网络提取得到的rgb特征r、光流特征z和深度特征d进行逐像素求和操作,逐像素求和操作的输出为w可以由下式计算:
[0067][0068]
然后,将逐像素求和操作的输出w送入残差模块,残差模块的输出特征p可以由下式计算:
[0069]
p=f
residual
(w)+w
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.7)
[0070]
其中,f
residual
为残差函数。残差函数由两个卷积核大小为3
×
3的卷积和一个relu激活函数组成,其中,relu激活函数位于两个卷积之间。
[0071]
最后,残差模块的输出特征p别前馈到一个卷积核大小为1
×
1的卷积层和一个池
化层中。因此,多源信息融合模块的最终输出e可以由下式计算:
[0072]
e=f
convpool
(p)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.8)
[0073]
其中,f
convpool
表示1
×
1的卷积层和池化层。
[0074]
步骤s4:将多源信息融合模块输出的融合特征输入物体姿态预测模块,通过物体姿态预测模块对对待抓取物体进行分类,并回归出待抓取物体的抓取位置信息。
[0075]
在一些实施例中,所述将多源信息融合模块输出的融合特征输入物体姿态预测模块,通过物体姿态预测模块对对待抓取物体进行分类,并回归出待抓取物体的抓取位置信息的具体方法包括:
[0076]
将多源信息融合模块输出的融合特征输入物体姿态预测模块,通过物体姿态预测模块对对待抓取物体进行分类,并回归出待抓取物体的抓取位置信息(x,y,w,h,θ)。所述待抓取物体的抓取位置信息包括抓取框中心点坐标(x,y)、抓取框宽度w、抓取框高度h和抓取框旋转角度θ。所述物体姿态预测模块的具体实现如下:
[0077]
物体姿态预测模块包括目标检测器和抓取检测器两个分支,目标检测器分支来获取待抓取物体的类别分类信息,抓取检测器来获取待抓取物体的抓取位置信息;
[0078]
目标检测器使用的损失函数为交叉熵损失函数,抓取检测器使用的损失函数为平滑l1损失函数。
[0079]
步骤s5:根据所预测待抓取物体的抓取位置信息,抓取待抓取物体。
[0080]
在一些实施例中,所述根据所预测待抓取物体的抓取位置信息,抓取待抓取物体的具体方法包括:
[0081]
根据进入抓取范围的待抓取物体的定位信息,调整机械手的抓取姿态执行抓取操作。
[0082]
步骤s6:根据触觉传感器感知触觉信息,判断是否抓取成功。
[0083]
在一些实施例中,所述根据触觉传感器感知触觉信息,判断是否抓取成功的具体方法包括:
[0084]
根据触觉传感器感知触觉信息,判断是否抓取成功:若抓取成功,则结束流程;若抓取失败,则返回步骤s5继续执行。
[0085]
此外,如图2所示,本实施例还涉及一种基于多源信息融合的机器人抓取装置,包括主控制计算机1、机械臂2、机械手3、储物平台4、待抓取物体5、rgb-d深度相机6和rgb-d深度相机固定支架;所述主控制计算机用于执行上述方法。
[0086]
综上,本技术在rgb特征的基础上融合深度特征和光流特征来生成多源信息融合特征,进而基于多源信息融合特征预测待抓取物体的抓取位置信息。此外,为了进一步提高抓取的成功率,本技术在抓取动作实施后,进一步通过触觉传感器感知触觉信息,判断是否抓取成功。
[0087]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

技术特征:
1.一种基于多源信息融合的机器人抓取方法,其特征在于,包括以下步骤:步骤s1、获取待抓取物体的rgb图像、光流图像和深度图像;步骤s2、分别对rgb图像、光流图像和深度图像进行特征提取,对应获得rgb特征、光流特征和深度特征;步骤s3、将rgb特征、光流特征和深度特征输入多源信息融合模块,输出获得待抓取物体的融合特征;步骤s4、将融合特征输入物体姿态预测模块,通过物体姿态预测模块对对待抓取物体进行分类,并回归出待抓取物体的抓取位置信息;步骤s5、根据所预测待抓取物体的抓取位置信息,抓取待抓取物体;步骤s6、根据触觉传感器感知触觉信息,判断是否抓取成功。2.根据权利要求1所述的一种基于多源信息融合的机器人抓取方法,其特征在于,所述步骤s1中,通过视觉传感器获取包含待抓取目标的rgb图像、光流图像和深度图像,视觉传感器设置于机器人操作平台正前方的一定高度处,视觉传感器的角度使其能够拍摄到包含整个操平台的场景图像。3.根据权利要求1所述的一种基于多源信息融合的机器人抓取方法,其特征在于,所述步骤s2中,首先将rgb图像、光流图像和深度图像分别输入到具有相同结构的特征提取网络中,然后通过特征提取网络分别提取rgb特征、光流特征和深度特征。4.根据权利要求3所述的一种基于多源信息融合的机器人抓取方法,其特征在于,所述特征提取网络包括多个密集短连接单元,每个密集短连接单元由一个1
×
1卷积、一个密集短连接模块和一个1
×
1卷积按顺序组成,所述密集短连接模块由拆分模块、短连接模块和特征聚合模块三个子模块组成。5.根据权利要求1所述的一种基于多源信息融合的机器人抓取方法,其特征在于,所述步骤s3中,将rgb特征、光流特征和深度特征送入多源信息融合模块,获得待抓取物体的融合特征;所述多源信息融合模块的实现过程如下:a1、将rgb特征r、光流特征z和深度特征d进行逐像素求和操作,逐像素求和操作的输出w可以由下式计算:a2、将逐像素求和操作的输出w送入残差模块,残差模块的输出特征p可以由下式计算:p=f
residual
(w)+w式中,f
residual
为残差函数;a3、残差模块的输出特征p别前馈到一个卷积核大小为1
×
1的卷积层和一个池化层中,多源信息融合模块的最终输出e可以由下式计算:e=f
convpool
(p)式中,f
convpool
表示1
×
1的卷积层和池化层。6.根据权利要求1所述的一种基于多源信息融合的机器人抓取方法,其特征在于,所述步骤s4中,将多源信息融合模块输出的融合特征输入物体姿态预测模块,通过物体姿态预测模块对对待抓取物体进行分类,并回归出待抓取物体的抓取位置信息;所述待抓取物体的抓取位置信息包括抓取框中心点坐标、抓取框宽度、抓取框高度和抓取框旋转角度。7.根据权利要求6所述的一种基于多源信息融合的机器人抓取方法,其特征在于,所述
物体姿态预测模块包括目标检测器和抓取检测器两个分支,目标检测器用于获取待抓取物体的类别分类信息,使用的损失函数为交叉熵损失函数;抓取检测器用于获取待抓取物体的抓取位置信息,使用的损失函数为平滑l1损失函数。8.根据权利要求1所述的一种基于多源信息融合的机器人抓取方法,其特征在于,所述步骤s5中,根据进入抓取范围的待抓取物体的定位信息,调整机器人的抓取姿态执行抓取操作。9.根据权利要求1所述的一种基于多源信息融合的机器人抓取方法,其特征在于,所述步骤s6中,根据触觉传感器感知触觉信息,判断是否抓取成功:若抓取成功,则结束流程;若抓取失败,则返回步骤s5继续执行。10.一种基于多源信息融合的机器人抓取装置,其特征在于:包括主控制计算机、机械臂、机械手、储物平台、待抓取物体、rgb-d深度相机和rgb-d深度相机固定支架;所述机械手内部安装有用于实时反馈抓取状态、控制夹紧力的触觉传感器;所述主控制计算机用于执行如权利要求1~9任一所述的基于多源信息融合的机器人抓取方法。

技术总结
本发明涉及一种基于多源信息融合的机器人抓取方法和装置,方法包括获取待抓取物体的RGB图像、光流图像和深度图像;分别对RGB图像、光流图像和深度图像进行特征提取,对应获得各个特征;将RGB特征、光流特征和深度特征输入多源信息融合模块,输出获得待抓取物体的融合特征;将融合特征输入物体姿态预测模块,通过物体姿态预测模块对对待抓取物体进行分类,并回归出待抓取物体的抓取位置信息;根据所预测待抓取物体的抓取位置信息,抓取待抓取物体;根据触觉传感器感知触觉信息,判断是否抓取成功。与现有技术相比,本发明充分考虑机器人抓取的复杂环境,有效地提高了机器人对运动物体的抓取能力,具有精度高、鲁棒性好等优点。鲁棒性好等优点。鲁棒性好等优点。


技术研发人员:何斌 杨振坤 李刚 陆萍 王志鹏 周艳敏 朱忠攀
受保护的技术使用者:同济大学
技术研发日:2022.07.12
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-5642.html

最新回复(0)