一种轻量化手部骨骼关键点定位方法与流程

专利2023-08-31  98



1.本发明属于计算机视觉、模式识别和自然交互技术领域,具体涉及一种轻量化手部骨骼关键点定位方法。


背景技术:

2.手势作为人们与生俱来的一种自然交互方式,是人与人、人与机器、甚至是类人智能机器与机器之间沟通交流的重要桥梁,在许多领域都存在迫切需求,如聋哑人交流、智能家居、机器人、医疗国防等。如何获得高精度、高准确率的手势识别已成为手势交互研究的关键。
3.手部骨骼关键点定位是整个手势识别系统中重要步骤,也是最具挑战性的一个任务。当前手势识别的一般步骤:输入视频流中的手势图像进入手势识别系统,先经过手势检测网络输出手在整张图片中的位置坐标,利用该坐标将手部裁剪出来,经预处理后送给骨骼关键点定位网络,该网络需要精确的给出手部21个骨骼关键点的位置。当前学术界和产业界对手势骨骼关键点定位任务的研究开发主要集中在手部位姿估计领域,其中基于高斯热图回归的手部骨骼关键点估计是当前的主流算法,其整体架构基于编码、解码结构。本发明基于此架构提出了一套适用于嵌入式设备实时处理的轻量化手部骨骼关键点定位方法。


技术实现要素:

4.本发明所要解决的技术问题是提供一种适用于嵌入式设备实时处理的轻量化手部骨骼关键点定位方法。
5.为解决上述技术问题,本发明所采取的技术方案是:一种轻量化手部骨骼关键点定位方法,包括以下步骤:手部区域图像生成、基于域自适应学习的热图回归轻量化手部骨骼关键点定位网络生成手部21个骨骼关键点、关键点连接生成手部骨架步骤,具体是:
6.s1.手部区域图像生成:针对输入手势视频,逐帧进行手部检测,一旦检测到手部,提取手部区域经图像缩放后得到固定分辨率的手部区域图像;
7.s2.手部骨骼关键点定位:对于输入的手部区域图像,经过基于域自适应学习的热图回归轻量化手部骨骼关键点定位网络处理,生成手部的21个骨骼关键点及其x-y坐标;
8.s3.手部骨架生成:将21个骨骼关键点连接成手部骨架;重复上述步骤,针对手势视频生成基于手部骨架的动态手势表示,用于动态手势识别。
9.在步骤s1中,所述手部检测采用单阶段目标检测网络作为手部检测网络以适用于轻量化手部检测任务。
10.在步骤s2中,所述高斯热图回归的关键点定位网络包含用于特征提取的骨干网络模块以及用于恢复特征分辨率的上采样模块。
11.本发明采用上述技术方案所设计的一种轻量化手部骨骼关键点定位方法,通过手部区域图像生成、手部骨骼关键点定位,手部骨架生成这三个步骤可实时生成动态手势骨架。其手部骨骼关键点定位步骤采用基于域自适应学习的热图回归轻量级深度学习网络实
现,具备延时短、手部骨骼关键点定位准、支持实时生成动态手势骨架的特点。该方法不仅适用于可见光rgb手势视频流,也适用于红外ir视频流、rgb-depth视频流或ir-depth视频流中的动态手势骨骼定位,可广泛用于智能车、智能家居、机器人等领域的自然交互。
附图说明
12.图1表示本发明一种轻量化手部骨骼关键点定位方法流程图;
13.图2表示本发明基于域自适应学习的热图回归手部骨骼关键点定位网络结构示意图;
14.图3表示本发明基于高斯热图回归的手部骨骼关键点定位网络结构示意图。
具体实施方式
15.下面结合附图对本发明一种轻量化手部骨骼关键点定位方法作具体说明。
16.本发明一种轻量化手部骨骼关键点定位方法,包括以下步骤:
17.s1.手部区域图像生成:针对输入手势视频,逐帧进行手部检测,一旦检测到手部,提取手部区域经图像缩放后得到固定分辨率的手部区域图像。
18.本发明手部检测算法,属于通用目标检测中的子任务,可以沿用目标检测中的经典模型。通用目标检测算法主要有两种类型:单阶段以yolo、ssd为代表,模型简单,速度更快,更适合落地应用;双阶段以faster r-cnn为代表,模型更复杂,精度更高但是速度较慢。目标检测算法从是否需要先验锚框又可以分为基于先验锚框(anchor-base)和不基于锚框(anchor-free)两种,在anchor-free系列算法中,最具有代表性的为centernet。
19.本发明考虑到轻量化部署需求,采用单阶段目标检测网络作为手部检测网络,如retinanet、yolo-fastest、centernet方法,以适用于本发明的轻量化手部检测任务。
20.s2.手部骨骼关键点定位:对于输入的手部区域图像,经过基于域自适应学习的热图回归轻量化手部骨骼关键点定位网络处理,生成手部的21个骨骼关键点及其x-y坐标;
21.骨骼关键点定位可以看作人体姿态估计领域的子领域,大部分应用于姿态估计的方法都可以迁移到手势骨骼定位中,大部分算法都是基于卷积神经网络提取特征然后使用不同的回归策略来回归到关键点坐标,不同关键点定位算法之间的差别往往在于回归策略的不同。典型的关键点定位方式有直接坐标回归和高斯热力图回归两种,其中直接坐标回归使用全连接层直接输出表示n个关键点坐标的一维向量,丢失了关键点的几何信息,模型很容易记住一些数据中的噪声模式而陷入过拟合,进而影响模型在没见过样本集上的空间泛化能力,定位精度严重不足。
22.本发明实现了一种基于域自适应学习的热图回归轻量化手部骨骼关键点定位网络。
23.域自适应学习是迁移学习中重要组成部分,目的在于通过一定的手段将源域数据和目标域数据映射到某个特征空间中,使得两个域的数据在该特征空间中的距离尽可能的接近,这样在源域学习到的特征能够直接迁移到目标域。本发明使用域自适应学习(domain adaptation,da)相关方法可以有效的利用有标注数据的rgb手势图像数据库,利用梯度反转的策略实现了同一个网络中源域和目标域的对抗学习,让源域和目标域经过网络得到的特征不具备可分性,这样实现了仅通过源域数据的有监督得到的模型在目标域下也能取得
很好的分类表现。
24.本发明基于dann(domain adaptation nn)以及da-faster r-cnn(domain adaptive faster r-cnn),结合高斯热图回归的关键点定位模型,实现了一种用于红外手部骨骼关键点定位的域自适应学习网络结构。
25.域自适应学习网络的整体网络结构如图2所示,中间虚线框部分为基于高斯热图回归的关键点定位网络,两侧分别设计了对抗学习部分。第一部分是骨干网络出来的特征图需要经过一个梯度反转层然后经过全连接层进行二分类,如果输入来自源域,则标签为0,如果输入来自于目标域,则标签为1;第二部分是对经过转置卷积上采样模块后的特征也引入对抗学习,但是这里的特征需要再经过两层卷积将维度变为2x h/4x w/4,如果输入的是源域,则标签为全0的掩码图,输入的是目标域,则标签为全1的掩码图。其中的对抗学习和gan中的生成对抗类似,可以将这里的梯度反转看作gan在一个网络里面的一种实现方式,在梯度反转层的前面部分可以看作是生成器,而后面部分则可以看作是判别器,通过梯度反转的方式,实现了在同一个网络里面进行对抗学习。
26.其中所述的高斯热图回归的关键点定位网络,见图3,主要包含用于特征提取的骨干网络(backbone)模块以及用于恢复特征分辨率的上采样模块。高斯热图回归模型的输出仍然是二维特征图,n个关节点就输出n个高斯热图,在每一张热图的最大激活位置就是对应关键点的坐标,可以保留关键点的空间信息,实现较为精准的定位,有利于保留空间信息,帮助模型更好的学习。
27.高斯热图的生成公式如下:
[0028][0029]
式中:y
xyc
表示第c个关键点对应的热图的xy坐标位置的取值,该取值和x,y距离真实位置实位置的距离有关,整体趋势是随着距离的增加而衰减的,衰减的速率和标准差σ
p
的大小有关。
[0030]
该方法以每一个关键点为中心产生了一个高斯热图,离中心点最近的位置值越大,离中心点远的位置值越小,整体数值围绕中心点随着距离指数衰减。可以将这些数值理解为该位置存在关键点的概率,这样做的好处在于引入了更加合理的监督信息,标注的周围的像素点也有很大的概率为关键点。如果不使用高斯热图作为监督,只使用0、1标签,则一张图里面只有21个正样本点,这会导致模型难以学习到有效的表征,或者导致模型过度自信,从而陷入过拟合。
[0031]
根据高斯热图作为监督进行学习的原理,模型学习的是每一个像素点出现关键点的概率,可引入均方误差(mse)或者交叉熵(cross entropy)作为模型的损失函数。
[0032]
s3.手部骨架生成:将21个骨骼关键点连接成手部骨架。可以重复上述步骤,针对手势视频可以生成基于手部骨架的动态手势表示,可用于动态手势识别。
[0033]
尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本发明考虑到速度和精度的平衡,采用轻量化骨干网络实现手部骨骼关键点定位网络。
本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。

技术特征:
1.一种轻量化手部骨骼关键点定位方法,其特征是包括以下步骤:手部区域图像生成、基于域自适应学习的热图回归轻量化手部骨骼关键点定位网络生成手部21个骨骼关键点、关键点连接生成手部骨架步骤,具体是:s1.手部区域图像生成:针对输入手势视频,逐帧进行手部检测,一旦检测到手部,提取手部区域经图像缩放后得到固定分辨率的手部区域图像;s2.手部骨骼关键点定位:对于输入的手部区域图像,经过基于域自适应学习的热图回归轻量化手部骨骼关键点定位网络处理,生成手部的21个骨骼关键点及其x-y坐标;s3.手部骨架生成:将21个骨骼关键点连接成手部骨架;重复上述步骤,针对手势视频生成基于手部骨架的动态手势表示,用于动态手势识别。2.根据权利要求1所述的一种轻量化手部骨骼关键点定位方法,其特征是在步骤s1中,所述手部检测采用单阶段目标检测网络作为手部检测网络以适用于轻量化手部检测任务。3.根据权利要求1所述的一种轻量化手部骨骼关键点定位方法,其特征是在步骤s2中,所述高斯热图回归的关键点定位网络包含用于特征提取的骨干网络模块以及用于恢复特征分辨率的上采样模块。

技术总结
本发明公开了一种轻量化手部骨骼关键点定位方法,包括以下步骤:手部区域图像生成、基于域自适应学习的热图回归轻量化手部骨骼关键点定位网络生成手部21个骨骼关键点、关键点连接生成手部骨架步骤。本发明通过三个步骤可实时生成动态手势骨架,具备延时短、手部骨骼关键点定位准、支持实时生成动态手势骨架的特点。该发明不仅适用于可见光RGB手势视频流,也适用于红外IR视频流、RGB-Depth视频流或IR-Depth视频流中的动态手势骨骼定位,可广泛用于智能车、智能家居、机器人等领域的自然交互。机器人等领域的自然交互。机器人等领域的自然交互。


技术研发人员:童飞飞 葛晨阳 李辉 杨飞 杨亚林 王梅 黄保山 张林强 袁鑫
受保护的技术使用者:河南中光学集团有限公司
技术研发日:2022.06.24
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-4811.html

最新回复(0)