一种基于手势识别技术的智能电梯控制方法及系统

专利2023-06-20  91


一种基于手势识别技术的智能电梯控制方法及系统
1.本发明涉及目标检测领域,具体来说,涉及一种基于手势识别技术的智能电梯控制方法及系统。


背景技术:

2.电梯作为人类生活中不可缺少的一种工具,它的诞生给予了人们极大的方便。在人类生活中,电梯随处可见,而它作为一个密闭的空间,也极易为病毒传播与繁衍提供条件,特别是新冠病毒肆虐期间,电梯的病毒防控不容忽视。
3.基于手势识别的智能电梯控制技术因为其非接触式的特点,可以很好的解决以上问题。然而,手势识别技术中,一个缺点是过于注重对目标手势的识别精度,忽视了网络的复杂度和检测速率;另一个不足是在追求网络轻量化时,降低了模型精度。为此,我们提出了一种基于改进yolov4的手势识别方法,很好的均衡了识别的速度和精度。


技术实现要素:

4.针对相关技术中的问题,本发明提出一种基于手势识别技术的智能电梯控制方法,以克服现有相关技术所存在的上述技术问题。
5.本发明的技术方案是这样实现的:
6.一种基于手势识别技术的智能电梯控制方法,所述方法包含以下步骤:
7.s1:收集手势图像并对手势位置和类别进行标记,制作成标准数据集;
8.s2:利用改进yolov4网络结构训练手势识别的模型;
9.s3:建立目标手势与电梯服务请求的对应关系;
10.s4:将采集到的视频流通过以帧为单位的方式输入手势识别模型,若识别出每帧图像数据的目标手势置信分数超过设定的阈值则将识别结果显示在原图上,并通过信号传输设备将识别出的结果类别发送给,电梯相应做出服务响应;
11.s5:当原图上显示出不同识别结果时,信号传输装置将会将识别出的所有结果发送给下位机,电梯将做出不同的服务响应。
12.进一步来说,所述s1中,标准数据集制作包含以下步骤:
13.使用图像采集设备采集具有目标手势且不同背景的照片;
14.使用labelimg软件对拍摄的照片进行打标签处理;
15.将照片与标签文件按pascol voc数据集格式排列;
16.划分训练所需的训练,验证和测试文件,比例分别为70%,20%,10%。
17.进一步来说,所述s2中,模型训练包含以下步骤:
18.改进yolov4网络模型,改进过程如下:
19.将ghostnet作为改进后的yolov4的骨干网络,利用三个有效特征层替换原来yolov4骨干网络cspdarknet53的有效特征层进行加强特征提取网络的构建。ghostnet使用深度可分离卷积获得特征浓缩的相似特征图,保证良好检测效果的情况下,减少模型的参数量与提高模型的执行速度。
20.kmeans算法聚类出适合自制手势数据集的9种尺寸的锚框,使锚框的长宽形状越接近真实的bbox,有效提高模型检测精度。
21.对于主干特征提取网络使用hard-swish作为主要激活函数,提高模型的运算速率。
22.设置模型训练参数,参数包括:
23.学习率(learning rate)、批量尺寸大小(batch size),迭代次数(epoch)、隐藏层数目层数、激活函数的选择、部分损失函数的可调系数以及正则化系数。
24.模型训练:在pytorch中配置好模型训练需要的虚拟环境,并在此虚拟环境中训练改进后的yolov4模型。
25.进一步来说,所述s4中图像数据在手势识别模型中的识别过程包括以下步骤:
26.模型加载:加载训练好的权值文件;
27.设置预测参数,参数包括:得到预测框的置信度分数阈值、非极大值抑制所用到的nms_iou值、输入图片的大小、是否使用gpu;
28.预测:在模型中输入待预测的图像或视频路径进行预测,预测结果将保存在指定路径的文件夹下;实时检测时,模型将调用摄像头。
29.结果显示:将预测后的框,手势类别,置信分数绘制在原图上。
30.一种基于手势识别的智能电梯控制系统,所述系统包含以下模块:
31.手势识别模型建立模块,用于建立手势识别模型。
32.电梯服务模型建立模块,用于建立电梯服务请求与目标手势相对应的关系。
33.手势识别模块,用于将采集到的视频流通过以帧为单位的方式输入手势识别模型,若识别出每帧图像数据的目标手势置信分数超过设定的阈值则将识别结果显示在原图上,同时信号传输设备将识别出的手势类别传输给电梯控制设备,电梯相应做出服务响应。当原图上显示出不同识别结果时,信号传输装置将会将识别出的所有结果发送给电梯控制装置,电梯将做出不同的服务响应。
34.进一步来说,所述手势识别模型建立模块包括:
35.数据集制作部分:使用图像采集装置采集具有目标手势且不同背景的照片,使用labelimg软件对拍摄的照片进行打标签处理,将照片与标签文件按pascol voc数据集排列,划分所需的训练,验证和测试文件。
36.模型训练部分,搭建改进yolov4网络模型,设置超参数,开始模型训练,每隔一定迭代次数保留权值文件,保留的模型文件可以用于图片,实时视频流的手势检测。
37.进一步来说,所述手势识别模块包括:
38.将目标手势图像输入预先训练好的模型之中;
39.主干特征提取网络对手势图像进行特征提取;
40.特征金字塔进行特征融合;
41.头部网络利用获得到的特征进行预测;
42.对预测结果进行解码,并进行得分排序和非极大抑制筛选,最后在图像上获得一系列置信分数和预测框;
43.将筛选后的框绘制在原图上。
44.本发明的有益效果:
45.本发明涉及目标检测技术yolov4。yolov4是yolo系列目标检测算法的第四个版本,但其在手势等小目标检测精度较差,而且其模型参数量较大,执行速度较慢。介于此,本发明在原始yolov4网络的基础上,将ghostnet作为改进后的yolov4的骨干网络,利用三个有效特征层替换原来yolov4骨干网络cspdarknet53的有效特征层进行加强特征提取网络的构建,保证良好检测效果的情况下,减少模型的参数量与提高模型的执行速度。利用kmeans算法聚类出适合自己手势数据集的9种尺寸的锚框,使锚框的长宽形状越接近真实的边界框,有效提高模型检测精度。对于主干特征提取网络使用hard-swish作为主要激活函数,提高了模型的运算速率。同时,在电梯服务模型的设计上,我们利用yolov4可实现多目标检测的特性,当原图上返回不同识别结果时,信号传输装置将会将识别出的所有结果发送给电梯控制装置,届时电梯将做出不同的服务响应。
附图说明
46.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
47.图1为本发明所述方法的流程图。
48.图2为本发明改进yolov4中ghost模块示意图。
49.图3为本发明ghost模块构成的瓶颈结构图。
50.图4为本发明kmeans在自制数据集上的聚类结果图。
51.图5为本发明公开的手势数据集示意图。
52.图6为本发明所述模型下的手势识别效果图。
具体实施方式
53.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
54.实施例:
55.一种基于手势识别的智能电梯控制方法,如图1所示,包括以下步骤:
56.s1:收集手势图像并对手势位置和类别进行标记,制作成标准数据集。
57.s2:利用改进yolov4网络结构训练手势识别的模型。
58.s3:建立目标手势与电梯服务请求的对应关系。
59.s4:将采集到的视频流通过以帧为单位的方式输入手势识别模型,若识别出每帧图像数据的目标手势置信分数超过设定的阈值则将识别结果显示在原图上,同时信号传输设备将识别出的手势类别传输给电梯控制设备,电梯相应做出服务响应。
60.s5:当原图上显示出不同识别结果时,信号传输装置将会将识别出的所有结果发送给电梯控制装置,电梯将做出不同的服务响应。
61.在s1中,制作标准数据集包括包括以下步骤:
62.使用图像采集装置采集具有目标手势且不同背景的照片;
63.使用labelimg软件对拍摄的照片进行打标签处理;
64.将照片与标签文件按pascol voc数据集格式排列;
65.划分训练所需的训练,验证和测试文件,比例分别为70%,20%,10%。
66.数据集采集与处理,使用高清单反摄像头采集不同背景不同肤色不同大小的手势图像2880张,并将其含有手部区域进行标签化处理,制作成pascol voc格式数据集。划分所需的训练,验证和测试文件,比例分别为70%,20%,10%,具体来说数量分别为2016,576和288。
67.在s2中的模型训练包括以下步骤:
68.改进yolov4网络模型,改进过程如下:
69.将ghostnet作为改进后的yolov4的骨干网络,利用三个有效特征层替换原来yolov4骨干网络cspdarknet53的有效特征层进行加强特征提取网络的构建。如图2所示,从整体上去看这个ghost模块,它其实就是两步简单思想的汇总:1、利用1x1卷积获得输入特征的必要特征浓缩。2、利用深度可分离卷积获得特征浓缩的相似特征图。ghost模块构成的瓶颈结构如图3所示,这种瓶颈结构可以分为两个部分,分别是主干部分和残差边部分,包含ghost模块的,我们称它为主干部分。此外这种瓶颈结构有两个种类,如图3所示,当我们需要对特征层的宽高进行压缩的时候,我们会设置这个瓶颈结构的步长为2。此时我们会在瓶颈结构里面多添加一些卷积层,在主干部分里,我们会在两个ghost模块中添加一个步长为2x2的深度可分离卷积进行特征层的宽高压缩。在残差边部分,我们也会添加上一个步长为2x2的深度可分离卷积和1x1的普通卷积。算法聚类出适合自己手势数据集的9种尺寸的锚框,使锚框的长宽形状越接近真实的预测框,有效提高模型检测精度。图4所示为针对自制手势数据集聚类后的锚框大小。对于主干特征提取网络使用hard-swish作为主要激活函数,提高模型的运算速率。
70.模型参数设置,参数包括:
71.学习率(learning rate)、批量尺寸大小(batch size),迭代次数(epoch)、隐藏层数目层数、激活函数的选择、部分损失函数的可调系数以及正则化系数。
72.模型训练包括:
73.在pytorch中配置好模型训练需要的虚拟环境,并在此虚拟环境中训练改进后的yolov4模型。
74.在s3中建立目标手势与电梯服务请求的对应关系。对于楼层小于6层的电梯,我们用1-6手势对应楼层1-6按钮。基于本发明的方法,公开了一套手势数据集,如图5所示。具体来说,当模型检测到置信分数大于阈值的手势时,返回该类别结果,电梯相应做出服务,这里阈值设置为0.90。如图6所示,当被检测的手势图像如图时,网络预测其为手势5的置信度为0.99超过阈值0.90,手势类别结果和置信度显示在原图上。
75.s4中手势预测与电梯服务响应:将采集到的视频流通过以帧为单位的方式输入手势识别模型,若识别出每帧图像数据的目标手势置信分数超过设定的阈值则将识别结果显示在原图上,同时信号传输设备将识别出的手势类别传输给电梯控制设备,电梯相应做出服务响应。
76.具体来说,我们将待检测图像缩放至416*416作为网络的输入,网络将整张图像分
为s*s个网格进行预测,每个网格检测的对象是中心点落在该网格内的目标,本文网络所述的s*s包括13*13、26*26、52*52共3种尺寸,输出层的shape分别为(13,13,33),(26,26,33),(52,52,33),其中最后一个维度33是因为该特征图是基于自制手势数据集,它的类为6种。33为3*(4+1+6),其中3代表每层先验框数量,4为边框大小x_offset、y_offset、h和w,1代表置信度,6为分类类别。
77.预测结果解码:
78.每个网格点加上它对应的x_offset和y_offset,加完后的结果就是预测框的中心,然后再利用先验框和h、w结合,计算出预测框的长和宽,将得到的预测框进行得分排序与非极大值筛选后在原图上绘制出最后的框,类别和置信分数。
79.s5:当原图上显示出不同识别结果时,信号传输装置将会将识别出的所有结果发送给电梯控制装置,电梯将做出不同的服务响应。具体来说,当返回结果有多个时,电梯将根据不同的结果进行有顺序地升降。例如此时电梯在一层,返回的手势结果同时有2和3,电梯便会先升至2层,停留1.5s后,再升至3层。反之亦然。
80.对应于本发明基于手势识别的智能电梯控制方法,本发明还公开了一种基于手势识别技术的智能电梯控制系统,系统包括:
81.手势识别模型建立模块;
82.电梯服务模型建立模块;
83.手势识别模块。
84.手势识别模型建立模块包括:数据集制作部分,使用图像采集装置采集具有目标手势且不同背景的照片,使用labelimg软件对拍摄的照片进行打标签处理,将照片与标签文件按pascol voc数据集排列,划分所需的训练,验证和测试文件。模型训练部分,搭建改进yolov4网络模型,设置超参数,开始模型训练,每隔一定迭代次数保留权值文件,保留的模型文件可以用于图片,实时视频流的手势检测。
85.电梯服务模型建立模块,用于建立手势识别结果和电梯服务动作一一对应的关系。将采集到的视频流通过以帧为单位的方式输入手势识别模型,若识别出每帧图像数据的目标手势置信分数超过设定的阈值则将识别结果显示在原图上,同时信号传输设备将识别出的手势类别传输给电梯控制设备,电梯相应做出服务响应。当原图上显示出不同识别结果时,信号传输装置将会将识别出的所有结果发送给电梯控制装置,电梯将有序做出不同的服务响应。
86.手势识别模块,将缩放后的目标手势图像输入预先训练好的模型之中;骨干网络对手势图像进行特征提取;特征金字塔进行特征融合;头部网络利用获得到的特征进行预测;对预测结果进行解码,并进行得分排序和非极大抑制筛选,最后在图像上获得一系列置信分数和预测框;将筛选后的框绘制在原图上。
87.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

技术特征:
1.一种基于手势识别技术的智能电梯控制方法,其特征在于,所述所属方法包括以下步骤:s1:收集手势图像并对手势位置和类别进行标记,制作成标准数据集。s2:利用改进yolov4网络结构训练手势识别的模型。s3:建立目标手势与电梯服务请求的对应关系。s4:将采集到的视频流通过以帧为单位的方式输入手势识别模型,若识别出每帧图像数据的目标手势置信分数超过设定的阈值则将识别结果显示在原图上,同时信号传输设备将识别出的手势类别传输给电梯控制设备,电梯相应做出服务响应。s5:当原图上显示出不同识别结果时,信号传输装置将会将识别出的所有结果发送给电梯控制装置,电梯继而做出不同的服务响应。2.根据权利要求1所述的一种基于手势识别技术的智能电梯控制方法,其特征在于,所述s1中,制作标准数据集包括以下步骤:使用图像采集装置采集具有目标手势且不同背景的照片;使用labelimg软件对拍摄的照片进行打标签处理;将照片与标签文件按pascol voc数据集格式排列;划分训练所需的训练,验证和测试文件,比例分别为70%,20%,10%。3.根据权利要求1所述的一种基于手势识别技术的智能电梯控制方法,其特征在于,所述s2中,训练手势识别的模型包括以下步骤:改进yolov4网络模型,改进过程如下:将ghostnet作为改进后的yolov4的骨干网络,利用三个有效特征层替换原来yolov4骨干网络cspdarknet53的有效特征层进行加强特征提取网络的构建。ghostnet使用深度可分离卷积获得特征浓缩的相似特征图,保证良好检测效果的情况下,减少模型的参数量与提高模型的执行速度。kmeans算法聚类出适合自己手势数据集的9种尺寸的锚框,使锚框的长宽形状越接近真实的预测框,有效提高模型检测精度。对于主干特征提取网络使用hard-swish作为主要激活函数,提高了模型的运算速率。设置模型参数,参数包括:学习率(learning rate)、批量尺寸大小(batch size)、迭代次数(epoch)、隐藏层数目层数、激活函数的选择、部分损失函数的可调系数以及正则化系数。模型训练:在pytorch中配置好模型训练需要的虚拟环境,并在此虚拟环境中训练改进后的yolov4模型。4.根据权利要求1所述的一种基于手势识别技术的智能电梯控制方法,其特征在于,所述s4中得到识别结果包括以下步骤:模型加载:加载训练好的权值文件;设置预测参数,参数包括:得到预测框的置信度分数阈值、非极大值抑制所用到的nms_iou值、输入图片的大小、是否使用gpu;预测:在模型中输入待预测的图像或视频进行预测,预测结果将保存在指定路径的文件夹下;实时检测时,模型将调用摄像头。5.一种基于手势识别技术的智能电梯控制系统,其特征在于,所述系统包括:
手势识别模型建立模块;电梯服务模型建立模块;手势识别模块。6.根据权利要求5所述一种基于手势识别技术的智能电梯控制系统,其特征在于,所述手势识别模型建立模块包括:数据集制作部分,使用图像采集装置采集具有目标手势且不同背景的照片,使用labelimg软件对拍摄的照片进行打标签处理,将照片与标签文件按pascol voc数据集排列,划分所需的训练,验证和测试文件。模型训练部分,搭建改进yolov4网络模型,设置超参数,开始模型训练,每隔一定迭代次数保留权值文件,保留的模型文件可以用于图片,实时视频流的手势检测。7.根据权利要求5所述一种基于手势识别技术的智能电梯控制系统,其特征在于,所述手势识别模块包括:将目标手势图像输入预先训练好的模型之中;主干特征提取网络对手势图像进行特征提取;特征金字塔进行特征融合;头部网络利用获得到的特征进行预测;对预测结果进行解码,并进行得分排序和非极大抑制筛选,最后在图像上获得一系列置信分数和预测框;将筛选后的框绘制在原图上。

技术总结
本发明涉及目标检测领域,尤其是一种基于手势识别技术的智能电梯控制方法及系统。针对手势识别技术中,过于注重对目标手势的识别精度,忽视网络复杂度和检测速率;在追求网络轻量化时,降低模型精度等问题提出以下方案:S1:收集手势图像并对手势位置和类别进行标记,制作成标准数据集;S2:利用改进yolov4网络结构训练手势识别的模型;S3:建立目标手势与电梯服务请求的对应关系。本发明将Ghostnet作为改进后的yolov4的骨干网络,利用三个有效特征层替换原来yolov4骨干网络CSPdarknet53的有效特征层进行加强特征提取网络的构建,保证良好检测效果的情况下,减少模型的参数量与提高模型的执行速度;主干特征提取网络使用hard-swish作为主要激活函数,提高了模型运算速率。提高了模型运算速率。提高了模型运算速率。


技术研发人员:金江涛 谭爱红 高敏涵 李飞龙
受保护的技术使用者:中国计量大学
技术研发日:2022.06.24
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-3388.html

最新回复(0)