设备控制方法、装置、电子设备以及存储介质与流程

专利2023-02-24  114



1.本技术涉及数据处理技术领域,更具体地,涉及一种设备控制方法、装置、电子设备以及存储介质。


背景技术:

2.随着科技的进步,摄像机朝着越来越智能化的方向稳步发展,人脸识别、人形检测、哭声检测、宠物识别等功能成为摄像机的标配功能,通过这些功能可以在海量视频数据筛选有效数据。
3.在设备控制领域,可以通过摄像机采集人体的视频流,从视频流中识别出人体形态,再获取与人体形态对应的控制指令,然后通过控制指令对设备进行控制。但是,采用该方法对设备控制容易导致设备被误触发控制,设备控制的准确度较低。


技术实现要素:

4.本技术提出了一种设备控制方法、装置、电子设备以及存储介质,用于提高设备控制的准确度。
5.第一方面,本技术实施例提供了一种设备控制方法,所述方法包括:识别实时视频流的视频帧中目标对象的形体姿态;若从预设帧数的连续视频帧中识别出至少两个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略,以基于所述控制策略向对应的目标设备发送目标控制指。
6.第二方面,本技术实施例提供了一种设备控制装置,所述装置包括:识别模块,用于识别实时视频流的视频帧中目标对象的形体姿态;控制模块,用于若从预设帧数的连续视频帧中识别出至少两个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略,以基于所述控制策略向对应的目标设备发送目标控制指令。
7.可选地,控制模块,还用于若从所述预设帧数的连续视频帧中的任一视频帧中识别出至少两个第一目标形体姿态,则触发获取与所述至少两个第一目标形体姿态相匹配的控制策略。
8.可选地,控制模块,还用于若从所述预设帧数的连续视频帧中的第一视频帧中识别出至少两个第一目标形体姿态,从所述预设帧数的连续视频帧中的第二视频帧中识别出至少一个第二目标形体姿态,则触发获取与所述至少两个第一目标形体姿态和所述至少一个第二目标形体姿态组合后相匹配的控制策略。
9.可选地,控制模块,还用于若从所述预设帧数的连续视频帧中的第三视频帧中识别出至少一个第三目标形体姿态,从所述预设帧数的连续视频帧中的第四视频帧中识别出至少一个第四目标形体姿态,则触发获取与所述至少一个第三目标形体姿态和所述至少一个第四目标形体姿态组合后相匹配的控制策略。
10.可选地,控制模块,还用于若在所述实时视频流中的第五视频帧中识别出指定形体姿态,且在所述第五视频帧之后采集的预设帧数的连续视频中识别出至少一个目标形体
姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略。
11.可选地,装置还包括候选形体姿态确定模块,用于若在所述实时视频流的一帧视频帧中识别出多个形体姿态,则根据所述多个形体姿态中每个形体姿态在所述一帧视频帧中的占比,从所述多个形体姿态中确定出至少一个候选形体姿态;判断所述至少一个候选形体姿态中是否存在指定形体姿态或是否存在至少一个目标形体姿态。
12.可选地,候选形体姿态确定模块,还用于若在所述实时视频流的一帧视频帧中识别出多个形体姿态,则根据所述多个形体姿态中每个形体姿态在所述一帧视频帧中的占比,从所述多个形体姿态中确定出占比最大的至一个形体姿态作为候选形体姿态。
13.可选地,候选形体姿态确定模块,还用于根据所述多个形体姿态中每个形体姿态在所述一帧视频中的位置和所述多个形体姿态中每个形体姿态对应的预设特征值,以预设形状的锚定框在所述一帧图像中框选每个形体姿态;将各所述形体姿态所对应的锚定框的面积中,面积最大的至少一个锚定框所框选的形体姿态确定为候选形体姿态。
14.可选地,候选形体姿态确定模块,还用于根据所述多个形体姿态中每个形体姿态所包含所有像素点,确定所述多个形体姿态中每个形体姿态在所述一帧视频帧中所占据的图像区域;将各所述形体姿态所占据的图像区域的面积中,所占据的图像区域最大的至少一个形体姿态确定为候选形体姿态。
15.可选地,装置还包括:获取模块,用于获取至少一个预设对象的至少两个预设形体姿态和至少一个预设控制策略,所述至少两个预设形体姿态包括至少两个预设标准形体姿态;建立并存储所述获取到的至少一个预设对象的至少两个预设标准形体姿态与所述至少一个预设控制策略之间的映射关系;控制模块,还用于若从预设帧数的连续视频帧中识别出至少两个形体姿态是预设标准形体姿态,则确定所述至少两个形体姿态是目标形体姿态,并触发根据所述映射关系获取与所述至少两个目标形体姿态相匹配的控制策略。
16.第三方面,本技术实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。
17.第四方面,本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有程序代码,其中,在程序代码被处理器运行时执行上述的方法。
18.第五方面,本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法。
19.本技术实施例提供的一种设备控制方法、装置、电子设备及存储介质,从视频流中预设帧数的连续视频帧中识别出至少两个目标形体姿态,并确定与所述至少两个目标形体姿态相匹配的控制策略,控制策略是基于至少两个目标体态确定的,减少了误触目标体态导致确定的控制策略不准确的情况发生,提高了控制策略的准确度,进而提高了设备控制的准确度。
附图说明
20.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于
本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1示出了根据本技术实施例提供一种设备控制系统;
22.图2示出了本技术一个实施例提出的一种设备控制方法的流程图;
23.图3示出了本技术实施例中一种目标形体姿态的示意图;
24.图4示出了本技术实施例中又一种目标形体姿态的示意图;
25.图5示出了本技术实施例中再一种目标形体姿态的示意图;
26.图6示出了本技术实施例中再一种目标形体姿态的示意图;
27.图7示出了本技术又一个实施例提出的一种设备控制方法的流程图;
28.图8示出了本技术再一个实施例提出的一种设备控制方法的流程图;
29.图9示出了本技术实施例中手势识别过程的示意图;
30.图10示出了本技术一个实施例提出的一种设备控制装置的框图;
31.图11示出了用于执行根据本技术实施例的设备控制方法的电子设备的结构框图。
具体实施方式
32.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。根据本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
33.在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
34.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
35.目前,从视频流中识别出一个人体形态,再获取与该人体形态对应的控制指令,然后通过控制指令对设备进行控制。但是,视频流中识别出的人体形态可能是误触的人体形态,并不是用户基于需求发送的人体形态,从而导致确定根据人体形态获取的控制指令不在准确,导致设备控制的准确度较低。
36.因此,发明人提出一种设备控制方法、装置、电子设备及存储介质。通过识别实时视频流的视频帧中目标对象的形体姿态;若从预设帧数的连续视频帧中识别出至少两个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略,以基于所述控制策略向对应的目标设备发送目标控制指令。由于控制策略是基于至少两个目标体态确定的,减少了误触目标体态导致确定的控制策略不准确的情况发生,提高了控制策略的准确度,进而提高了设备控制的准确度。
37.图1示出了根据本技术实施例提供一种设备控制系统。如图1所示,该设备控制系统包括摄像机101、服务器(或云端)102、终端103和智能设备104,摄像机101以及各智能设备104通常需要通过网络设备105(如路由器或网关)传输数据至服务器102或终端103;。
38.摄像机101可以是高清摄像机、红外摄像机以及彩色摄像机等,摄像机用于拍摄目
标对象的实时视频流。
39.服务器102可以是是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
40.终端103可以是智能手机、平板电脑、笔记本电脑、台式电脑、智能家电、车载终端、飞行器、可穿戴设备终端、虚拟现实设备以及其他可以进行视频播放的终端设备,该终端上可以运行视频播放应用或者运行其他可以调用视频播放应用的其他应用(例如即时通讯应用、购物应用、搜索应用、游戏应用、论坛应用、地图交通应用等)。
41.智能设备104可以智能家居设备和智能办公设备等,例如电冰箱、打印机、电视机、空调等。
42.作为一种实施方式,摄像机101可以拍摄目标对象的实时视频流,实时视频流通过服务器102发送至终端103,终端103对摄像机101发送的实时视频流进行处理,得到控制策略,并根据控制策略得到控制指令,然后终端103将控制指令发送给智能设备104,以使智能设备104执行控制指令。
43.作为又一种实施方式,摄像机101可以拍摄目标对象的实时视频流,并将实时视频流发送至服务器102,服务器102对摄像机101发送的实时视频流进行处理,得到控制策略,并根据控制策略得到控制指令,然后服务器102将控制指令发送给智能设备104,以使智能设备104执行控制指令。
44.在一些实施方式中,摄像机101本身可以对拍摄的实时视频流进行处理,得到控制策略,并根据控制策略得到控制指令,然后摄像机101将控制指令发送给智能设备104,以使智能设备104执行控制指令。
45.为方便表述,在本技术下述实施例中,将可执行本技术方案的摄像机101、服务器102以及终端103均称为电子设备。
46.请参阅图2,图2示出了本技术一个实施例提出的一种设备控制方法的流程图,该方法可以由电子设备执行,例如该电子设备可以是图1中的服务器,也可以是图1中的终端,还可以具有摄像功能的摄像设备,如图1中的摄像机。该方法具体可以包括如下步骤:
47.s110、识别实时视频流的视频帧中目标对象的形体姿态。
48.在本实施例中,可以通过摄像机对目标对象进行实时拍摄,得到实时视频流,电子设备从摄像机获取实时视频流,并识别实时视频流的视频帧中目标对象的形体姿态。
49.其中,目标对象是指需要识别的对象,具体可以是需要识别出视频帧画面中的特定对象,例如目标对象具体可以是人体,包括成年人、未成年人以及青少年等,目标对象可以是人体全身,还可以是人体局部的部位,如头部、手部等。
50.可以理解,目标对象的形体姿态可以是指目标对象的外形姿态,可以是目标对象整体的外形姿态或局部的外形姿态,例如形体姿态可以包括人体的全身姿态和/或人体的部位姿态,所述人体的部位姿态包括人体的头部姿态和/或人体的肢体姿态,所述人体的肢体姿态包括人体的手势。
51.当形体姿态为全身姿态时,一个目标对象对应一个形体姿态;当形体姿态为头部姿态时,一个目标对象对应一个形体姿态;当形体姿态为手势时,一个手势对应一个形体姿
态,若一个人的两个手均做出手势,则对应两个形体姿态。
52.作为一种实施方式,可以是通过深度学习模型(例如训练获得的形体姿态识别模型)对实时视频流的每个视频帧均进行识别,以确定出每个视频帧中目标对象的形体姿态。
53.深度学习模型的训练过程可以包括:将包括形体姿态的样本图像输入至预设的算法模型中进行训练。在训练的过程中,可以将每一轮中预设的算法模型输出的预测值与形体姿态的样本标签进行比对,得到相应的损失,进而根据相应的损失调整预设的算法模型的参数,不断使预设的算法模型收敛;直到满足条件后停止训练,从而得到训练好的深度学习模型。
54.实时视频流可以是1080p的高清视频,可以将实时视频流的每一帧图像缓冲在缓冲器中,再从缓冲器中获取缓存的当前视频帧,将当前视频帧转换为512
×
512分辨率的待处理视频帧,然后通过深度学习模型识别待处理视频帧的形体姿态。
55.s120、若从预设帧数的连续视频帧中识别出至少两个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略,以基于所述控制策略向对应的目标设备发送目标控制指令。
56.预设帧数可以是基于需求和实际场景设定的,例如,预设帧数为100或120。
57.控制策略可以是指用于控制目标设备的控制方法或控制流程,控制策略可以包括目标设备的设备标识以及目标设备所需要执行的目标控制指令,目标设备可以是任意可被控制的设备,例如可以是智能家居设备。其中,设备标识可以是目标设备名称或编号等,以通过设备标识将目标控制指令发送至目标设备,目标控制指令可以目标设备所需要执行的具体指令,例如目标设备为空调,目标控制指令可以是打开空调以及空调设置温度26摄氏度。
58.目标形体姿态可以是指视频帧中与预设形体姿态匹配的形体姿态。电子设备可以存储预设对象输入的多个预设形体姿态对,以及多个预设形体姿态对一一对应的预设控制策略,每个预设形体姿态对包括至少两个预设形体姿态,预设形体姿态可以是指预存的预设标准形体姿态,预设形体姿态对可以以预设组合结果的方式存储,预设组合结果可以包括预设形体姿态对中各个预设形体姿态以及各个预设形体姿态之间的位置关系,预设组合结果还可以包括预设形体姿态对中各个预设形体姿态,以及各个预设形体姿态之间的时间先后顺序。
59.可以理解是,识别出的目标形体姿态对应内的目标对象与录入预设形态姿态的预设对象可以是相同的对象,也可以是不同的对象。以识别出的目标形体姿态作为获取控制策略的依据,对象本身的人脸信息以及形体信息可以不作为获取控制策略的依据。
60.针对每一个视频帧,将多个预设形体姿态对包括的全部预设形体姿态与视频帧中形体姿态进行比对,确定多个预设形体姿态对包括的全部预设形体姿态中是否存在与视频帧中的形体姿态匹配的预设形体姿态,若存在,确定视频帧中的形体姿态为目标形体姿态,若不存在,确定视频帧中的形体姿态不为目标形体姿态,并获取下一个视频帧,继续进行上述目标形体姿态的判断过程。
61.例如,预设形体姿态对包括10个,共对应10个预设控制策略,每个预设形体姿态对包括2个预设形体姿态,将10个预设形体姿态对包括的20个预设形体姿态与视频帧中的形体姿态进行比对,确定20个预设形体姿态与视频帧中的形体姿态是否匹配,在20个预设形
体姿态中存在与视频帧中的形体姿态匹配的预设形体姿态时,确定视频帧中的形体姿态为目标形体姿态。
62.可以是通过摄像机采集至少一个预设对象的多个预设形体姿态对,并获取预设对象录入的多个预设控制策略,一个预设形体姿态对包括至少两个预设标准形体姿态;然后建立并存储获取到的多个预设形体姿态对与多个预设控制策略之间的映射关系,从而获得上文所述的多个预设形体姿态对以及多个预设形体姿态对一一对应的预设控制策略。
63.形体姿态与预设形体姿态匹配可以是指形体姿态与预设形体姿态相同,形体姿态与预设形体姿态匹配还可以是指形体姿态与预设形体姿态的相似度达到相似度阈值,相似度阈值可以是80%或88%等。
64.当目标对象包括一个时,一个视频帧中的目标形体姿态是指该目标对象的目标形体姿态;当目标对象包括多个时,一个视频帧中的目标形体姿态是指至少一个目标对象的目标形体姿态。
65.例如,目标对象包括三个,在实时视频流的第一帧中包括一个目标对象的目标形体姿态,则该视频帧中目标形体姿态为该一个目标形体姿态;在实时视频流的第十帧中包括三个目标对象的目标形体姿态,则该视频帧中目标形体姿态为该三个目标形体姿态。
66.作为一种实施方式,若预设帧数的连续视频帧中每个视频帧最多包括一个目标形体姿态,当预设帧数的连续视频帧中存在至少两个视频帧包括目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略。当预设帧数的连续视频帧中不存在至少两个视频帧包括目标形体姿态,则不触发获取与所述至少两个目标形体姿态相匹配的控制策略。
67.例如,预设帧数为100,在连续的100个视频帧中第1个视频帧中包括目标形体姿态,第78帧中包括目标形体姿态,则触发获取与至少两个目标形体姿态相匹配的控制策略。又如,预设帧数为100,在连续的视频帧中第1个视频帧中包括目标形体姿态,第120帧中包括目标形体姿态,则确定连续的100帧中不包括至少两个目标形体姿态,不触发获取与至少两个目标形体姿态相匹配的控制策略。
68.作为又一种实施方式,若预设帧数的连续视频帧中存在一个视频帧包括至少两个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略。例如,预设帧数为100,在连续的100个视频帧中第56个视频帧中包括至少两个目标形体姿态,则触发获取与至少两个目标形体姿态相匹配的控制策略。
69.与至少两个目标形体姿态相匹配的控制策略可以是指与至少两个目标形体姿态相匹配的预设形体姿态对所对应的预设控制策略。目标设备是指与至少两个目标形体姿态相匹配的预设控制策略所指向的设备,目标控制指令是指与所述至少两个目标形体姿态相匹配的控制策略中目标设备所需要执行的指令。控制策略可以包括被控制设备的设备标识(例如设备名称或设备编号等)以及控制指令的具体内容。
70.电子设备获得控制策略之后,可以根据控制策略中的设备标识,向目标设备发送控制策略中的目标控制指令,目标设备接收到目标控制指令之后,执行目标控制指令,从而实现对目标设备的控制。
71.作为一种实施方式,上述预设形体姿态对与至少两个目标形体姿态匹配可以是指预设形体姿态对对应的预设组合结果与至少两个目标形体姿态的组合结果匹配,其中,至
少两个目标形体姿态的组合结果可以是指将至少两个目标形体姿态按照其在视频帧中的位置信息,将至少两个目标形体姿态组合在一个图像中所得到的结果,至少两个目标形体姿态的组合结果也可以是按照其所属视频帧的时间先后顺序,将至少两个目标形体姿态排列后所得到的结果。
72.例如,预设形体姿态对包括3个形体姿态a1、b1以及c1,预设形体姿态对对应的预设组合结果中a1在b1的左上方,b1在c1的左上方,识别出的目标形体姿态包括3个,分别为a2、b2和c2,将a2、b2以及c2按照其所在视频帧中的位置信息,将a2、b2和c2组合在一个图像中,当确定a1与a2相同、b1与b2相同、c1与c2相同,且在组合后的一张图像中,a2在b2的左上方,b2在c2的左上方时,确定形体姿态对与3个目标形体姿态匹配。
73.又如,预设形体姿态对包括3个形体姿态a3、b3以及c3,预设形体姿态对对应的预设组合结果中a3在b3之前,b3在c3之前,识别出的目标形体姿态包括3个,分别为a4、b4和c4,将a4、b4以及c4按照其所在视频帧的时间顺序,将a4、b4和c4排列,当确定a3与a4相同、b3与b4相同、c3与c4相同,且a4在b4之前,b4在c4之前时,确定形体姿态对与3个目标形体姿态匹配。
74.在一些实施方式中,从预设帧数的连续视频帧中识别出至少两个目标形体姿态之后,根据至少两个目标形体姿态将至少两个目标形体姿态在各自视频帧中的位置关系,将该至少两个目标形体姿态定位至与视频帧具有相同分辨率的还原图像(该还原图像即为上文所述的至少两个目标形体姿态的组合结果)中,然后从该还原图像中框选至少两个目标形体姿态对应的姿态区域,并将该姿态区域压缩为112
×
112分辨率的比对图像,然后将比对图像与预存的多个预设形体姿态对对应的预设组合结果进行比对。
75.可选地,作为一种实施方式,s120可以包括:若从所述预设帧数的连续视频帧中的任一视频帧中识别出至少两个第一目标形体姿态,则触发获取与所述至少两个第一目标形体姿态相匹配的控制策略,以基于所述控制策略向对应的目标设备发送目标控制指令。
76.至少两个第一目标形体姿态可以是指处于同一个视频帧中的至少两个目标形体姿态,该至少两个第一目标形体姿态可以是相同的,也可以是不同的。例如,该至少两个第一目标形体姿态可以是同一个目标对象的两只手分别做出的两个手势,该至少两个第一目标形体姿态也可以是两个目标对象的两只手分别做出的四个手势。
77.当确定出某一视频帧中包括至少两个第一目标形体姿态,从多个预设形体姿态对中获取与该至少两个第一目标形体姿态匹配的目标形体姿态对,将目标形体姿态对对应的预设控制策略作为与所述至少两个第一目标形体姿态相匹配的控制策略。
78.预设形体姿态对与至少两个第一目标形体姿态匹配可以是指预设形体姿态对对应的预设组合结果与至少两个第一目标形体姿态所对应的视频帧匹配,其中,预设组合结果与视频帧匹配可以是指预设组合结果与视频帧包括相同的形体姿态,且形体姿态之间的位置关系相同。
79.例如,预设形体姿态对包括2个形体姿态a3以及b3,预设形体姿态对对应的预设组合结果中a3在b3的左侧,识别出的第一目标形体姿态包括2个,分别为a4和b4,在第一目标形体姿态对应的视频帧中a4在b4左侧,当确定a3与a4相同、b3与b4相同,确定形体姿态对与2个第一目标形体姿态匹配。
80.如图3所示,图3中的a、b、c以及d4个视频帧的识别结果,每个视频帧中的手势均为
目标形体姿态,每个视频帧包括至少两个目标形体姿态,在图3的a中,五指手势在二指手势的左侧,图3的b中,左手的ok手势在右手的ok手势左侧,图3的c中右手的二指手势在最左侧,左手的二指手势在中间,右手的ok手势在最右侧,在图3的d中,右手的四指手势在最左侧和最右侧,左手的四指手势在中间;每个视频帧中的至少两个手势对应一个控制策略,例如,图3中的a对应的控制策略为播放下一曲,图3中的b对应控制策略为打开空调。
81.可选地,s120还可以包括:若从所述预设帧数的连续视频帧中的第一视频帧中识别出至少两个第一目标形体姿态,从所述预设帧数的连续视频帧中的第二视频帧中识别出至少一个第二目标形体姿态,则触发获取与所述至少两个第一目标形体姿态和所述至少一个第二目标形体姿态组合后相匹配的控制策略,以基于所述控制策略向对应的目标设备发送目标控制指令。
82.其中,采集所述第一视频帧的第一采集时刻早于采集所述第二视频帧的第二采集时刻。
83.第一目标形体姿态可以是指第一视频帧中目标对象的目标形体姿态,第二形体姿态是指第二视频帧中目标对象的目标形体姿态,第一视频帧可以是指预设帧数的连续视频帧第一次出现的包括至少两个目标形体姿态视频帧,第二视频帧可以是指第一视频帧之后,第一次出现的包括至少一个目标形体姿态的视频帧。
84.可以将至少两个第一目标形体姿态和所述至少一个第二目标形体姿态组合,得到第一待识别形体姿态对,可以在存储的多个预设形体姿态对中确定出与第一待识别形体姿态对匹配的目标形体姿态对,然后获取目标形体姿态对对应的预设控制策略作为与所述至少两个第一目标形体姿态和所述至少一个第二目标形体姿态组合后相匹配的控制策略。
85.预设形体姿态对与第一待识别形体姿态对匹配可以是预设形体姿态对仅包括与至少两个第一目标形体姿态匹配的第一预设形体姿态以及与至少一个第二目标形体姿态匹配的第二预设形体姿态,且,第一预设形体姿态排在第二预设形体姿态的前面。第一预设形体姿态与至少两个第一目标形体姿态匹配可以是指至少两个第一目标形体姿态包括的形体姿态与第一预设形体姿态包括的形体姿态相同,且至少两个第一目标形体姿态中各形体姿态的位置关系与第一预设形体姿态中各个形体姿态的位置关系相同。第二预设形体姿态与至少一个第二目标形体姿态匹配可以是指至少一个第二目标形体姿态包括的形体姿态与第二预设形体姿态包括的形体姿态相同,且至少一个第二目标形体姿态中各形体姿态的位置关系与第二预设形体姿态中各个形体姿态的位置关系相同。
86.如图4所示,图4中a为两个第一目标形体姿态,其中,两个第一目标形体姿态分别为左手五指手势和右手二指手势,且左手五指手势在右手二指手势的左边,图4中的b为一个第二目标形体姿态,第二目标形体姿态为右手ok手势,图4中的a和b组合作为一个组合结果,且图4中的a和b的顺序为a在前,该组合结果对应一个控制策略,例如,打开电视机。
87.可选地,s120还可以包括:若从所述预设帧数的连续视频帧中的第三视频帧中识别出至少一个第三目标形体姿态,从所述预设帧数的连续视频帧中的第四视频帧中识别出至少一个第四目标形体姿态,则触发获取与所述至少一个第三目标形体姿态和所述至少一个第四目标形体姿态组合后相匹配的控制策略。
88.第三目标形体姿态可以是指第三视频帧中目标对象的目标形体姿态,第四形体姿态是指第四视频帧中目标对象的目标形体姿态,第三视频帧可以是指预设帧数的连续视频
帧第一次出现的包括至少一个目标形体姿态视频帧,第四视频帧可以是指第三视频帧之后,第一次出现的包括至少一个目标形体姿态的视频帧。
89.可以将至少一个第三目标形体姿态和所述至少一个第四目标形体姿态组合,得到第二待识别形体姿态对,可以在存储的多个预设形体姿态对中确定出与第二待识别形体姿态对匹配的目标形体姿态对,然后获取目标形体姿态对对应的预设控制策略作为与所述至少一个第三目标形体姿态和所述至少一个第四目标形体姿态组合后相匹配的控制策略。
90.预设形体姿态对与第二待识别形体姿态对匹配可以是预设形体姿态对仅包括与至少一个第三目标形体姿态匹配的第三预设形体姿态以及与至少一个第四目标形体姿态匹配的第四预设形体姿态,且,第三预设形体姿态排在第四预设形体姿态的前面。第三预设形体姿态与至少一个第三目标形体姿态匹配可以是指至少一个第三目标形体姿态包括的形体姿态与第三预设形体姿态包括的形体姿态相同,且至少一个第三目标形体姿态中各形体姿态的位置关系与第三预设形体姿态中各个形体姿态的位置关系相同。第四预设形体姿态与至少一个第四目标形体姿态匹配可以是指至少一个第四目标形体姿态包括的形体姿态与第四预设形体姿态包括的形体姿态相同,且至少一个第四目标形体姿态中各形体姿态的位置关系与第四预设形体姿态中各个形体姿态的位置关系相同。
91.如图5所示,图5中的a为一个第三目标形体姿态,第三目标形体姿态为右手ok手势,图5中的b为两个第四目标形体姿态,两个第四目标形体姿态分别为左手ok手势和右手ok手势,且左手ok手势在右手ok手势的左侧;图5中的a和b组合作为一个组合结果,且图5中的a和b的顺序为a在前,该组合结果对应一个控制策略,例如,打开卧室灯。
92.可选地,可选地,s120还可以包括:若在所述实时视频流中的第五视频帧中识别出指定形体姿态,且在所述第五视频帧之后采集的预设帧数的连续视频中识别出至少一个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略。
93.第五视频帧可以是指存在目标对象的指定形体姿态的视频帧,指定形体姿态可是任何形体姿态。指定形体姿态可以是用户设置的用于触发的形体姿态,指定形体姿态可以是一个或多个,当视频帧中存在任意一个指定形体姿态时,确定该视频帧为第五视频帧。
94.在第五视频帧中识别出指定形体姿态后,将该指定形体姿态作为一个目标形体姿态,若第五视频帧之后采集的预设帧数的连续视频中识别出至少一个目标形体姿态,将指定形体姿态与之后的至少一个目标形体姿态作为至少两个目标形体姿态。若第五视频帧之后采集的预设帧数的连续视频中未识别出至少一个目标形体姿态,则重新识别包括指定形体姿态的第五视频帧。
95.预设形体姿态对与该至少两个目标形体姿态的组合结果匹配可以是预设形体姿态对仅包括与指定形体姿态匹配的第五预设形体姿态以及与至少一个目标形体姿态匹配的第六预设形体姿态,且,第五预设形体姿态排在第六预设形体姿态的前面。第五预设形体姿态与指定形体姿态匹配可以是指指定形体姿态包括的形体姿态与第五预设形体姿态包括的形体姿态相同,且指定形体姿态中各形体姿态的位置关系与第五预设形体姿态中各个形体姿态的位置关系相同。第六预设形体姿态与至少一个目标形体姿态匹配可以是指至少一个目标形体姿态包括的形体姿态与第六预设形体姿态包括的形体姿态相同,且至少一个目标形体姿态中各形体姿态的位置关系与第六预设形体姿态中各个形体姿态的位置关系相同。
96.如图6所示,图6中的a为指定形体姿态,指定形体姿态包括1个手势,指定形体姿态为右手ok手势,图6中的b为图6中a对应的目标形体姿态,图6中的b包括三个目标形体姿态,分别为右手四指手势、左手四指手势以及右手四指手势,其中左手四指手势在两个右手四指手势之间;图6中的a和b组合作为一个组合结果,且图6中的a和b的顺序为a在前,该组合结果对应一个控制策略,例如,打开加湿器。
97.在本实施例中,从视频流中预设帧数的连续视频帧中识别出至少两个目标形体姿态,并确定与所述至少两个目标形体姿态相匹配的控制策略,控制策略是基于至少两个目标体态确定的,减少了误触目标体态导致确定的控制策略不准确的情况发生,提高了控制策略的准确度,进而提高了设备控制的准确度。
98.同时,若从所述预设帧数的连续视频帧中的第一视频帧中识别出至少两个第一目标形体姿态,从所述预设帧数的连续视频帧中的第二视频帧中识别出至少一个第二目标形体姿态,则触发获取与所述至少两个第一目标形体姿态和所述至少一个第二目标形体姿态组合后相匹配的控制策略,通过第一视频帧以及第二视频帧中的多个目标形体姿态确定控制策略,进一步减少了误触目标体态导致确定的控制策略不准确的情况发生,从而进一步提高了控制策略的准确度,以及设备控制的准确度。
99.还可以在所述实时视频流中的第五视频帧中识别出指定形体姿态,且在所述第五视频帧之后采集的预设帧数的连续视频中识别出至少一个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略,通过指定视频帧的作为触发获取控制策略的依据,进一步减少了误触目标体态导致确定的控制策略不准确的情况发生,从而进一步提高了控制策略的准确度,以及设备控制的准确度。
100.请参阅图7,图7示出了本技术又一个实施例提出的一种设备控制方法的流程图,该方法可以由电子设备执行,例如该电子设备可以是图1中的服务器,也可以是图1中的终端,还可以具有摄像功能的摄像设备,如图1中的摄像机。该方法具体可以包括如下步骤:
101.s210、识别实时视频流的视频帧中目标对象的形体姿态。
102.其中,s210的描述参照上文s110的描述,此处不再赘述。
103.s220、若在所述实时视频流的一帧视频帧中识别出多个形体姿态,则根据所述多个形体姿态中每个形体姿态在所述一帧视频帧中的占比,从所述多个形体姿态中确定出至少一个候选形体姿态。
104.在实时视频流的一帧视频帧识别出多个形体姿态时,确定各个形体姿态在该视频帧中的占比,并从多个形体姿态中确定出占比最大的至一个形体姿态作为候选形体姿态。
105.作为一种实施方式,可以根据所述多个形体姿态中每个形体姿态在所述一帧视频中的位置和所述多个形体姿态中每个形体姿态对应的预设特征值,以预设形状的锚定框在所述一帧图像中框选每个形体姿态;将各所述形体姿态所对应的锚定框的面积中,面积最大的至少一个锚定框所框选的形体姿态确定为候选形体姿态。
106.用户可以基于需求对每个形体姿态设置预设特征值,比较重要的形体姿态的预设特征值可以较大,比较不重要的形体姿态的预设特征值可以较小,预设特征值的大小决定锚定框面积大小。针对相同大小的形体姿态,预设特征值越大,得到的锚定框越大。
107.可以根据形体姿态的预设特征值,确定锚定框的大小,根据形体姿态的位置确定锚定框的位置。然后计算各个锚定框内的面积,将面积最大的至少一个锚定框所框选的形
体姿态确定为候选形体姿态。
108.通过各个形体姿态的预设特征值确定各个形体姿态的锚定框,并通过锚定框面积大小确定候选形体姿态,过滤掉了视频帧中锚定框面积较小的不重要的形体姿态,降低了视频帧中锚定框面积较小的不重要的形体姿态的干扰,提高了形体姿态识别准确率。同时,不需要对全部的形体姿态进行识别,提高了形体姿态的识别效率。
109.作为另一种实施例方式,可以根据所述多个形体姿态中每个形体姿态所包含所有像素点,确定所述多个形体姿态中每个形体姿态在所述一帧视频帧中所占据的图像区域;将各所述形体姿态所占据的图像区域的面积中,所占据的图像区域最大的至少一个形体姿态确定为候选形体姿态。
110.可以将视频帧中每个形体姿态所包含的全部像素点构成的区域作为图像区域,将视频帧中形体姿态不包含的像素点构成的区域作为非图像区域,计算各个图像区域的面积,将占据的图像区域最大的至少一个形体姿态确定为候选形体姿态。
111.s230、判断所述至少一个候选形体姿态中是否存在指定形体姿态或是否存在至少一个目标形体姿态。
112.针对每个视频帧,判断该视频帧中确定出的至少一个候选形体姿态中是否存在指定形体姿态或至少一个目标形体姿态,若存在,则确定识别出指定形体姿态或至少一个目标形体姿态,执行s240。若不存在,则确定未识别出指定形体姿态以及至少一个目标形体姿态,继续对下一个视频帧进行上述s210-s230的步骤。
113.s240、若从预设帧数的连续视频帧中识别出至少两个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略,以基于所述控制策略向对应的目标设备发送目标控制指令。
114.其中,s240的描述参照上文s120的描述,此处不再赘述。
115.在本实施例中,当视频帧包括多个形体姿态时,确定出至少一个候选形体姿态,过滤掉了视频帧中占比较小的不重要的形体姿态,降低了视频帧中占比较小的不重要的形体姿态的干扰,提高了形体姿态识别准确率。同时,不需要对全部的形体姿态进行识别,提高了形体姿态的识别效率。
116.请参阅图8,图8示出了本技术再一个实施例提出的一种设备控制方法的流程图,该方法可以由电子设备执行,例如该电子设备可以是图1中的服务器,也可以是图1中的终端,还可以具有摄像功能的摄像设备,如图1中的摄像机。该方法具体可以包括如下步骤:
117.s310、获取至少一个预设对象的至少两个预设形体姿态和至少一个预设控制策略,所述至少两个预设形体姿态包括至少两个预设标准形体姿态。
118.预设对象可以是录入预设形体姿态的对象,预设对象可以与目标对象相同,预设对象也可以与目标对象不同。预设形体姿态可以是指预设对象录入的预设标准形体姿态,至少两预设标准形体姿态可以作为一个预设形体姿态对。预设形体姿态对的描述参照上文描述,不再赘述。
119.s320、建立并存储所述获取到的至少一个预设对象的至少两个预设标准形体姿态与所述至少一个预设控制策略之间的映射关系。
120.在至少两个预设标准形体姿态与至少一个预设控制策略之间建立映射关系,以通过至少两个预设标准形体姿态以及该映射关系,索引对应的预设控制策略。
121.作为一种实施方式,可以将至少两个预设标准形体姿态组成预设形体姿态对,然后建立并存至少一个预设形体姿态对与至少一个预设控制策略之间的映射关系。以通过映射关系以及预设形体姿态对索引对应的预设控制策略。
122.s330、识别实时视频流的视频帧中目标对象的形体姿态。
123.其中,s330的描述参照上文s110的描述,此处不再赘述。
124.s340、若从预设帧数的连续视频帧中识别出至少两个形体姿态是预设标准形体姿态,则确定所述至少两个形体姿态是目标形体姿态,并触发根据所述映射关系获取与所述至少两个目标形体姿态相匹配的控制策略,以基于所述控制策略向对应的目标设备发送目标控制指令。
125.当识别出一个视频帧中的形体姿态为已存储的至少两个预设标准形体姿态中的其中一个预设标准形体姿态,确定视频帧中的形体姿态为目标形体姿态,同理,若从预设帧数的连续视频帧中识别出至少两个形体姿态是预设标准形体姿态,则确定至少两个形体姿态均是目标形体姿态。
126.其中,触发根据所述映射关系获取与所述至少两个目标形体姿态相匹配的控制策略,以基于所述控制策略向对应的目标设备发送目标控制指令的步骤参照上文s120的描述,此处不再赘述。
127.在本实施例中,建立并存储获取到的至少一个预设对象的至少两个预设标准形体姿态与至少一个预设控制策略之间的映射关系,以通过映射关系直接索引对应的控制指令,提高了控制指令的获取速度,从而提高了设备控制效率。
128.为了更方便的理解本技术的方案,下面将结合具体应用场景对本技术的设备控制方法进行解释,在该场景中,形体姿态为手势,摄像机的分辨率为1080p(1920
×
1080),摄像机本身作为执行设备控制方法的主体,智能设备为电冰箱。
129.如图9所示,首先启动摄像机的手势识别算法(也就是本技术的设备控制方法,在该场景中,设备控制方法所需要识别的形体姿态为手势),摄像机实时拍摄目标对象的视频流。
130.摄像机从视频流中抽取当前最新的一帧yuv格式(“y”表示明亮度,也就是灰阶值,“u”和“v”表示的则是色度),且分辨率为1080p的视频帧存储于缓存器。
131.摄像机将该缓存器中的视频帧压缩为分辨率为512
×
512的待处理视频帧,将该预处理视频帧与算法模型(也就是上述实施例中预存的预设标准形体姿态,在该场景中为预设标准手势)做匹配,判断是否匹配到与待处理视频帧匹配的预设标准手势。
132.若未匹配到,则重新从视频流中抽取新的当前帧,重新执行上述匹配步骤。
133.若匹配到,将待处理视频帧中的手势作为目标手势,将预处理图像中的手势作为目标手势,若存在至少两个目标手势,则将至少两个目标手势反相定位到yuv格式的1080p的原图坐标,得到还原图像,然后将还原图像上的手势所在区域压缩成分辨率112
×
112手势图像,然后将手势图像与预存的多个手势组合(手势组合也就是上述实施例中的预设形体姿态对)对比。
134.判断预存的手势组合中是否存在与手势图像匹配的手势组合,若存在,获取与手势图像匹配的手势组合对应的控制策略(手势组合对应的控制策略也就是上述实施例中的预设形体姿态对对应的预设控制策略),若不存在,重新从视频流中抽取新的当前帧,重新
执行上述步骤。
135.得到的控制策略为“将冰箱的冷藏室温度设定为0摄氏度”,摄像机根据控制策略,得到控制指令“冷藏室温度设定为0摄氏度”,然后摄像机将控制指令发送至电冰箱,电冰箱执行控制指令“冷藏室温度设定为0摄氏度”。
136.请参阅图10,图10示出了本技术一个实施例提出的一种设备控制装置的框图,所述装置1100包括:
137.识别模块1110,用于识别实时视频流的视频帧中目标对象的形体姿态;
138.控制模块1120,用于若从预设帧数的连续视频帧中识别出至少两个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略,以基于所述控制策略向对应的目标设备发送目标控制指令。
139.可选地,控制模块1120,还用于若从所述预设帧数的连续视频帧中的任一视频帧中识别出至少两个第一目标形体姿态,则触发获取与所述至少两个第一目标形体姿态相匹配的控制策略。
140.可选地,控制模块1120,还用于若从所述预设帧数的连续视频帧中的第一视频帧中识别出至少两个第一目标形体姿态,从所述预设帧数的连续视频帧中的第二视频帧中识别出至少一个第二目标形体姿态,则触发获取与所述至少两个第一目标形体姿态和所述至少一个第二目标形体姿态组合后相匹配的控制策略。
141.可选地,控制模块1120,还用于若从所述预设帧数的连续视频帧中的第三视频帧中识别出至少一个第三目标形体姿态,从所述预设帧数的连续视频帧中的第四视频帧中识别出至少一个第四目标形体姿态,则触发获取与所述至少一个第三目标形体姿态和所述至少一个第四目标形体姿态组合后相匹配的控制策略。
142.可选地,控制模块1120,还用于若在所述实时视频流中的第五视频帧中识别出指定形体姿态,且在所述第五视频帧之后采集的预设帧数的连续视频中识别出至少一个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略。
143.可选地,装置还包括候选形体姿态确定模块,用于若在所述实时视频流的一帧视频帧中识别出多个形体姿态,则根据所述多个形体姿态中每个形体姿态在所述一帧视频帧中的占比,从所述多个形体姿态中确定出至少一个候选形体姿态;判断所述至少一个候选形体姿态中是否存在指定形体姿态或是否存在至少一个目标形体姿态。
144.可选地,候选形体姿态确定模块,还用于若在所述实时视频流的一帧视频帧中识别出多个形体姿态,则根据所述多个形体姿态中每个形体姿态在所述一帧视频帧中的占比,从所述多个形体姿态中确定出占比最大的至一个形体姿态作为候选形体姿态。
145.可选地,候选形体姿态确定模块,还用于根据所述多个形体姿态中每个形体姿态在所述一帧视频中的位置和所述多个形体姿态中每个形体姿态对应的预设特征值,以预设形状的锚定框在所述一帧图像中框选每个形体姿态;将各所述形体姿态所对应的锚定框的面积中,面积最大的至少一个锚定框所框选的形体姿态确定为候选形体姿态。
146.可选地,候选形体姿态确定模块,还用于根据所述多个形体姿态中每个形体姿态所包含所有像素点,确定所述多个形体姿态中每个形体姿态在所述一帧视频帧中所占据的图像区域;将各所述形体姿态所占据的图像区域的面积中,所占据的图像区域最大的至少一个形体姿态确定为候选形体姿态。
147.可选地,装置还包括:获取模块,用于获取至少一个预设对象的至少两个预设形体姿态和至少一个预设控制策略,所述至少两个预设形体姿态包括至少两个预设标准形体姿态;建立并存储所述获取到的至少一个预设对象的至少两个预设标准形体姿态与所述至少一个预设控制策略之间的映射关系;控制模块,还用于若从预设帧数的连续视频帧中识别出至少两个形体姿态是预设标准形体姿态,则确定所述至少两个形体姿态是目标形体姿态,并触发根据所述映射关系获取与所述至少两个目标形体姿态相匹配的控制策略。
148.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
149.在本技术所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
150.另外,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
151.图11示出了用于执行根据本技术实施例的设备控制方法的电子设备的结构框图。需要说明的是,图11示出的电子设备的计算机系统1200仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
152.如图11所示,计算机系统1200包括中央处理单元(central processing unit,cpu)1201,其可以根据存储在只读存储器(read-only memory,rom)1202中的程序或者从存储部分1208加载到随机访问存储器(random access memory,ram)1203中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在ram 1203中,还存储有系统操作所需的各种程序和数据。cpu1201、rom1202以及ram 1203通过总线1204彼此相连。输入/输出(input/output,i/o)接口1205也连接至总线1204。
153.以下部件连接至i/o接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(cathode ray tube,crt)、液晶显示器(liquid crystal display,lcd)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如lan(local area network,局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至i/o接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
154.特别地,根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(cpu)1201执行时,执行本技术的系统中限定的各种功能。
155.需要说明的是,本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的
电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
156.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
157.描述于本技术实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
158.作为另一方面,本技术还提供了一种计算机可读存储介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令,当该计算机可读存储指令被处理器执行时,实现上述任一实施例中的方法。
159.根据本技术的一个方面,还提供了一种电子设备,其包括:处理器;存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时,实现上述任一实施例中的方法。
160.根据本技术实施例的一个方面,提供了计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一实施例中的方法。
161.应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
162.通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本技术实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本技术实施方式的方法。
163.本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
164.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

技术特征:
1.一种设备控制方法,其特征在于,所述方法包括:识别实时视频流的视频帧中目标对象的形体姿态;若从预设帧数的连续视频帧中识别出至少两个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略,以基于所述控制策略向对应的目标设备发送目标控制指令。2.根据权利要求1所述的方法,其特征在于,所述若从预设帧数的连续视频帧中识别出至少两个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略,包括:若从所述预设帧数的连续视频帧中的任一视频帧中识别出至少两个第一目标形体姿态,则触发获取与所述至少两个第一目标形体姿态相匹配的控制策略。3.根据权利要求2所述的方法,其特征在于,所述若从预设帧数的连续视频帧中识别出至少两个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略,包括:若从所述预设帧数的连续视频帧中的第一视频帧中识别出至少两个第一目标形体姿态,从所述预设帧数的连续视频帧中的第二视频帧中识别出至少一个第二目标形体姿态,则触发获取与所述至少两个第一目标形体姿态和所述至少一个第二目标形体姿态组合后相匹配的控制策略。4.根据权利要求1所述的方法,其特征在于,所述若从预设帧数的连续视频帧中识别出至少两个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略,包括:若从所述预设帧数的连续视频帧中的第三视频帧中识别出至少一个第三目标形体姿态,从所述预设帧数的连续视频帧中的第四视频帧中识别出至少一个第四目标形体姿态,则触发获取与所述至少一个第三目标形体姿态和所述至少一个第四目标形体姿态组合后相匹配的控制策略。5.根据权利要求1所述的方法,其特征在于,所述若从预设帧数的连续视频帧中识别出至少两个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略,包括:若在所述实时视频流中的第五视频帧中识别出指定形体姿态,且在所述第五视频帧之后采集的预设帧数的连续视频中识别出至少一个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略。6.根据权利要求1至5中任一项所述的方法,其特征在于,在所述识别实时视频流的视频帧中目标对象的形体姿态的步骤之后,所述方法还包括:若在所述实时视频流的一帧视频帧中识别出多个形体姿态,则根据所述多个形体姿态中每个形体姿态在所述一帧视频帧中的占比,从所述多个形体姿态中确定出至少一个候选形体姿态;判断所述至少一个候选形体姿态中是否存在指定形体姿态或是否存在至少一个目标形体姿态。7.根据权利要求6所述的方法,其特征在于,若在所述实时视频流的一帧视频帧中识别出多个形体姿态,则根据所述多个形体姿态中每个形体姿态在所述一帧视频帧中的占比,
从所述多个形体姿态中确定出至少一个候选形体姿态,包括:若在所述实时视频流的一帧视频帧中识别出多个形体姿态,则根据所述多个形体姿态中每个形体姿态在所述一帧视频帧中的占比,从所述多个形体姿态中确定出占比最大的至一个形体姿态作为候选形体姿态。8.根据权利要求7所述的方法,其特征在于,所述根据所述多个形体姿态中每个形体姿态在所述一帧视频帧中的占比,从所述多个形体姿态中确定出占比最大的至一个形体姿态作为候选形体姿态,包括:根据所述多个形体姿态中每个形体姿态在所述一帧视频中的位置和所述多个形体姿态中每个形体姿态对应的预设特征值,以预设形状的锚定框在所述一帧图像中框选每个形体姿态;将各所述形体姿态所对应的锚定框的面积中,面积最大的至少一个锚定框所框选的形体姿态确定为候选形体姿态。9.根据权利要求7所述的方法,其特征在于,所述根据所述多个形体姿态中每个形体姿态在所述一帧视频帧中的占比,从所述多个形体姿态中确定出占比最大的至一个形体姿态作为候选形体姿态,包括:根据所述多个形体姿态中每个形体姿态所包含所有像素点,确定所述多个形体姿态中每个形体姿态在所述一帧视频帧中所占据的图像区域;将各所述形体姿态所占据的图像区域的面积中,所占据的图像区域最大的至少一个形体姿态确定为候选形体姿态。10.根据权利要求6所述的方法,其特征在于,在所述识别实时视频流的视频帧中目标对象的形体姿态的步骤之前,所述方法还包括:获取至少一个预设对象的至少两个预设形体姿态和至少一个预设控制策略,所述至少两个预设形体姿态包括至少两个预设标准形体姿态;建立并存储所述获取到的至少一个预设对象的至少两个预设标准形体姿态与所述至少一个预设控制策略之间的映射关系;所述若从预设帧数的连续视频帧中识别出至少两个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略,包括:若从预设帧数的连续视频帧中识别出至少两个形体姿态是预设标准形体姿态,则确定所述至少两个形体姿态是目标形体姿态,并触发根据所述映射关系获取与所述至少两个目标形体姿态相匹配的控制策略。11.根据权利要求1至5任一项或7至10中任一项所述的方法,其特征在于,所述目标对象的形体姿态包括人体的全身姿态和/或人体的部位姿态,所述人体的部位姿态包括人体的头部姿态和/或人体的肢体姿态,所述人体的肢体姿态包括人体的手势。12.一种设备控制装置,其特征在于,所述装置包括:识别模块,用于识别实时视频流的视频帧中目标对象的形体姿态;控制模块,用于若从预设帧数的连续视频帧中识别出至少两个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略,以基于所述控制策略向对应的目标设备发送目标控制指令。13.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个计算机程序;一个或多个处理器,用于从所述存储器中调用并运行所述一个或多个计算机程序,以执行权利要求1至11任一所述的方法。14.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至11任一项所述的方法。

技术总结
本申请实施例公开了一种设备控制方法、装置、车辆以及存储介质,涉及数据处理技术领域。方法包括:识别实时视频流的视频帧中目标对象的形体姿态;若从预设帧数的连续视频帧中识别出至少两个目标形体姿态,则触发获取与所述至少两个目标形体姿态相匹配的控制策略,以基于所述控制策略向对应的目标设备发送目标控制指令。本申请能够减少了误触目标体态导致确定的控制策略不准确的情况发生,提高了控制策略的准确度,进而提高了设备控制的准确度。进而提高了设备控制的准确度。进而提高了设备控制的准确度。


技术研发人员:余向东
受保护的技术使用者:深圳绿米联创科技有限公司
技术研发日:2022.07.14
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-1304.html

最新回复(0)