本技术涉及深度学习,尤其涉及一种融合人本智造的人体姿态估计方法和装置。
背景技术:
1、人机协作作为工业5.0框架下的关键制造范式,能够有效结合人机团队成员优势,实现高效可重构的制造单元。为配合人类伙伴完成操作任务,具备人类感知与认知等相关技能的人本智造对协作机器人至关重要。人体姿态估计作为人本智造中人体感知的关键技术,能够从传感器数据中解算出人体的参数化数学模型,从而为协作机器人提供可识别的人体信息,使其能够在协作过程中做出正确的反应。
2、目前,对人体姿态进行估计的方法包括基于光学特性的视觉输入的估计方法及基于惯性传感器输入的人体部位测量方法。基于光学特性的视觉输入的估计方法在极端光照或遮挡条件下性能差,计算量大。基于惯性传感器输入的人体部位测量方法受到测量环境干扰大,且限制人员作业,不满足复杂场景的应用。
技术实现思路
1、有鉴于此,本技术提供一种融合人本智造的人体姿态估计方法,所述方法包括:
2、获取目标视觉输入数据及目标惯性输入数据;所述目标惯性输入数据包括目标位置、速度;
3、构建人体姿态估计网络模型;其中,所述人体姿态估计网络模型包括用于处理图像数据的视觉模态、以及用于处理惯性数据的惯性模态;
4、将所述目标视觉输入数据以及所述目标惯性输入数据输入所述人体姿态估计网络模型中,得到视觉模态空间特征和惯性模态空间特征;
5、基于人体关键空间相关性,将对应的所述视觉模态空间特征和所述惯性模态空间特征进行融合,得到空间融合特征;
6、将所述空间融合特征进行多尺度时序特征变换,得到原始全局时域特征,对所述原始全局时域特征进行时序特征提取,得到多模态时空特征;其中,所述多模态时空特征包含时间信息和空间信息;
7、基于所述时间信息和所述空间信息计算目标人体姿态。
8、在一些实施例中,所述获取目标惯性输入数据,包括:
9、将惯性传感器数据的四元数进行坐标变换,得到与所述目标视觉输入数据空间对齐的所述目标惯性输入数据,所述坐标变换包括:
10、;
11、其中,所述为惯性测量单元对应的肢体段间的旋转四元数,所述为惯性传感器坐标系中所测量得到的所述惯性测量单元的旋转四元数,所述为所述惯性传感器坐标系与全局坐标系间的旋转四元数,所述为视觉传感器坐标系与所述全局坐标系间的旋转四元数。
12、在一些实施例中,所述目标惯性输入数据的获取方法包括:
13、将所述惯性传感器数据的速度进行坐标变换,得到与所述目标视觉输入数据空间对齐的所述目标惯性输入数据,所述坐标变换包括:
14、;
15、其中,所述为所述视觉传感器坐标系中的速度,所述v为所述惯性测量单元所测量得到的所述惯性测量单元的速度,所述为所述惯性传感器坐标系与所述视觉传感器坐标系间的旋转矩阵。
16、将所述惯性传感器数据的加速度进行坐标变换,得到与所述目标视觉输入数据空间对齐的所述目标惯性输入数据,所述坐标变换包括:
17、;
18、其中,所述为所述视觉传感器坐标系中的速度,a为所述惯性测量单元所测量得到的所述惯性测量单元的速度,所述为所述惯性传感器坐标系与所述视觉传感器坐标系间的旋转矩阵。
19、将上述三部分目标惯性输入数据进行拼接,得到最终所述目标惯性输入数据:
20、;
21、其中,所述为所述视觉传感器坐标系与全局坐标系间的旋转四元数,所述为所述视觉传感器坐标系中的速度,所述为所述视觉传感器坐标系中的速度。
22、在一些实施例中,所述将所述空间融合特征进行多尺度时序特征变换,得到原始全局时域特征,对所述原始全局时域特征进行时序特征提取,得到多模态时空特征,包括:
23、将所述空间融合特征进行拼接与线性变化处理,生成原始时域特征;
24、基于所述人体关键空间对所述原始时域特征进行时序特征提取,得到若干组局部时域特征;
25、将若干所述局部时域特征进行拼接与线性变化处理,得到所述原始全局时域特征;
26、对所述原始全局时域特征进行时序特征提取,得到多模态时空特征;其中,所述多模态时空特征包含时间信息和空间信息。
27、在一些实施例中,所述基于人体关键空间相关性,将对应的所述视觉模态空间特征和所述惯性模态空间特征进行融合,得到空间融合特征,包括:
28、确定同一人体关键空间对应的所述视觉模态空间特征和所述惯性模态空间特征,采用交叉transformer融合得到初始空间融合特征;
29、采用空间transformer提取所述初始空间融合特征中的语义信息,得到所述空间融合特征;
30、其中,所述交叉transformer的多模态特征融合注意力机制为:
31、;
32、其中为由第g分区的视觉模态空间特征线性变化所得的查询矩阵,与分别为由第g分区的惯性模态空间特征线性变化所得的键矩阵与值矩阵,crossattention为所得跨模态注意力矩阵。
33、在一些实施例中,所述将所述目标视觉输入数据以及所述目标惯性输入数据输入所述人体姿态估计网络模型中,得到视觉模态空间特征和惯性模态空间特征,包括:
34、通过所述视觉模态基于语义图卷积神经网络处理所述目标视觉输入数据,得到所述视觉模态空间特征;
35、通过所述惯性模态基于所述人体关键空间对所述目标惯性输入数据进行分组空间特征提取,得到所述惯性模态空间特征。
36、在一些实施例中,所述将所述局部时域特征进行拼接与线性变化处理,得到所述原始全局时域特征,包括:
37、按照每帧中不同的所述人体关键空间,将对应的所述局部时域特征拼接后经过全连接层处理,得到所述原始全局时域特征;
38、和/或,将所述空间融合特征进行拼接与线性变化处理,生成原始时域特征,包括:
39、按照不同的所述人体关键空间,将所述人体关键空间中的每帧关节点的特征向量拼接后经过全连接层处理,得到所述原始时域特征。
40、在一些实施例中,所述基于所述多模态时空特征获取目标人体姿态,包括:
41、对所述多模态时空特征进行批归一化处理、卷积运算,获得人体全身关节点相对根关节点的相对位置估计值;
42、基于所述相对位置估计值,得到所述目标人体姿态。
43、在一些实施例中,所述构建人体姿态估计网络模型,包括:
44、将训练样本集输入初始人体姿态估计网络模型中,对所述初始人体姿态估计网络模型进行迭代训练;
45、将验证样本集输入所述初始人体姿态估计网络模型中,得到训练损失值l;
46、;
47、其中,所述t为输入时间序列长度,所述j为每帧中的关节点数量,所述pi,j表示第i帧中第j个关节点的相对位置估计值,所述表示第i帧中第j个关节点的相对位置真实值;
48、基于所述训练损失值确定所述人体姿态估计网络模型对应的权重。
49、本发明第二方面提供一种融合人本智造的人体姿态估计装置,所述装置包括获取模块、构建模块、处理模块和融合模块;其中;
50、所述获取模块,获取目标视觉输入数据及目标惯性输入数据;所述目标惯性输入数据包括目标位置、目标速度及目标加速度;
51、所述构建模块,用于构建人体姿态估计网络模型;其中,所述人体姿态估计网络模型包括用于处理图像数据的视觉模态、以及用于处理惯性数据的惯性模态;
52、所述处理模块,用于将所述目标视觉输入数据以及所述目标惯性输入数据输入所述人体姿态估计网络模型中,得到视觉模态空间特征和惯性模态空间特征;
53、所述融合模块,用于基于人体关键空间相关性,将对应的所述视觉模态空间特征和所述惯性模态空间特征进行融合,得到空间融合特征;
54、所述处理模块,用于将所述空间融合特征进行多尺度时序特征变换,得到原始全局时域特征,对所述原始全局时域特征进行时序特征提取,得到多模态时空特征;其中,所述多模态时空特征包含时间信息和空间信息;
55、所述处理模块,用于基于时间信息和所述空间信息计算目标人体姿态。
56、本技术提供的融合人本智造的人体姿态估计方法和装置,通过人体姿态估计网络同时考虑人体的图像数据和空间数据,以充分结合多模态传感器之间的信息耦合机制,保留了视觉数据无累积误差、且不影响人体运动的优点,同时惯性数据不受光照影响、且不受遮挡的影响。此外,本发明通过融合视觉模态空间特征和惯性模态空间特征,再进行拼接处理和线性变化处理,充分考虑人体关节运动学空间相关性对人体姿态时序相关性的影响,保证了多种模态数据融合的可靠性。本发明基于视觉信息和惯性信息完成对人体姿态的估计,在避免增加过多计算量和内存消耗的同时,保证了最终获取的人体姿态的可靠性与准确性。
1.一种融合人本智造的人体姿态估计方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取目标惯性输入数据,包括:
3.根据权利要求2所述的方法,其特征在于,所述目标惯性输入数据的获取方法包括:
4.根据权利要求1所述的方法,其特征在于,所述将所述空间融合特征进行多尺度时序特征变换,得到原始全局时域特征,对所述原始全局时域特征进行时序特征提取,得到多模态时空特征,包括:
5.根据权利要求1所述的方法,其特征在于,所述基于人体关键空间相关性,将对应的所述视觉模态空间特征和所述惯性模态空间特征进行融合,得到空间融合特征,包括:
6.根据权利要求1所述的方法,其特征在于,所述将所述目标视觉输入数据以及所述目标惯性输入数据输入所述人体姿态估计网络模型中,得到视觉模态空间特征和惯性模态空间特征,包括:
7.根据权利要求4所述的方法,其特征在于,所述将所述局部时域特征进行拼接与线性变化处理,得到所述原始全局时域特征,包括:
8.根据权利要求1所述的方法,其特征在于,所述基于所述多模态时空特征获取目标人体姿态,包括:
9.根据权利要求1所述的方法,其特征在于,所述构建人体姿态估计网络模型,包括:
10.一种融合人本智造的人体姿态估计装置,其特征在于,所述装置包括获取模块、构建模块、处理模块和融合模块;其中,
