本发明涉及机器人控制领域,尤其是涉及一种基于cpg控制器和深度强化学习的腿部受损四足机器人运动控制方法。
背景技术:
1、四足机器人的步态控制方法是四足机器人研究领域的核心问题,其中腿部受损的四足机器人步态控制由于其运动节律和姿态重心的变化需要给出更为复杂的控制方案。cpg(中枢模式发生器)是产生动物节律运动行为的生物神经环路,它由一系列神经振荡器组成,是神经振荡器与多重反射回路系统集成在一起组成的一个复杂的分布式神经网络,是四足机器人步态控制领域最为经典的控制方法之一。同时,近年来强化学习算法迅速发展,其在机器人控制领域表现出强大的鲁棒性和泛化能力,很多国外科研机构已经能够利用强化学习算法训练出可以在复杂非结构环境下自主移动的四足机器人运动策略。
2、然而单独的cpg方案或是强化学习方案均有一些局限性。cpg的方案往往需要规划好笛卡尔坐标系下的足端位置坐标轨迹或者关节空间下的关节角度变化轨迹,这就导致该方法对于突发的内在和外在扰动缺少鲁棒性。而强化学习在网络架构设计和奖励函数调试上都需要经过不断尝试,在缺少先验轨迹的情况下,想要获得能够泛化到不同情形的鲁棒策略往往需要非常久的训练才能达到理想效果。
3、中国专利申请cn202010095442.4公开了一种针对于正常四足机器人的基于强化学习和cpg控制器的四足机器人步态控制方法,通过计算得到四足机器人的足端运动轨迹进而控制机器人运动。但是这样的策略只能针对正常四足机器人有效,一旦腿部电机或者关节突发故障,该策略将不再保障机器人能够正常运动。当前主流的cpg和强化学习模型在处理四足机器人运动控制问题时,高层方案均针对四条腿整体模型设计算法及奖励函数,无法应对突然的单腿故障。当单腿故障发生时,原先的强化学习状态动作映射由于关节动作无法正确执行,整个机身平衡将受到破坏。因此,需要设计一种应对腿部受损情况的四足机器人运动控制算法。
技术实现思路
1、本发明的目的是克服上述现有技术存在无法应对腿部电机或者关节突发故障的缺陷而提供一种基于cpg控制器和深度强化学习的腿部受损四足机器人运动控制方法。
2、本发明的目的可以通过以下技术方案来实现:
3、一种腿部受损的四足机器人运动控制方法,所述方法根据四足机器人模型构建cpg节律控制器;
4、当四足机器人任意腿部发生故障时对四足机器人的正常四足机器人运动策略以及腿部受损四足机器人运动策略进行四足机器人的运动控制进行切换;
5、所述的正常四足机器人运动策略以及腿部受损四足机器人的运动策略采用双层强化学习框架:
6、高层强化学习根据当前机器人状态和参考命令生成cpg参数,由cpg参数生成关节参考轨迹;
7、底层强化学习对cpg生成的参考关节轨迹进行微调,得到每一时刻目标关节角度;
8、将关节参考轨迹与目标关节角度累加,并得到当前机器人关节扭矩指令。
9、作为优选技术方案,所述四足机器人的cpg节律控制器采用hopf振荡器,对四足机器人腿部均分配一个振荡器,每个振荡器的参数反映着对应腿的节律运动信息,振荡器在腿部关节产生周期性振荡信号,并在单腿受损情形下获取未受损的对角腿之间以及未受损一侧两腿之间的相位差,为底层强化学习微调提供四足机器人运动先验。
10、作为优选技术方案,所述的双层强化学习框架中,高层和底层策略均采用ppo强化学习算法:
11、高层强化学习策略网络,输入包括仿真器下的特权信息、机器人本体感知观测值、外界参考速度指令和上一步的cpg参数,输出目标cpg参数;
12、将高层强化学习输出的目标cpg参数进行映射处理,构建出各未受损腿部的粗关节空间轨迹;
13、底层强化学习策略网络,输入机器人本体感知的观测值,包括机器人当前速度、姿态角度、各关节角度和角速度以及足端与地面的接触状态;输出各关节的残差角度;
14、将底层强化学习输出的残差角度将与高层强化学习输出的目标cpg参数形成的粗关节空间轨迹累加,得到最终的关节目标轨迹。
15、作为优选技术方案,所述的高层强化学习策略网络的输入中,仿真器下的特权信息包括机器人当前的速度、机器人的质量、地面摩擦系数、机器人附近地面的局部高程信息;机器人本体感知包括机器人当前速度、机器人姿态角度、各关节角度和角速度以及足端与地面的接触状态;
16、正常四足机器人运动策略的高层强化学习策略网络输出目标cpg参数包括:大腿摆动幅度、周期、占空比以及步态类型;
17、腿部受损四足机器人运动策略的高层强化学习策略网络输出目标cpg参数包括:大腿摆动幅度、周期、占空比以及剩余三条腿的相对相位差。
18、作为优选技术方案,所述的高层强化学习策略网络的奖励函数用于实现包括速度跟踪以及地形穿越的任务奖励:
19、速度跟踪的奖励项为:
20、
21、式中:表示x和y方向的速度指令;vxy表示机器人x和y方向的当前速度;σ是一个塑形标量;
22、地形穿越的奖励项为:
23、r2=nsuccess
24、式中,nsuccess表示仿真中成功穿越地形的agent数量;
25、所述的底层强化学习策略网络的奖励函数用于保持机体平衡:
26、
27、式中:vz表示机器人z方向速度;ωxy表示机器人翻滚、俯仰方向的角速度。
28、作为优选技术方案,高层强化学习策略以及底层强化学习策略的奖励函数中还设置有包括关节加速度限制、动作变化率、平滑性的正则化奖励项,具体如下:
29、
30、式中,表示关节角加速度;
31、
32、式中,at表示当前时间步的电机关节动作,at-1表示上一个时间步的电机关节动作;
33、
34、式中,at-2表示两个时间步前的电机关节动作。
35、作为优选技术方案,所述的双层强化学习框架采用教师学生策略蒸馏框架,将高层强化学习模型和高层强化学习模型的策略网络蒸馏;使用过去设定帧的历史观测、动作序列来替代仿真器中的先验观测;通过监督学习得到部署于真实世界的分层学习网络。
36、作为优选技术方案,所述双层强化学习框架的模型训练过程中,采用课程训练的形式,机器人在多种场景交替训练以增强机器人的稳定性和对地形的适应能力,所述的场景包括台阶、斜坡以及非结构化路面。
37、作为优选技术方案,所述方法步骤将所述最终的关节目标轨迹中各关节角度输入pd控制器得到关节扭矩,以关节扭矩作为四足机器人步态控制信号来驱动四足机器人。
38、作为优选技术方案,所述方法基于神经网络构建策略选择状态机,所述的策略选择状态机针对具体情形对四足机器人的运动策略进行自适应切换。
39、与现有技术相比,本发明具有以下有益效果:
40、1)本发明使用了分层框架,将cpg控制器与ppo强化学习模型有效结合,学习正常四足机器人和腿部受损的四足机器人在平坦地形下的运动策略。高层强化学习根据当前机器人状态和参考命令生成cpg参数,cpg参数将经由振荡器生成关节参考轨迹,底层的强化学习则进一步对cpg生成的参考关节轨迹进行微调,使得四足机器人的运动更为鲁棒。
41、2)本发明为了应对复杂地形的探索,使用课程学习方案,在仿真器下分别针对斜坡、台阶、非结构化地形等场景,从低难度到高难度设置课程,从而进一步对分层网络参数进行微调。得益于底层强化学习对cpg预生成的参考关节轨迹的调整能力,使得腿部受损四足机器人的环境适应性行走问题得到解决。
42、3)构建应对突发情况的策略切换状态机,当四足机器人的任意一条腿发生损伤时,策略将自主切换到腿部受损时对应的策略,我们的方案可以使四足机器人能够应对突发的腿部受损情况。
1.一种腿部受损的四足机器人运动控制方法,其特征在于,所述方法根据四足机器人模型构建cpg节律控制器;
2.根据权利要求1所述的一种腿部受损的四足机器人运动控制方法,其特征在于,所述四足机器人的cpg节律控制器采用hopf振荡器,对四足机器人腿部均分配一个振荡器,每个振荡器的参数反映着对应腿的节律运动信息,振荡器在腿部关节产生周期性振荡信号,并在单腿受损情形下获取未受损的对角腿之间以及未受损一侧两腿之间的相位差,为底层强化学习微调提供四足机器人运动先验。
3.根据权利要求1所述的一种腿部受损的四足机器人运动控制方法,其特征在于,所述的双层强化学习框架中,高层和底层策略均采用ppo强化学习算法:
4.根据权利要求3所述的一种腿部受损的四足机器人运动控制方法,其特征在于,所述的高层强化学习策略网络的输入中,仿真器下的特权信息包括机器人当前的速度、机器人的质量、地面摩擦系数、机器人附近地面的局部高程信息;机器人本体感知包括机器人当前速度、机器人姿态角度、各关节角度和角速度以及足端与地面的接触状态;
5.根据权利要求3所述的一种腿部受损的四足机器人运动控制方法,其特征在于,所述的高层强化学习策略网络的奖励函数用于实现包括速度跟踪以及地形穿越的任务奖励:
6.根据权利要求5所述的一种腿部受损的四足机器人运动控制方法,其特征在于,高层强化学习策略以及底层强化学习策略的奖励函数中还设置有包括关节加速度限制、动作变化率、平滑性的正则化奖励项,具体如下:
7.根据权利要求3所述的一种腿部受损的四足机器人运动控制方法,其特征在于,所述的双层强化学习框架采用教师学生策略蒸馏框架,将高层强化学习模型和高层强化学习模型的策略网络蒸馏;使用过去设定帧的历史观测、动作序列来替代仿真器中的先验观测;通过监督学习得到部署于真实世界的分层学习网络。
8.根据权利要求1所述的一种腿部受损的四足机器人运动控制方法,其特征在于,所述双层强化学习框架的模型训练过程中,采用课程训练的形式,机器人在多种场景交替训练以增强机器人的稳定性和对地形的适应能力,所述的场景包括台阶、斜坡以及非结构化路面。
9.根据权利要求1所述的一种腿部受损的四足机器人运动控制方法,其特征在于,所述方法步骤将所述最终的关节目标轨迹中各关节角度输入pd控制器得到关节扭矩,以关节扭矩作为四足机器人步态控制信号来驱动四足机器人。
10.根据权利要求1所述的一种腿部受损的四足机器人运动控制方法,其特征在于,所述方法基于神经网络构建策略选择状态机,所述的策略选择状态机针对具体情形对四足机器人的运动策略进行自适应切换。