足式机器人的运动控制方法及系统、电子设备和存储介质

专利2026-02-24 12

本技术涉及足式机器人的，具体而言，涉及一种足式机器人的运动控制方法及系统、电子设备和存储介质。

背景技术：

1、足式机器人是一种具有多个腿的移动机器人，能够在各种地形上进行移动和执行任务。足式机器人的设计允许其可以在复杂地形上自如地移动，如同人类或动物一样。

2、足式机器人需要具有良好的地形适应能力、稳定性、自由度、平衡控制等特性。以及足式机器人还需要具备智能控制能力，以便在非结构化环境下进行有效的运动和任务执行。

3、但本技术的发明人发现，目前足式机器人的智能控制方法在环境适应性和动作多样性方面存在一些问题。例如，目前的足式机器人存在环境识别能力有限、适应性动态调整不足以及动作空间多样性较低等技术问题，如此会使得足式机器人在真实世界环境中的长期稳定性和可靠性相对不足。

技术实现思路

1、根据本技术的一方面，本技术提供了一种足式机器人的运动控制方法，包括：在预设仿真平台上配置预设仿真环境，预设仿真环境包括仿真模拟环境和仿真强化学习训练环境，仿真模拟环境包括足式机器人的模拟足式机器人的信息和模拟环境信息，仿真强化学习训练环境包括预设任务信息、训练参量信息和网络结构信息；在预设仿真环境中执行模型训练，以得到策略网络模型；将策略网络模型与足式机器人通信连接，以获取足式机器人的状态观测信息或者向足式机器人发送控制指令；基于策略网络模型确定出与状态观测信息对应的关节期望位置信息；根据关节期望位置信息确定关节控制量；基于关节控制量向足式机器人发送控制指令，以使得足式机器人根据关节控制量执行相应的运动。

2、根据本技术的一些实施例，在预设仿真环境中执行模型训练，以得到策略网络模型包括：在预设仿真环境中配置策略网络，策略网络包括第一网络和第二网络，第一网络基于环境交互获取模拟足式机器人的状态观测信息，第二网络基于环境交互获取模拟足式机器人的状态观测信息和特权信息；基于策略网络的策略梯度生成运动动作；基于环境交互获取模拟足式机器人执行运动动作后所更新的状态观测信息和奖励信息，其中奖励信息是根据状态观测信息和预设奖励函数计算得到的；循环更新模拟足式机器人执行运动动作后的状态观测信息和奖励信息，直至检测到终止标志信息；根据状态观测信息、奖励信息和特权信息计算策略网络的更新回报和优势；根据更新回报和优势计算策略网络损失，并更新策略网络以生成策略网络模型。

3、根据本技术的一些实施例，策略网络为非对称actor-critic策略网络；第一网络为actor网络，第二网络为critic网络。

4、根据本技术的一些实施例，预设奖励函数包括关节速度惩罚，关节速度惩罚为：

5、

6、在关节速度惩罚中：

7、dof_vel为关节速度，dof_vel_limits为关节速度限制，dof_vel_limits的取值范围为[min_dof_vel_limit,1]，hard_dof_vel_limits为关节速度的硬约束，terrain_levels为地形等级。

8、根据本技术的一些实施例，预设奖励函数包括姿态惩罚，姿态惩罚为：

9、10(1+projected_gravity_z+projected_gravity_p.norm()*(projected_gravity_z＜0))*(terrain_levels＜0)

10、在姿态惩罚中：

11、projected_gravity_z为当前足式机器人基座坐标系z轴在重力方向(0,0,-1)上的投影；projected_gravity_p.norm()为当前足式机器人基座坐标系x轴和y轴在重力方向(0,0,-1)上的投影向量取范数；terrain_levels为地形等级。

12、根据本技术的一些实施例，预设奖励函数包括能量惩罚，能量惩罚为：

13、σ(mechanical_energy+thermal_energy)/episode_length_buf.unsqueeze(1)

14、在能量惩罚中：

15、mechanical_energy为足式机器人消耗的机械能，为时间段内关节速度与力矩的乘积；thermal_energy为足式机器人消耗的热能，为时间段内关节速度与力矩的乘积绝对值；episode_length_buf为时间段长度。

16、根据本技术的一些实施例，预设奖励函数包括足间隙惩罚，足间隙惩罚为:

17、{[(foot_position_z-measured_feet_heights.mean(dim＝-1)

18、-desired_height).clip(min＝-desired_height_p，max＝0)/sigma]2

19、*(foot_velocity.norm(dim＝-1)/0.5)}.mean(dim＝-1)

20、*(terrain_levels＞＝-2)

21、在足间隙惩罚中：

22、foot_position_z为足式机器人的足端位置沿z轴方向上的分量；measured_feet_heights.mean()为足式机器人的足端周围地形的测量高度平均值；desired_height为期望的足式机器人的足端的离地高度；sigma为缩放因子；foot_velocity为足式机器人的足端水平速度；terrain_levels为地形等级。

23、根据本技术的一些实施例，预设奖励函数包括碰撞惩罚，碰撞惩罚为：

24、∑1.*(contact_forces_penalized＞0.1).norm()*(projected_gravity_z＜0)

25、在碰撞惩罚中：

26、contact_forces_penalized为预设的足式机器人所有刚体受到的碰撞力大小；projected_gravity_z为足式机器人基座坐标系z轴在重力方向(0,0,-1)上的投影。

27、根据本技术的一些实施例，预设奖励函数包括足端触地惩罚，足端触地惩罚为：

28、|feet_velocity.mean()*(contact_forces_foot).mean()|

29、在足端触地惩罚中：

30、feet_velocity.mean()为足式机器人的足端速度的平均值；contact_forces_foot为足式机器人的足端接触力。

31、根据本技术的一些实施例，预设奖励函数包括基座高度惩罚，基座高度惩罚：

32、{1-[(base_height-target_base_height)/target_base_height)/sigma]2*(command_lin_vel_p.norm()＜1}*(terrain_levels＜0)

33、在基座高度惩罚中：

34、base_height为计算得到的基座高度；target_base_height为期望基座高度；sigma为缩放因子；command_lin_vel_p.morn()为基座水平线速度命令信号取范数；terrain_levels为地形等级。

35、根据本技术的一些实施例，预设奖励函数包括站立位置惩罚，站立位置惩罚为：

36、(1-projection_error)*(terrain_levels＝＝-2)+(1-projection_error)*(terrain_levels＞＝-1)*sigma

37、在站立位置惩罚中：

38、projection_error为足式机器人肩膀到脚的向量在水平方向上的投影误差；terrain_levels为地形等级；sigma为缩放因子。

39、根据本技术的一些实施例，预设奖励函数包括高度平稳度，高度平稳度为：

40、(base_lin_vel_z/tracking_sigma)2

41、在高度平稳度中：

42、base_lin_vel_z为基座线速度沿z轴方向的分量；tracking_sigma为缩放因子；

43、预设奖励函数还包括水平线速度跟踪惩罚，水平线速度跟踪惩罚为：

44、leaky relu(1-lin vel error/tracking sigma，0.1)

45、其中，leaky_relu()为激活函数；lin_vel_error为线速度跟踪误差；

46、预设奖励函数还包括竖直角速度跟踪惩罚，竖直角速度跟踪惩罚为：

47、leaky relu(1-ang vel error/tracking sigma，0.1)

48、其中，ang_vel_error为角速度跟踪误差。

49、根据本技术的另一方面，本技术提供了一种足式机器人的运动控制系统，所述运动控制系统包括仿真环境配置模块、模型训练模块和实体部署模块。仿真环境配置模块用于在预设仿真平台上配置预设仿真环境，预设仿真环境包括仿真模拟环境和仿真强化学习训练环境，仿真模拟环境包括足式机器人的模拟足式机器人的信息和模拟环境信息，仿真强化学习训练环境包括预设任务信息、训练参量信息和网络结构信息。模型训练模块用于在预设仿真环境中执行模型训练，以得到策略网络模型。实体部署模块用于将策略网络模型与足式机器人通信连接，以获取足式机器人的状态观测信息或者向足式机器人发送控制指令；实体部署模块基于策略网络模型确定出与状态观测信息对应的关节期望位置信息，根据关节期望位置信息确定关节控制量，以及基于关节控制量向足式机器人发送控制指令，以使得足式机器人根据关节控制量执行相应的运动。

50、根据本技术的又一方面，还提供了一种电子设备。电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器，能够实现如上文所述的运动控制方法。

51、根据本技术的又一方面，还提供了一种非易失性计算机可读存储介质。该存储介质上存储有计算机程序，该计算机程序能够实现如上文所述的运动控制方法。

52、本技术提供的足式机器人的运动控制方法无需真实数据，通过仿真环境训练即可以进行策略网络的训练，通过利用仿真空间来获得足式机器人智能控制的所有数据，可以避免大量的训练数据和计算资源，从而可以节约大量的人力、财力资源。

技术特征：

1.一种足式机器人的运动控制方法，其特征在于，包括：

2.根据权利要求1所述的控制方法，其特征在于，所述在所述预设仿真环境中执行模型训练，以得到策略网络模型包括：

3.根据权利要求2所述的控制方法，其特征在于，所述策略网络为非对称actor-critic策略网络；

4.根据权利要求2所述的控制方法，其特征在于，所述预设奖励函数包括关节速度惩罚，所述关节速度惩罚为：

5.根据权利要求2所述的控制方法，其特征在于，所述预设奖励函数包括姿态惩罚，所述姿态惩罚为：

6.根据权利要求2所述的控制方法，其特征在于，所述预设奖励函数包括能量惩罚，所述能量惩罚为：

7.根据权利要求2所述的控制方法，其特征在于，所述预设奖励函数包括足间隙惩罚，所述足间隙惩罚为:

8.根据权利要求2所述的控制方法，其特征在于，所述预设奖励函数包括碰撞惩罚，所述碰撞惩罚为：

9.根据权利要求2所述的控制方法，其特征在于，所述预设奖励函数包括足端触地惩罚，所述足端触地惩罚为：

10.根据权利要求2所述的控制方法，其特征在于，所述预设奖励函数包括基座高度惩罚，所述基座高度惩罚：

11.根据权利要求2所述的控制方法，其特征在于，所述预设奖励函数包括站立位置惩罚，所述站立位置惩罚为：

12.根据权利要求2所述的控制方法，其特征在于，所述预设奖励函数包括高度平稳度，所述高度平稳度为：

13.一种足式机器人的运动控制系统，其特征在于，所述运动控制系统用于执行如权利要求1-12任一所述的运动控制方法，所述运动控制系统包括：

14.一种电子设备，其特征在于，包括：

15.一种非易失性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序实现如权利要求1-12任一所述的运动控制方法。

技术总结
本申请提供了一种足式机器人的运动控制方法及系统、电子设备和存储介质。所述运动控制方法包括：在预设仿真平台上配置预设仿真环境，预设仿真环境包括仿真模拟环境和仿真强化学习训练环境，仿真模拟环境包括足式机器人的模拟足式机器人的信息和模拟环境信息，仿真强化学习训练环境包括预设任务信息、训练参量信息和网络结构信息；在预设仿真环境中执行模型训练，以得到策略网络模型；将策略网络模型与足式机器人通信连接，以获取足式机器人的状态观测信息或者向足式机器人发送控制指令；基于策略网络模型确定出与状态观测信息对应的关节期望位置信息；根据关节期望位置信息确定关节控制量；基于关节控制量向足式机器人发送控制指令，使得足式机器人根据关节控制量执行相应的运动。

技术研发人员：苏航,胡荣华,张幸幸,张壮,朱军
受保护的技术使用者：清华大学
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-20230.html

专利

最新回复(0)