本发明涉及一种水下机器人协同控制系统的构建方法及其控制方法,属于水下机器人。
背景技术:
1、水下机器人是一种工作于水下的极限作业机器人,是海洋开发和水下作业的重要工具。水下机器人工作时,岸上单元通过收放装置上的脐带缆依次串接浮标与水下机器人本体,脐带缆为水下机器人提供电能并负责信号的传递,浮标在水下机器人工作时,以实时跟随状态漂浮在水面,便于水下机器人的定位。
2、水下机器人在复杂、动态水下环境中的广泛应用日益增加,主要涵盖大坝检查、水下资源勘探和科学研究等多个领域。然而,随着应用场景的不断扩展和水下任务的增多,传统水下机器人控制系统面临一系列挑战。这些挑战主要包括环境噪声、复杂障碍物、水流速度等因素,而这些因素的高度随机性使得通过传统控制算法难以准确建模和实现精准控制。
3、在水下作业的实际应用场景中,水下机器人、浮标与脐带缆绞车的协同工作显得尤为关键。浮标不仅需要有效跟随水下机器人的移动,同时要维持脐带缆的合理张力,以避免缆绳纠缠或断裂的风险。传统控制系统对于浮标、绞车与水下机器人之间的协同控制存在较大的局限性,无法全面考虑复杂水下场景中的实时变化和非线性因素。因此,迫切需要更为智能、自适应的控制系统,以提高水下机器人在复杂环境中的性能表现,使其能够更灵活地执行任务,同时克服传统控制算法在复杂水下环境中的局限性。
技术实现思路
1、本发明的目的在于克服现有技术中的不足,提供一种水下机器人协同控制系统的构建方法及其控制方法。
2、为达到上述目的,本发明是采用下述技术方案实现的:
3、第一方面,本发明提供了一种水下机器人协同控制系统的构建方法,包括:根据水下机器人本体、浮标、脐带缆及绞车的物理学、动力学特性搭建模拟环境;根据水下环境特点、考虑脐带缆受重力和浮标及水下机器人拉力的影响,构建脐带缆仿真模型;构建浮标跟随策略模型,并根据浮标跟随控制需求及所述脐带缆仿真模型的仿真结果,在所述模拟环境中采用浮标跟随相关历史经验数据训练所述浮标跟随策略模型;构建绞车控制策略模型,在所述模拟环境中采用绞车控制相关历史经验数据训练所述绞车控制策略模型;将训练好的所述浮标控制策略模型和训练好的绞车控制策略模型相结合,完成水下机器人协同控制系统的构建。
4、进一步的,前述的构建脐带缆仿真模型,包括:将所述脐带缆分为水面缆绳 rab和水下缆绳 rbc;将所述水下缆绳 rbc分解为水平方向的缆绳 rbc(a)、竖直方向的缆绳 rbc(l);采用节点数量表示水面缆绳 rab、水平方向的缆绳 rbc(a)、竖直方向的缆绳 rbc(l)长度,根据节点数量的变化确定对应揽绳的形变与位移;
5、其中,所述水面缆绳 rab首端连接浮标,末端连接绞车,用于模拟脐带缆水上的形变与位移;所述缆绳 rbc(a)首端连接水下机器人水面投影,末端连接浮标;用于模拟水下缆绳 rbc水平方向的形变与位移;所述缆绳 rbc(l)首端连接水下机器人水面投影,末端连接水下机器人,用于模拟水下缆绳 rbc竖直方向的形变与位移。
6、进一步的,前述的构建浮标跟随策略模型,包括:构建奖惩函数模型,对浮标、水下机器人的移动和脐带缆的收放进行奖惩,计算奖惩值;
7、基于sac算法构建浮标跟随策略,以模拟环境状态为浮标跟随策略的输入,结合奖惩值,计算浮标动作的分布概率,选取分布概率值最大的浮标动作作为浮标跟随策略的输出。
8、进一步的,前述的构建奖惩函数模型,包括:根据浮标的水平坐标与水下机器人的水平坐标之间差异越大,基本回报值越小的原则,构建用于体现浮标与水下机器人跟随效果的基本回报函数,计算基本回报;根据如果浮标保持与水下机器人距离越小,则给予递增的额外奖励分,如果浮标偏离水下机器人,清零奖励分的原则,构建奖励分计算函数,计算奖励分;根据水面缆绳 rab和水下缆绳 rbc长度具有负相关回报的原理,引入揽绳抖动惩罚函数,计算缆绳抖动惩罚回报;计算基本回报、奖励分、缆绳抖动惩罚回报的总和作为奖惩值。
9、进一步的,前述的基本回报函数的表达式:
10、;
11、其中,为基本回报,为曼哈顿距离,为浮标的水平坐标、为水下机器人水平坐标;
12、奖励分计算函数的表达式如下:
13、;
14、其中,为时刻的奖励分; 为时刻的奖励分;为奖励分常数, ;为时刻模拟环境状态;为时刻模拟环境状态;为时刻浮标动作;为时刻浮标动作;为浮标速度;
15、所述揽绳抖动惩罚函数的表达式如下:
16、;
17、其中, 为欧几里得距离。
18、进一步的,前述的浮标跟随策略模型包含:值函数网络、目标值函数网络、q值函数网络和actor网络;所述的在所述模拟环境中采用浮标跟随相关历史经验数据训练所述浮标跟随策略模型,包括:
19、采集模拟环境状态和对应的浮标动作的历史经验数据;
20、设定目标值更新频率,目标奖惩值;
21、迭代更新值函数网络、目标值函数网络、q值函数网络和actor网络,直至获得的奖惩值大于,停止迭代;
22、其中,所述值函数网络更新方法包括:计算值函数网络的更新目标:
23、;
24、值函数网络的更新梯度为:
25、;
26、式中,为模拟环境状态下actor网络输出的浮标动作的策略向量;为模拟环境状态下q值函数网络输出的q值向量;为温度系数,t为转置操作;为数学期望;d为模拟环境状态和对应的浮标动作的历史经验数据;为模拟环境状态下的状态值更新目标;为模拟环境状态下值函数网络输出的状态值;
27、所述目标值函数网络更新方法包括:
28、按频率将中各层网络的参数直接赋值给中的各层网络参数,以更新目标值函数网络的网络参数;
29、所述q值函数网络和actor网络的更新方法包括:
30、q值函数网络的更新梯度为:
31、;
32、actor网络更新梯度为:
33、;
34、式中,为模拟环境状态-浮标动作对下q值函数网络输出的q值;为模拟环境状态-浮标动作对下环境返回的奖惩值,为模拟环境状态下目标值函数输出的状态值;为模拟环境状态-浮标动作对下环境的状态转移概率;为折扣因子,取值为(0,1)的常数。
35、进一步的,在所述模拟环境中采用浮标跟随相关历史经验数据训练所述浮标跟随策略模型还包括更新温度系数,温度系数的更新梯度为:
36、;
37、式中,为常数向量。
38、进一步的,基于行为克隆算法构建绞车控制策略模型;以模拟环境状态和水下机器人的深度为绞车控制策略模型的输入、以脐带缆长度为绞车控制策略模型的输出,采用轻量化transformer模型学习输入到输出的映射。
39、进一步的,前述的轻量化transformer模型包括嵌入层、多头注意力层、前馈网络、全连接层;在所述模拟环境中采用绞车控制相关历史经验数据训练所述绞车控制策略模型,包括:
40、采集模拟环境状态、水下机器人的深度、对应的脐带缆长度的历史经验数据;
41、输入序列,经所述嵌入层编码后,添加基于时间步的位置编码,输入所述多头注意力层;将所述多头注意力层的输出与位置编码叠加后,作为注意力特征输出;将注意力特征进行层归一化后输入所述前馈网络,将所述前馈网络的输入和输出叠加输入所述全连接层,最终输出期望脐带缆长度;所述输入序列为时刻到时刻的所有模拟环境状态、水下机器人的深度,以及时刻到时刻所有脐带缆长度组合而成;
42、根据时刻脐带缆长度和期望脐带缆长度,训练绞车控制策略模型的网络参数;
43、绞车控制策略模型的更新梯度为:
44、;
45、其中,为绞车控制策略模型的网络参数;b为模拟环境状态、水下机器人的深度、对应的脐带缆长度的历史经验数据;为输入序列时绞车控制策略模型输出的期望脐带缆长度;为时刻脐带缆长度;
46、反复按批次输入历史经验数据,训练绞车控制策略模型的网络参数,超过预设训练次数后停止训练。
47、第二方面,本发明还提供了一种水下机器人协同控制方法,包括:采集水上及水下环境数据;将所述水上及水下环境数据输入至水下机器人协同控制系统中,获得控制信号;所述控制信号包括:浮标动作信号和脐带缆收放长度;
48、将所述控制信号中的浮标动作信号输出至浮标控制单元、将脐带缆收放长度输出至绞车控制单元,使绞车控制单元根据所述控制信号收放脐带缆、浮标跟随水下机器人运行,从而实现协同控制;其中,所述水上及水下环境数据包括水下机器人坐标、浮标坐标、浮标速度矢量、水下机器人速度矢量、浮标角速度和水流速度;
49、所述水下机器人协同控制系统采用第一方面所述任一种水下机器人协同控制系统的构建方法获取。
50、与现有技术相比,本发明所达到的有益效果:
51、(1)本发明使用多层次的环境模拟和状态定义,通过对缆绳水平和竖直方向的模拟,考虑水下缆绳的拉伸、形变情况,提高了系统对真实水下环境的还原度以及系统的适应性,广泛适用于多种水下场景,包括但不限于大坝检查和水下探测,还实现了操作效率的显著提升,同时增强了系统在复杂水下环境中的安全性;
52、(2)本发明基于深度强化学习的sac算法,实现对浮标的高效探索和智能控制;利用轻量化transformer的绞车控制算法,通过行为克隆方法,实时预测脐带缆的期望长度,确保协同控制系统的安全性和效率;
53、(3)本发明使用基于奖惩函数引导的深度强化学习,设计基于浮标和水下机器人相对距离的基本回报和奖励分,引导智能体优化浮标跟随水下机器人的效果;引入缆绳抖动惩罚,降低了强化学习策略导致的脐带缆抖动现象,提高系统的稳定性。
1.一种水下机器人协同控制系统的构建方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述构建脐带缆仿真模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述构建浮标跟随策略模型,包括:构建奖惩函数模型,对浮标、水下机器人的移动和脐带缆的收放进行奖惩,计算奖惩值;
4.根据权利要求3所述的方法,其特征在于,所述构建奖惩函数模型,包括:
5.根据权利要求4所述的方法,其特征在于,所述基本回报函数的表达式如下:
6.根据权利要求3所述的方法,其特征在于,所述浮标跟随策略模型包含:值函数网络、目标值函数网络、q值函数网络和actor网络;
7.根据权利要求6所述的方法,其特征在于,还包括更新温度系数,温度系数的更新梯度为:
8.根据权利要求1所述的方法,其特征在于,基于行为克隆算法构建绞车控制策略模型;以模拟环境状态和水下机器人的深度为绞车控制策略模型的输入、以脐带缆长度为绞车控制策略模型的输出,采用轻量化transformer模型学习输入到输出的映射。
9.根据权利要求8所述的方法,其特征在于,轻量化transformer模型包括嵌入层、多头注意力层、前馈网络、全连接层;
10.一种水下机器人协同控制方法,其特征在于,所述方法包括:
