一种基于脉冲分布式强化学习的无人机路径规划方法

专利2025-07-15  17


本发明属于机器智能决策与控制,尤其涉及一种基于脉冲分布式强化学习的无人机路径规划方法。


背景技术:

1、无人机路径规划任务是指无人机在一定的环境下,给定无人机出发点和目标点,通过一定的算法与控制方法来寻找一条安全、动态可行、最优的路径,使无人机从出发点飞往目标点。目前,针对无人机路径规划任务的算法可分为基于图搜索的方法,基于随机采样的方法,基于优化问题求解的方法和基于强化学习的方法四大类。

2、基于图搜索的方法把无人机路径规划任务视为数学中的图搜索问题,将无人机工作空间的地图构建为一个图,将无人机的出发点和目标点视为图中的节点,将无人机的飞行路径视为图中的边。构建完成后的算法通过不断扩展当前节点的邻居节点来进行搜索,直到找到目标位置为止。

3、基于随机采样的方法可视为对基于图搜索的方法的改进,该方法无需遍历整个无人机工作空间,而只对状态空间均匀随机采样来构建一个连通图并进行碰撞检测,当出发点和目标点均出现在图中的采样结束,提高了规划效率。

4、基于优化问题求解的方法将无人机路径规划任务视为一个非线性约束优化问题,确定任务的优化目标和约束条件后,使用最优化算法进行求解。

5、基于强化学习的方法是近年来随着人工智能技术的发展而出现的一种新的无人机路径规划方法。强化学习方法以马尔可夫决策过程为理论基础,将无人机的控制问题视为马尔可夫决策过程,通过对该过程建模并构造神经网络进行训练,最终得到最优的轨迹规划策略。

6、然而,实际应用中的无人机规划问题日趋复杂,需要考虑动力学、能量消耗、航空管制等多重约束和各种目标,这些约束往往无法用明确的数学表达式描述。对于基于图搜索、基于随机采样的方法,由于其偏重于考虑路径规划而忽视约束条件,很难适用于现今的实际任务需求;对于基于优化问题求解的方法,进行数值求解的复杂度极高且很难求得最优解,需要极大的计算量;对于基于强化学习的方法,训练和执行神经网络控制器同样需要大量计算资源,这在某些现实场景和实际问题中很可能无法获得,对于实时控制任务是一个问题。

7、纵观上述方法,能应用于实际任务中的现有无人机路径规划算法的共同问题是需要大量计算资源。这一方面源于模型复杂性,另一方面源于现有的强化学习方法绝大部分基于人工神经网络。而将脉冲神经网络与强化学习相结合,脉冲强化学习为无人机路径规划任务提供了低能耗解决方案,其稀疏激活和事件驱动特点大大减少了计算频率。然而由于丢失了大量回报分布信息,脉冲强化学习方法缺乏应对不确定性和随机性的能力,在面对现实世界的无人机路径规划任务时仍有缺陷。且现有脉冲强化学习方法大多通过将训练好的人工神经网络转换成脉冲神经网络完成,这在一定程度上损失了脉冲神经网络的能耗优势,且非常依赖于人工神经网络的训练,当人工神经网络训练不完善或转换过程中误差累积时,便会对最终结果产生较大影响。


技术实现思路

1、本发明的目的在于提出了一种基于脉冲分布式强化学习的无人机路径规划方法,旨在解决现有方法计算资源需求高,模型泛化能力差,模型应对不确定性和随机性能力弱,现有脉冲强化学习模型高度依赖预训练人工神经网络等问题。

2、本发明采用的技术方案为:

3、一种基于脉冲分布式强化学习的无人机路径规划方法,该方法包括下列步骤:

4、步骤1,选择无人机路径规划的训练数据,构建训练集;

5、采用马尔可夫过程描述无人机路径规划过程,训练集的训练数据采用马尔可夫序列对无人机的路径进行描述;

6、其中,表示状态空间,用于表征无人机所有可能处于的状态;

7、表示动作空间,用于表征无人机所有可以采取的控制动作;

8、表示状态转移概率,用于表征在状态下选择控制动作而转移到某一状态的概率;

9、表示奖励函数,用于表征在状态下选择动作所获得的即时奖励;

10、表示衰减系数,用于调整奖励权重,对未来奖励进行折现以更关注近期奖励;

11、步骤2,构建基于脉冲神经网络的特征提取网络,用于对输入的无人机的状态进行特征提取;该特征提取网络用于对输入的状态进行特征提取,以输出状态的状态嵌入,其中,为脉冲神经网络在整个仿真时间窗口输出的均值;

12、步骤3,构建脉冲分布式强化学习网络,其输入为状态嵌入,基于分位数分布估计采取的控制动作所能获得的回报分布,并基于回报分布所对应的期望回报表征动作价值以选择最优控制动作;

13、步骤4,构造损失函数以衡量脉冲分布式强化学习网络预测的期望回报与真实回报之间的差距;

14、步骤5,基于训练集对特征提取网络和脉冲分布式强化学习网络进行训练,以最小化构造的损失函数为目的对网络参数进行调优,当达到预置的训练结束条件时停止,基于训练好的特征提取网络和脉冲分布式强化学习网络得到用于无人机自主路径规划的无人机路径规划模型。

15、进一步的,步骤1中,状态空间的每一个状态通过对无人机的作业空间建立三维坐标系进行描述。

16、进一步的,特征提取网络的网络结构依次包括卷积层与脉冲神经元层交替构成的堆叠结构,并在该堆叠结构后连接一层全连接层作为特征提取网络的输出层。

17、进一步的,脉冲分布式强化学习网络选择最优控制动作的控制策略为:

18、

19、

20、其中,表示脉冲分布式强化学习网络的控制策略,为从动作空间中任取的一个控制动作,表示当前状态动作对的期望回报,表示期望,表示当前状态动作对的回报分布,期望回报由衰减系数调节的预期未来能获得的累积奖励。

21、进一步的,回报分布的获取方式为:选择一定数量的分位点并输出分位点对应的分位值,建立分位数分布以估计回报分布。

22、进一步的,脉冲分布式强化学习网络的网络结构为下列两种结构种的任一一种:

23、结构1:依次包括第一堆叠结构、第二堆叠结构和一层全连接层,其中,第一堆叠结构由交替的卷积层与脉冲神经元层构成,第二堆叠结构由交替的全连接层与脉冲神经元层构成;

24、结构2:依次包括第二堆叠结构和一层全连接层。

25、进一步的,损失函数为huber分位数损失函数。

26、进一步的,步骤5中,训练结束条件包括但不限于:训练次数达到预置上限、损失函数值收敛、路径规划能力达到期望目标。

27、进一步的,路径规划能力通过无人机到达终点的概率和/或时间步长度进行衡量。

28、进一步的,本发明的基于脉冲分布式强化学习的无人机路径规划方法还包括步骤6,基于步骤5得到的无人机路径规划模型的路径规划执行步骤,具体包括下列子步骤:

29、步骤6-1,采用马尔可夫过程对当前的无人机路径规划任务进行描述;

30、步骤6-2,将待控制无人机当前时刻的状态输入无人机路径规划模型,基于模型的输出得到当前状态下的最优控制动作;即基于模型的特征提取网络提取出有效信息(当前状态所对应的状态嵌入),再将其输入脉冲分布式强化学习网络,以通过控制策略选择并输出得到最优控制动作;

31、步骤6-3,待控制无人机执行模型输出的最优控制动作,执行完毕后得到下一时刻的状态;

32、步骤6-4,以步骤6-3得到的状态作为当前时刻的状态返回步骤6-1;

33、重复执行步骤6-2至6-4,直至无人机路径规划任务结束。

34、本发明提供的技术方案至少带来如下有益效果:

35、本发明通过结合分布式强化学习与脉冲神经网络,提出了基于脉冲分布式强化学习的无人机路径规划方法,该方法基于脉冲神经网络的模型架构降低了计算频率,改进了现有无人机路径规划方法需要大量计算资源的不足,为无人机路径规划任务提供了一种低能耗的解决方案;基于分布式强化学习的方法弥补了现有无人机路径规划方法关注点单一、损失有价值信息的问题,增强了本发明应对不确定性和随机性的能力,扩大了本发明面对复杂多变的现实无人机路径规划任务时的适用性。


技术特征:

1.一种基于脉冲分布式强化学习的无人机路径规划方法,其特征在于,包括下列步骤:

2.如权利要求1所述的一种基于脉冲分布式强化学习的无人机路径规划方法,其特征在于,步骤1中,状态空间的每一个状态通过对无人机的作业空间建立三维坐标系进行描述。

3.如权利要求1所述的一种基于脉冲分布式强化学习的无人机路径规划方法,其特征在于,特征提取网络的网络结构依次包括卷积层与脉冲神经元层交替构成的堆叠结构,并在该堆叠结构后连接一层全连接层作为特征提取网络的输出层。

4.如权利要求1所述的一种基于脉冲分布式强化学习的无人机路径规划方法,其特征在于,脉冲分布式强化学习网络选择最优控制动作的控制策略为:

5.如权利要求4所述的一种基于脉冲分布式强化学习的无人机路径规划方法,其特征在于,回报分布的获取方式为:选择一定数量的分位点并输出分位点对应的分位值,建立分位数分布以估计回报分布。

6.如权利要求1所述的一种基于脉冲分布式强化学习的无人机路径规划方法,其特征在于,脉冲分布式强化学习网络的网络结构为结构1或结构2;

7.如权利要求1所述的一种基于脉冲分布式强化学习的无人机路径规划方法,其特征在于,损失函数为huber分位数损失函数。

8.如权利要求1所述的一种基于脉冲分布式强化学习的无人机路径规划方法,其特征在于,步骤5中,训练结束条件为:训练次数达到预置上限、损失函数值收敛和/或路径规划能力达到期望目标。

9.如权利要求8所述的一种基于脉冲分布式强化学习的无人机路径规划方法,其特征在于,路径规划能力通过无人机到达终点的概率和/或时间步长度进行衡量。

10.如权利要求1至9任一项所述的一种基于脉冲分布式强化学习的无人机路径规划方法,其特征在于,还包括基于步骤5得到的无人机路径规划模型的路径规划执行步骤6,其具体包括下列子步骤:


技术总结
本发明公开了一种基于脉冲分布式强化学习的无人机路径规划方法,属于机器智能决策与控制技术领域。本发明方法包括构建基于脉冲神经网络的分布式强化学习神经网络模型,该模型在无人机路径规划过程中预测动作的回报分布而非传统的回报期望,根据回报分布捕捉更多有效信息以在面对复杂情景时更加稳定地选择高质量的无人机控制动作。本发明基于脉冲神经网络的模型架构降低了计算频率,基于分布式强化学习的方法弥补了现有无人机路径规划方法关注点单一、损失有价值信息的问题,增强了本发明应对不确定性和随机性的能力,扩大了本发明方法面对复杂多变的现实无人机路径规划任务时的适用性。

技术研发人员:解修蕊,秦科,罗光春,杨雨宁,冯敬轩,江岸苧
受保护的技术使用者:电子科技大学
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-15885.html

最新回复(0)