能源受限环境下的动态避障路径规划方法、设备和介质

专利2025-04-05  10


本发明涉及机器人路径规划算法,具体而言,涉及一种能源受限环境下的动态避障路径规划方法、设备和介质。


背景技术:

1、随着人工智能和机器人技术的迅速发展,以及应用需求的不断增长,自动化设备在各种复杂环境中的应用日益普及。这一领域主要关注如何高效地指导机器人或设备从一个位置移动到另一个位置,同时规避障碍、优化路径长度和完成目标需求。传统的路径规划方法,在简单或静态环境中效果显著,但它们在处理能源受限制和环境动态变化的多目标问题时面临诸多挑战,缺乏必要的适应性和准确性。

2、深度强化学习(deep reinforcement learning,drl)作为一种融合了强化学习和深度学习的先进技术,在路径规划领域引起了极大关注。drl通过机器人与环境的互动学习过程,能够发掘出解决路径规划问题的有效策略。然而,尽管其在路径规划领域表现出巨大潜力,但仍存在两个主要挑战:(1)在复杂环境下的决策效率问题,drl需要在复杂的环境中迅速做出有效决策,这对环境和算法本身有着更高要求;(2)快速适应环境变化的能力,drl必须能够适应环境的快速变化,以有效应对新的挑战和条件。

3、因此,存在一种迫切需要,即开发一种新的路径规划方法,该方法能够有效地处理复杂、多目标环境中的路径规划问题,同时克服传统方法的局限性和现有深度强化学习方法的挑战。


技术实现思路

1、本发明旨在至少解决现有技术中存在现有规划方法在能源受限的动态环境中路径规划方面具有较大局限性,难以作出有效规划的技术问题。

2、为此,本发明第一方面提供了一种能源受限环境下的动态避障路径规划方法。

3、本发明第二方面提供了一种计算机设备。

4、本发明第三方面提供了一种计算机可读存储介质。

5、本发明提供了一种能源受限环境下的动态避障路径规划方法,包括:

6、在给定的环境地图框架内,采用随机化方法在环境中生成代表可能路径点的随机节点、附加障碍物和能源补给站;其中,所述给定的环境地图框架包括固定障碍物的分布以及确定的起始与结束点;

7、通过prm算法(概率路线图方法),根据所述随机节点建立节点间的连接,形成初始路径网络;其中,利用kd树算法优化邻近节点的搜索过程,并采用几何碰撞检测方法评估节点间的可达性及路径的有效性;

8、调整障碍物约束和路径节点,并采用增量式prm对节点间的连接进行重新评估和更新,以更新地图的路径网络结构;

9、利用dqn模型(结合深度学习和q-learning的强化学习算法)对生成的节点路径进行分析,以估计每个动作的预期奖励或价值,其中,dqn模型根据环境数据和历史路径效果学习选择最优运动策略,dqn模型使用价值函数估计在状态s下采取动作a的预期回报;

10、依据经过dqn模型优化后的动作价值函数,选择最优动作序列,进而将这些动作转化为实际移动或路径决策。

11、根据本发明上述技术方案的能源受限环境下的动态避障路径规划方法,还可以具有以下附加技术特征:

12、在上述技术方案中,所述随机化方法包括:

13、在给定的环境地图框架内,通过标准随机采样放置若干个附加障碍物;

14、在给定的环境地图框架内,通过区域内随机采样确定能源补给站的位置,其中,能源补给站站点不与障碍物重叠;

15、在给定的环境地图框架内,通过标准随机采样生成第一设定比例的所述随机节点,通过密集采样方法在障碍物密集区域生成第二设定比例的所述随机节点;其中,所述随机节点不与障碍物和能源补给站重叠。

16、在上述技术方案中,所述通过prm算法,根据所述随机节点建立节点间的连接,形成初始路径网络,包括:

17、根据随机节点n={n1,n2,..,nk}使用kd树算法构建节点的空间索引,以查询节点间的最近邻关系,将随机节点ni的最近邻节点集合定义为nn(ni);

18、对于任一随机节点ni,确定与其相连的边,包括:

19、e(ni)={(ni,nj)|nj∈nn(ni),且dist(ni,nj)≤dmax,且无障碍物碰撞}

20、其中,e(ni)表示与随机节点ni相连的边的集合,dist(ni,nj)表示随机节点ni和nj之间的欧氏距离,dmax表示设定的最大连接距离,i和j分别表示节点编号,k表示随机节点数量。

21、在上述技术方案中,所述调整障碍物约束和路径节点包括增加或减少障碍物,并相应地增加或减少路径节点。

22、在上述技术方案中,所述调整障碍物约束和路径节点,并采用增量式prm对节点间的连接进行重新评估和更新,以更新地图的路径网络结构,包括:

23、周期性地增加或减少障碍物;增加障碍物时,移除被新增障碍物覆盖的节点;减少障碍物时,如果存在历史节点被该减少的障碍物覆盖,则将历史节点重新启用,如果不存在历史节点,则在移除的障碍物的中心位置添加一个新的路径节点;

24、节点减少、重新启用或者节点增加后通过kd-tree算法来改进增量式prm用于检索在最大连接距离dmax范围内的其他节点,根据增量式prm算法的节点连接策略,对节点进行相应的局部重构。

25、在上述技术方案中,所述dqn模型采用多层感知器结构,所述利用dqn模型对生成的节点路径进行分析,以估计每个动作的预期奖励或价值,包括:

26、利用dqn模型估计的q值q(s,a;θ)表示在给定状态s下选择动作a的预期回报;q值由以下公式更新:

27、q(s,a;θ)←q(s,a;θ)+α[r+γmaxa′q(s′,a′;θ-)-q(s,a;θ)]

28、其中,s′表示采取新动作a后的新状态,a′表示动作a的下一个动作,r表示收到的即时奖励,γ表示折扣因子,α表示学习率,θ表示当前q网络的参数,θ-表示目标q网络的参数;

29、采用扩展的独热编码作为状态表示,其中,状态向量靠前部分为节点位置,后两位分别表示能量水平和到最近能源补给站的距离;

30、奖励函数r(s,a)根据状态s和动作a计算即时奖励,包括:

31、

32、其中,rewards表示即时奖励;rstep表示每次移动的惩罚,rgoal(s′)表示成功抵达目标时获得的奖励,rdistance(s,s′)表示基于当前位置和下一个位置到目标的距离差的奖励,rfuel_station_reward(s′)表示需要补充能源时靠近能源补给站获得的奖励与能源水平过低时远离能源补给站的惩罚,rempyt(s′)表示能源耗尽的惩罚;

33、将当前节点所有可达的节点作为可能的动作,如果没有连接节点则随机选择一个节点作为可能的动作,从所有可行的动作中挑选出具有最高长期回报的动作,采用ε-贪心策略进行动作选择并根据移动距离计算能源消耗;将在给定状态s下选择动作的规则定义为运动策略π(s),则运动策略π(s)和能源消耗energy_consume_d表示为:

34、

35、其中,argmax表示最大值索引函数;rand(a)表示动作合集中的一个随机动作;distance_energy表示两个节点之间的欧式距离;max_energy_scale表示能量消耗的最大规模;dmax表示设定的最大连接距离;ε表示概率参数,取值介于0到1之间;

36、结合能源消耗采用优先级经验回放策略来减少观测数据间的时间相关性;其中,通过重要性采样方法平衡采样分布,设置重要性权重;

37、在学习更新时,使用加权的损失函数来减少由于高采样概率带来的潜在偏差,包括:

38、l(θi)=(q(s,a;θ)-(r+γ·maxa′q(s′,a′;θ-)-c·energy_consumed))2

39、loss=∑iwi·l(θi)

40、其中,l(θi)表示在样本i上的损失函数,loss表示加权的损失函数;r表示智能体从环境中接收到的立即奖励;c表示能源消耗的成本系数;wi表示第i个样本的重要性权重。

41、在上述技术方案中,所述结合能源消耗采用优先级经验回放策略来减少观测数据间的时间相关性,包括:

42、计算预测的q值与实际获得的奖励之间的差值tderror:

43、tderror=|r+γ·maxa′q(s′,a′;θ-)-q(s,a;θ)-c·energy_consumed|

44、在训练过程中,根据经验元素的优先级进行采样,优先级pi和采样概率p(i)表示为:

45、

46、其中,z表示优先级影响程度参数;β表示控制优先级计算的指数参数;τ表示设定数值,用以避免优先级为零的情况;

47、通过重要性采样方法平衡采样分布,设置重要性权重wi:

48、

49、其中,n表示经验回放缓冲区中的样本总数,β′表示控制重要性权重。

50、在上述技术方案中,所述依据经过dqn模型优化后的动作价值函数,选择最优动作序列,进而将这些动作转化为实际移动或路径决策,包括:

51、从dqn模型的输出中选择具有最高预期奖励的路径,并将所选的最优路径转化为机器人的实际移动指令。

52、本发明提供的一种计算机设备,包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载并执行时实现如上述技术方案中任一项所述的能源受限环境下的动态避障路径规划方法。

53、本发明提供的一种计算机可读存储介质,存储有程序,当所述程序被处理器加载时实现如上述技术方案中任一项所述的能源受限环境下的动态避障路径规划方法。

54、综上所述,由于采用了上述技术特征,本发明的有益效果是:

55、本发明提出的一种能源受限环境下的动态避障路径规划方法,专为动态复杂环境且对能源管理有要求的路径规划问题设计。此方法首先利用prm算法在环境中生成关键节点,构建初步的路径规划框架。接着,通过dqn模型对这些节点路径进行深入分析和优化,准确估计每个动作的潜在价值,从而制定出最优的行动策略。

56、本发明的核心优势在于其在能源受限的动态环境中具有出色的处理能力。通过prm的高效空间采样和dqn的先进强化学习能力的结合,本方法不仅大大提高了路径规划的适应性和灵活性,而且通过prm在障碍物密集的环境中的有效采样,并通过利用kd-tree算法改进增量式prm的方式进一步提高处理障碍物和地图更新效率,显著减轻了障碍物对dqn决策过程的影响,使得dqn能专注于路径优化。此外,该发明通过持续收集环境数据,并利用经验回放池策略不断优化dqn模型,从而显著提升了路径规划策略的性能。

57、本发明中还特别考虑了机器人的能源管理问题。通过设定能源补给站节点,并在路径规划中考虑能源消耗,能够保证机器人在有限的能源供应下有效地完成任务。不仅提高了路径规划的实用性,也增加了其在能源受限环境中的适用性。

58、与传统方法相比,本发明在处理大规模动态空间数据和优化长期路径规划策略方面表现出色。它在各类应用场景中,如机器人导航、能源覆盖规划等领域,展现了巨大的潜力。通过智能化路径规划和考虑能源约束,本发明显著提高了在动态环境中的导航效率和安全性。

59、本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。


技术特征:

1.一种能源受限环境下的动态避障路径规划方法,其特征在于,包括:

2.根据权利要求1所述的能源受限环境下的动态避障路径规划方法,其特征在于,所述随机化方法包括:

3.根据权利要求1所述的能源受限环境下的动态避障路径规划方法,其特征在于,所述通过prm算法,根据所述随机节点建立节点间的连接,形成初始路径网络,包括:

4.根据权利要求1所述的能源受限环境下的动态避障路径规划方法,其特征在于,所述调整障碍物约束和路径节点包括增加或减少障碍物,并相应地增加或减少路径节点。

5.根据权利要求4所述的能源受限环境下的动态避障路径规划方法,其特征在于,所述调整障碍物约束和路径节点,并采用增量式prm对节点间的连接进行重新评估和更新,以更新地图的路径网络结构,包括:

6.根据权利要求1所述的能源受限环境下的动态避障路径规划方法,其特征在于,所述dqn模型采用多层感知器结构,所述利用dqn模型对生成的节点路径进行分析,以估计每个动作的预期奖励或价值,包括:

7.根据权利要求6所述的能源受限环境下的动态避障路径规划方法,其特征在于,所述结合能源消耗采用优先级经验回放策略来减少观测数据间的时间相关性,包括:

8.根据权利要求7所述的能源受限环境下的动态避障路径规划方法,其特征在于,所述依据经过dqn模型优化后的动作价值函数,选择最优动作序列,进而将这些动作转化为实际移动或路径决策,包括:

9.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载并执行时实现如权利要求1至8中任一项所述的能源受限环境下的动态避障路径规划方法。

10.一种计算机可读存储介质,其特征在于,存储有程序,当所述程序被处理器加载时实现如权利要求1至8中任一项所述的能源受限环境下的动态避障路径规划方法。


技术总结
本发明提供了一种能源受限环境下的动态避障路径规划方法、设备和介质,方法包括:在给定的环境地图框架内,采用随机化方法在环境中生成代表可能路径点的随机节点、附加障碍物和能源补给站;通过PRM算法,根据所述随机节点建立节点间的连接,形成初始路径网络;调整障碍物约束和路径节点,并采用增量式PRM对节点间的连接进行重新评估和更新,以更新地图的路径网络结构;利用DQN模型对生成的节点路径进行分析,以估计每个动作的预期奖励或价值;依据经过DQN模型优化后的动作价值函数,选择最优动作序列,进而将这些动作转化为实际移动或路径决策。本发明通过智能化路径规划和考虑能源约束,显著提高了智能体在动态环境中的导航效率和安全性。

技术研发人员:张晖,但明峻,杨春明,龙呤,李波
受保护的技术使用者:西南科技大学
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-12794.html

最新回复(0)