基于引力指导的深度q网络无人机路径规划方法
技术领域
1.本发明涉及无人机路径规划技术领域,具体涉及一种基于引力指导的深度q网络无人机路径规划方法。
背景技术:2.如今随着技术的快速发展,无人机凭借其高机动性和低运营成本,正越来越广泛地被应用在各个领域。自主路径规划是无人机导航领域的重要研究内容。其中,如何提高无人机的自我学习能力与自我决策能力成为了解决无人机自主路径规划问题的关键。强化学习(rl)通过与环境的交互来最大化累积回报,使智能体能够自主学习最优策略。无模型强化学习方法已成为路径规划领域的热门方法。其中q-learning算法作为一种强化学习的代表方法被广泛研究并应用于无人机的自主路径规划问题中。但是由于q-learning算法本身存在维度的局限导致其无法适应状态维度较大的场景。所以使用深度神经网络近似q函数的深度强化学习算法的理念被提出并应用在结合图像处理的无人机路径规划任务中。其中最具代表性的方法就是深度q网络(dqn)算法。
3.然而,本发明发明人在实现基于深度q网络算法的无人机路径规划任务中发现,基于深度q网络的路径规划算法在训练初期环境探索阶段对于动作选择的盲目性会导致训练效率低下。这种情况在更复杂的环境下将更为严重。此外,现有方法使用基于深度q网络的算法进行无人机路径规划时,往往为了追求最优路径而忽略了与障碍物之间保持安全距离。这种路径规划方法给执行任务中的无人机带来了安全隐患。与此同时,基于人工势场法的无人机路径规划算法存在容易陷入局部最优的问题,当目标点附近存在障碍物时。该算法容易陷入局部最优解从而导致无法获得最优路径。
技术实现要素:4.本发明提供了一种基于引力指导的深度q网络无人机路径规划方法,以解决现有技术中训练效率低下,规划路径缺乏安全性考虑以及容易陷入局部最优等问题。
5.本发明提供了一种基于引力指导的深度q网络无人机路径规划方法,包括如下步骤:
6.步骤1:初始化深度q网络模型,设置训练参数,其中,训练参数包括:警告距离、无人机模拟电荷量、目标地模拟电荷量,无人机模拟电荷与目标地模拟电荷为异性电荷;
7.步骤2:开始训练深度q网络模型,当无人机未遇到障碍物时,则通过深度q网络对无人机路径进行规划;
8.当无人机遇到障碍物时,且无人机与障碍物距离大于警告距离时,则通过深度q网络对无人机路径进行规划;
9.当无人机遇到障碍物时,且无人机与障碍物距离小于警告距离时,则对障碍物设置与无人机模拟电荷同性的模拟电荷,障碍物模拟电荷量小于目标地模拟电荷量,计算此时无人机与目标地之间的电荷引力、无人机与障碍物之间的电荷斥力,计算电荷引力与电
荷斥力的合力,取合力方向与基准单位向量的夹角θ计算下一个动作的运动方向;
10.步骤3:重复步骤2直至深度q网络模型训练完成,将实际无人机坐标、目标地坐标放入训练完成的深度q网络模型中进行路径规划。
11.进一步地,所述障碍物的模拟电荷的电荷量为目标地模拟电荷的电荷量的1/2。
12.进一步地,训练参数还包括:危险距离、危险接近次数;
13.所述步骤2中,当无人机遇到障碍物时,且无人机与障碍物距离小于警告距离时还包括判断无人机与障碍物距离是否小于危险距离,当无人机与障碍物距离小于危险距离,则危险接近次数自增;
14.深度q网络模型中的奖励函数公式如下:
[0015][0016]
α,β,γ
′
为常数,代表各个部分的奖励在总奖励函数中的权重;ds表示上一个状态中无人机与目标地的距离;ds′
表示下一个状态中无人机与目标地之间的距离;ns为危险接近次数;obi表示无人机与障碍物的距离;b表示无人机的剩余电量。
[0017]
进一步地,当无人机与障碍物距离小于警告距离且大于危险距离时,所述障碍物的模拟电荷的电荷量为目标地模拟电荷的电荷量的1/3;当无人机与障碍物距离小于危险距离时,所述障碍物的模拟电荷的电荷量为目标地模拟电荷的电荷量的1/2。
[0018]
进一步地,所述警告距离为3个单位长度,其中,单位长度为深度q网络模型训练中无人机可运动的最小距离。
[0019]
进一步地,所述危险距离为1个单位长度,其中,单位长度为深度q网络模型训练中无人机可运动的最小距离。
[0020]
本发明的有益效果:
[0021]
本发明通过在基础的深度q网络算法的动作选择策略中加入了基于引力感知的动作指导策略。依赖于传感器的数据信息,在无人机与障碍物之间的距离过近时会触发基于引力感知的动作指导。这种动作指导在算法训练的初期大大减少不必要的探索从而降低原始算法探索的盲目性。
[0022]
本发明在算法训练时增加了一种安全计数机制,这种机制会计算整个路径规划过程中无人机与障碍物之间的距离小于安全距离的次数。依据这种机制设计了兼顾相对最短路径与安全路径的奖励函数。通过这种评估方法获取更加安全的路径。
[0023]
本发明通过设置无人机、障碍物与目标点电荷量的方式来实现当无人机与障碍物距离过近时有效避开障碍物同时向目标点靠近的目的。通过这种机制有效避免了传统方法中规划路径陷入局部最优的问题。
[0024]
上述两种效果分别解决了现有技术中算法训练效率低,规划路径缺乏安全性考虑,规划路径容易陷入局部最优的问题。
附图说明
[0025]
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
[0026]
图1为本发明具体实施例流程图;
[0027]
图2为本发明具体实施例所描述无人机在环境中的探测示意图;
[0028]
图3为本发明具体实施例所提合力指导策略示意图。
具体实施方式
[0029]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0030]
本发明实施例提供一种基于引力指导的深度q网络无人机路径规划方法,包括如下步骤:
[0031]
步骤1:初始化网络参数:主网络参数θ与目标网络参数训练参数:经验回放区危险接近次数ns=0,无人机电池电量b=100,设定危险距离dm=1,警告距离dw=3,训练回合数n
episode
=1000,无人机电荷量qu=+1,障碍物电荷量qo=+1,目标电荷量q
t
=-2。
[0032]
步骤2:当训练回合数小于设定的训练回合数n
episode
时,初始化状态开始新回合的训练。当无人机的剩余电量b大于零且无人机未与障碍物发生碰撞时,获取传感器探测范围中的障碍物距离信息,请参考图2,根据从传感器获取的距离信息选择相应的动作选择策略进行动作选择。此外,当无人机与障碍物之间的距离小于dm时,危险接近次数ns+1。
[0033]
当无人机与障碍物的距离小于设定的警告距离dw时,使用引力指导策略对无人机下一步的动作选择进行指导。该策略的是模拟电荷在静电场中的受力情况进行构建的,请参考图3,假设环境中的障碍物与无人机带有同种电荷,因此障碍物会对无人机产生斥力;同时假设目标点与无人机带有异种电荷,目标点对无人机产生引力。设定好无人机,障碍物与目标的电荷量就可以通过库仑定律可以分别计算出引力与斥力的大小并进一步计算出合力的大小。计算出合力后取合力方向与单位向量的夹角θ作为选取动作的依据。
[0034]
θ角的计算公式为:
[0035]
本发明采用的训练环境为栅格化环境,无人机在该环境中用8种可选动作,具体的动作指导为:
[0036][0037]
当无人机与障碍物的距离大于设定的警告距离dw时,使用深度q网络方法的动作选取策略。该策略使用深度神经网络来近似每个状态下各个动作的动作状态价值函数。在动作选取时将该函数计算出的q值使用soft-max策略选取动作。
[0038]
步骤3:无人机执行完选择的动作之后电池电量b-1,同时将训练信息(当前状态,动作,奖励,下一个状态)存放至经验回放区。然后按照设定好的批次从经验回放区中取数据对网络进行更新。
[0039]
环境中的无人机每执行完一次动作都会获得相应状态的奖励,该奖励根据设定好的奖励函数来确定。在本发明实例中,将奖励函数设置为:
[0040][0041]
α,β,γ为常数,它们代表各个部分的奖励在总奖励函数中的权重。根据实验经验,本实例中将α,β,γ的值分别设置为2,0.048,0.5。其中ds表示上一个状态中无人机与目标点的距离;ds′
表示下一个状态中无人机与目标点之间的距离。
[0042]
每次执行完动作之后,算法将经验元组(s,a,r,s
′
)存放至经验回放区内。然后算法会按照设定好的批次数m从经验回放区中采样数据用于对主网络与目标网络参数进行更新。
[0043]
步骤4:当无人机电量耗尽或是与障碍物发生碰撞本回合结束,当总回合数大于设定好的训练回合数时,训练结束。
[0044]
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
技术特征:1.一种基于引力指导的深度q网络无人机路径规划方法,其特征在于,包括如下步骤:步骤1:初始化深度q网络模型,设置训练参数,其中,训练参数包括:警告距离、无人机模拟电荷量、目标地模拟电荷量,无人机模拟电荷与目标地模拟电荷为异性电荷;步骤2:开始训练深度q网络模型,当无人机未遇到障碍物时,则通过深度q网络对无人机路径进行规划;当无人机遇到障碍物时,且无人机与障碍物距离大于警告距离时,则通过深度q网络对无人机路径进行规划;当无人机遇到障碍物时,且无人机与障碍物距离小于警告距离时,则对障碍物设置与无人机模拟电荷同性的模拟电荷,障碍物模拟电荷量小于目标地模拟电荷量,计算此时无人机与目标地之间的电荷引力、无人机与障碍物之间的电荷斥力,计算电荷引力与电荷斥力的合力,取合力方向与基准单位向量的夹角θ计算下一个动作的运动方向;步骤3:重复步骤2直至深度q网络模型训练完成,将实际无人机坐标、目标地坐标放入训练完成的深度q网络模型中进行路径规划。2.如权利要求1所述的基于引力指导的深度q网络无人机路径规划方法,其特征在于,所述障碍物的模拟电荷的电荷量为目标地模拟电荷的电荷量的1/2。3.如权利要求1所述的基于引力指导的深度q网络无人机路径规划方法,其特征在于,训练参数还包括:危险距离、危险接近次数;所述步骤2中,当无人机遇到障碍物时,且无人机与障碍物距离小于警告距离时还包括判断无人机与障碍物距离是否小于危险距离,当无人机与障碍物距离小于危险距离,则危险接近次数自增;深度q网络模型中的奖励函数公式如下:α,β,γ为常数,代表各个部分的奖励在总奖励函数中的权重;d
s
表示上一个状态中无人机与目标地的距离;d
s
′
表示下一个状态中无人机与目标地之间的距离;n
s
为危险接近次数;ob
i
表示无人机与障碍物的距离;b表示无人机的剩余电量。4.如权利要求1所述的基于引力指导的深度q网络无人机路径规划方法,其特征在于,当无人机与障碍物距离小于警告距离且大于危险距离时,所述障碍物的模拟电荷的电荷量为目标地模拟电荷的电荷量的1/3;当无人机与障碍物距离小于危险距离时,所述障碍物的模拟电荷的电荷量为目标地模拟电荷的电荷量的1/2。5.如权利要求1-4中任一所述的基于引力指导的深度q网络无人机路径规划方法,其特征在于,所述警告距离为3个单位长度,其中,单位长度为深度q网络模型训练中无人机可运动的最小距离。6.如权利要求1-4中任一所述的基于引力指导的深度q网络无人机路径规划方法,其特征在于,所述危险距离为1个单位长度,其中,单位长度为深度q网络模型训练中无人机可运动的最小距离。
技术总结本发明公开了一种基于引力指导的深度Q网络无人机路径规划方法,包括:当无人机未遇到障碍物时,则通过深度Q网络对无人机路径进行规划;当无人机遇到障碍物时,且无人机与障碍物距离大于警告距离时,则通过深度Q网络对无人机路径进行规划;当无人机遇到障碍物时,且无人机与障碍物距离小于警告距离时,则对障碍物设置与无人机模拟电荷同性的模拟电荷,障碍物模拟电荷量小于目标地模拟电荷量,计算此时无人机与目标地之间的电荷引力、无人机与障碍物之间的电荷斥力,计算电荷引力与电荷斥力的合力,取合力方向与基准单位向量的夹角θ计算下一个动作的运动方向。本发明使得算法训练效率提高,规划路径不易陷入局部最优。规划路径不易陷入局部最优。规划路径不易陷入局部最优。
技术研发人员:王琦 徐志成 王栋 高尚 于化龙 崔弘杨
受保护的技术使用者:江苏科技大学
技术研发日:2022.07.26
技术公布日:2022/11/1