一种面向无信号灯路口场景的多智能体无人驾驶决策方法及系统

专利2025-06-25  32


本发明涉及无人驾驶领域,具体涉及一种面向无信号灯路口场景的多智能体无人驾驶决策方法及系统。


背景技术:

1、单智能体强化学习算法,如q-learning、dqn、ddpg、ppo等算法,已广泛应用于无人驾驶领域。单智能体强化学习算法在无人驾驶交叉口决策场景中得到广泛应用,但它只训练一个智能体,无法处理更复杂的多智能体策略,如协调和竞争。相较于多智能体强化学习,单智能体强化学习存在局限性。如单智能体强化学习算法通常假设其它汽车的驾驶行为是固定的,并遵守一定规则。然而,在现实世界中,其它车辆的驾驶人可能会根据观察到的驾驶行为调整他们的决策,这带来了不确定性和不可预测性。

2、对于复杂的、涉及多车辆的类似交叉口的复杂决策场景,考虑采用多智能体深度强化学习以实现更优秀的决策效果是一个值得探讨的方向。多智能体强化学习算法涉及多个智能体(无人驾驶车辆)在共享环境中同时学习,并不断地调整它们的策略。这种不平稳性破坏了环境的稳态,虽然阻碍了学习过程,却更符合现实世界中的复杂场景。目前基于无信号交叉口场景的多智能体深度强化学习无人驾驶决策算法的研究仍相对较少。基于多智能体深度强化学习算法改进,实践应用于交叉口场景下的无人驾驶决策,有较为广阔的研究前景。

3、对于多智能体强化学习算法,集中式的学习在大规模的智能体环境中拓展性差,且可能出现部分智能体学习到消极的策略;独立式的学习则面临环境非平稳性的问题;“集中训练分布式执行”的多智能体强化学习算法则更为可行,问题转变为如何站在全局角度训练出各个智能体的独立策略。


技术实现思路

1、为了解决上述技术问题,本发明设计了一种基于重要性采样模块以及动态噪声机制的多智能体无人驾驶决策方法。对于存放在经验回放池中的经验,根据重要性权重来决定经验样本的采样频率,学习更高效。引入动态噪声机制,使得智能体的固定噪声随着训练回合的增加而变化,逐渐降低动作噪声的引入,让智能体更多的依赖已学习到的策略去完成任务。改善了多智能强化学习算法决策模型的学习效率以及鲁棒性,提升了无人驾驶车辆面对复杂动态的无信号交叉口时的决策效率以及通行成功率,缓解了车辆间的碰撞。

2、为实现上述目的,本发明提供了一种面向无信号灯路口场景的多智能体无人驾驶决策方法,步骤包括:

3、基于无信号交叉口的无人驾驶场景,设定多智能体的参数空间;

4、为所述多智能体设计动态噪声机制,使多智能体在所述参数空间中积累经验;

5、为所述多智能体设计经验回放池的采样规则,使多智能体有效学习积累的经验;

6、基于所述参数空间、所述动态噪声机制和所述采样规则,构建决策模型;

7、利用所述决策模型生成多智能体无人驾驶决策方法。

8、优选的,所述参数空间包括:状态空间和动作空间;

9、状态空间定义如下:

10、s=(vego,v1,v2...vn,d1,d2...dn,destego)

11、式中,s表示状态空间;vego表示自我车辆的速度;v1,v2...vn表示其余车辆的速度;d1,d2...dn表示其余车辆距离自我车辆的相对距离;destego表示目的地终点距离自我车辆的距离;

12、动作空间定义如下:

13、a=(throttleego,brakeego,steerego)

14、式中,a表示动作空间;throttleego表示油门;brakeego表示刹车;steerego表示车辆转角;场景内每个智能体车辆的动作空间都包含这些参数。

15、优选的,在智能体策略网络输出的动作上引入动态噪声,增加智能体行为的随机性,随着训练轮数的增加而相应的减少;鼓励智能体在开始时更多地进行探索,通过积累经验,使智能体逐渐更多地利用其学习到的策略。

16、优选的,噪声值根据初始噪声、最终噪声和剩余的训练轮次百分比来计算,具体计算方法包括:在最终噪声值的基础上,加上初始噪声值与最终噪声值作差后乘以剩余训练轮次所占百分比。

17、优选的,所述采样规则包括:将导致智能体行为大幅改变或者接近最优解的经验赋予更高的优先级;采样策略为根据经验的重要性来选择要重播的经验样本,所述决策模型在训练期间,更加专注对学习过程影响较大的样本,提高学习过程的效率和速度,使所述决策模型更快地收敛到更好的策略。

18、优选的,所述决策模型的训练方法包括:初始化各智能体网络参数后,智能体基于所述动态噪声机制探索环境,积累经验;经验回放池存放的经验超过设定的阈值后,智能体基于经验回放池的所述采样规则进行采样,训练决策模型。

19、优选的,所述决策模型的奖励函数包括:局部奖励与全局奖励;

20、以车辆从起点到目标点,且安全、快速的通过交叉路口,以及车辆速度、花费时间作为奖励评判标准来进行所述局部奖励;针对距目标点的距离给予一定的奖励回报,同时对于车辆间发生的冲突给予惩罚;依据车辆距目标点的距离来判断车辆是否到达目标点,如果顺利到达则给予任务完成的奖励;

21、如所有车辆均安全到达预期目标点,则给予全局奖励,促进车辆间的任务协作。

22、本发明还提供了一种面向无信号灯路口场景的多智能体无人驾驶决策系统,所述系统用于实现上述方法,包括:空间设计模块、噪声设计模块、规则设计模块、模型构建模块和决策生成模块;

23、空间设计模块用于基于无信号交叉口的无人驾驶场景,设定多智能体的参数空间;

24、噪声设计模块用于为所述多智能体设计动态噪声机制,使多智能体在所述参数空间中积累经验;

25、规则设计模块用于为所述多智能体设计经验回放池的采样规则,使多智能体有效学习积累的经验;

26、模型构建模块用于基于所述参数空间、所述动态噪声机制和所述采样规则,构建决策模型;

27、所述决策生成模块用于利用所述决策模型生成多智能体无人驾驶决策方法。

28、与现有技术相比,本发明的有益效果如下:

29、本发明可以使无人驾驶车辆通过复杂的无信号交叉路口。该方法不仅改善了多智能体强化学习算法的算法模型复杂导致多智能体算法模型学习效率较低的问题,而且改善了最终训练的决策策略不够稳定且鲁棒性较差的问题,降低了无信号交叉口的无人驾驶车辆碰撞率,提高了车辆通行率。



技术特征:

1.一种面向无信号灯路口场景的多智能体无人驾驶决策方法,其特征在于,步骤包括:

2.根据权利要求1所述的面向无信号灯路口场景的多智能体无人驾驶决策方法,其特征在于,所述参数空间包括:状态空间和动作空间;

3.根据权利要求1所述的面向无信号灯路口场景的多智能体无人驾驶决策方法,其特征在于,在智能体策略网络输出的动作上引入动态噪声,增加智能体行为的随机性,随着训练轮数的增加而相应的减少;鼓励智能体在开始时更多地进行探索,通过积累经验,使智能体逐渐更多地利用其学习到的策略。

4.根据权利要求3所述的面向无信号灯路口场景的多智能体无人驾驶决策方法,其特征在于,噪声值根据初始噪声、最终噪声和剩余的训练轮次百分比来计算,具体计算方法包括:在最终噪声值的基础上,加上初始噪声值与最终噪声值作差后乘以剩余训练轮次所占百分比。

5.根据权利要求1所述的面向无信号灯路口场景的多智能体无人驾驶决策方法,其特征在于,所述采样规则包括:将导致智能体行为大幅改变或者接近最优解的经验赋予更高的优先级;采样策略为根据经验的重要性来选择要重播的经验样本,所述决策模型在训练期间,更加专注对学习过程影响较大的样本,提高学习过程的效率和速度,使所述决策模型更快地收敛到更好的策略。

6.根据权利要求1所述的面向无信号灯路口场景的多智能体无人驾驶决策方法,其特征在于,所述决策模型的训练方法包括:初始化各智能体网络参数后,智能体基于所述动态噪声机制探索环境,积累经验;经验回放池存放的经验超过设定的阈值后,智能体基于经验回放池的所述采样规则进行采样,训练决策模型。

7.根据权利要求1所述的面向无信号灯路口场景的多智能体无人驾驶决策方法,其特征在于,所述决策模型的奖励函数包括:局部奖励与全局奖励;

8.一种面向无信号灯路口场景的多智能体无人驾驶决策系统,所述系统用于实现权利要求1-7任一项所述的方法,其特征在于,包括:空间设计模块、噪声设计模块、规则设计模块、模型构建模块和决策生成模块;


技术总结
本发明公开了一种面向无信号灯路口场景的多智能体无人驾驶决策方法及系统,其中方法步骤包括:基于无信号交叉口的无人驾驶场景,设定多智能体的参数空间;为多智能体设计动态噪声机制,使多智能体在参数空间中积累经验;为多智能体设计经验回放池的采样规则,使多智能体有效学习积累的经验;基于参数空间、动态噪声机制和采样规则,构建决策模型;利用决策模型生成多智能体无人驾驶决策方法。本发明可以使无人驾驶车辆通过复杂的无信号交叉路口。该方法不仅改善了多智能体强化学习算法的算法模型复杂导致多智能体算法模型学习效率较低的问题,而且改善了最终训练的决策策略不够稳定且鲁棒性较差的问题,降低了无信号交叉口的无人驾驶车辆碰撞率。

技术研发人员:杜煜,张昊,赵世昕,吕和君,原颖
受保护的技术使用者:北京联合大学
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-15392.html

最新回复(0)