一种带有补偿反馈的多模态强化学习车辆决策规划方法

专利2025-04-26 14

本发明属于智能驾驶，尤其涉及一种带有补偿反馈的多模态强化学习车辆决策规划方法。

背景技术：

1、随着经济全球化迅速发展和城市化持续扩张，汽车数量不断增加，使得城市交通网络越发复杂，带来了交通拥堵、安全问题和空气污染等问题。面对这些挑战，智能车辆的出现成为了关键的解决方案。智能车辆需在复杂多变的交通环境中做出准确、高效的决策，以确保行车的安全性和流畅性。因此车辆决策规划方法的研究对于提升自动驾驶系统的性能和可靠性至关重要。传统的车辆决策规划方法依赖于精确的环境模型，这在复杂的交通场景中难以实现，并且这些方法难以处理高维度的状态空间和动作空间，导致在复杂环境下的决策效率不高。

2、随着人工智能和深度学习技术的快速发展，深度强化学习将传统的强化学习方法与深度神经网络相结合，为自动驾驶系统带来了全新的可能性。这一技术使自动驾驶车辆能在复杂多变的交通环境中进行准确、高效的决策，提高行车安全性、舒适性和效率。然而，直接将强化学习应用于自动驾驶的决策规划中仍然面临着一些挑战。例如常用的单一模态输入无法提供足够全面的信息来描述复杂的环境，导致智能体对环境的理解不够深入和准确。且单一模态输入可能会包含大量冗余信息，这会增加模型的复杂度，并且可能导致模型对数据过拟合，降低其泛化能力。此外，自动驾驶的决策规划在某些情况下可能会出现输出动作脱离实际或者非最优输出的情况，需进行约束补偿从而进行矫正，同时需要加快智能体的训练过程。

技术实现思路

1、本发明的目的在于提供一种带有补偿反馈的多模态强化学习车辆决策规划方法，旨在解决上述背景技术中提出的问题。

2、为实现上述目的，本发明提供如下技术方案：

3、一种带有补偿反馈的多模态强化学习车辆决策规划方法，包括以下步骤：

4、步骤1、强化学习交互环境设计：确定智能车辆与环境交互的场景和条件，设计智能车辆与其他交通参与者的交互规则和行为；

5、步骤2、环境状态的多模态融合：收集来自多个传感器的数据，将不同模态的数据进行整合和融合，构建全面的环境状态表示；

6、步骤3、奖励函数设计：根据决策任务的特性和目标，设计奖励函数，以激励智能车辆采取正确的决策行为；

7、步骤4、构建深度强化学习模型：设计深度强化学习模型的结构，包括actor和critic；使用多模态的环境状态作为输入，训练模型以学习最优的决策策略；

8、步骤5、设计局部轨迹规划器反馈机制：设计局部轨迹规划器，用于根据智能车辆当前状态和环境情况生成局部轨迹；设计反馈机制，将深度强化学习模型输出的动作策略与局部轨迹规划器结合，以实现动态约束和补偿。

9、进一步的，所述步骤2的具体过程为：将来自不同传感器的数据进行整合和融合，包括点云、图像以及自车和周车状态信息，构建全面的环境状态表示；具体包括以下步骤：

10、步骤21、对来自不同传感器的数据进行预处理：对于图像数据进行去噪、图像增强处理；对于点云数据，进行滤波、特征提取处理；

11、步骤22、对预处理后的数据进行特征提取，用于后续的融合：对于图像数据，使用卷积神经网络提取图像特征；对于点云数据，使用点云处理算法提取点云特征；对于车辆状态信息，提取自车与目标点的相对坐标(x,y)、车辆前进方向与目标点角度、速度、车长与车宽、油门、方向、刹车、车道id、车道宽度、车道曲率、与所处车道中心偏离、左车道id、右车道id、周围车辆数；提取周车与自车的相对(x，y)、周车的车长与车宽、周车所在的车道id以及周车的速度；

12、步骤23、将提取得到的不同模态的特征进行融合，构建全面的环境状态表示，融合方法采用加权求和或使用神经网络模型进行端到端的学习。

13、进一步的，所述步骤3的具体过程为：

14、步骤31、碰撞奖惩函数设计：在训练中，车辆碰撞信息通过车辆碰撞传感器进行采集，依据碰撞信息设计碰撞奖惩函数rcollision如下：

15、

16、其中，flagcollision是碰撞标志；如果碰撞标志为true，表示车辆发生碰撞，给予智能体值为-200的惩罚，如果碰撞标志为false，表示无碰撞情况，不给予奖惩；同时碰撞标志是每回合智能体训练终止条件之一，碰撞标志为true，则结束本回合训练；

17、步骤32、目标奖励函数设计：针对驾驶任务是否成功完成设计目标奖励函数：

18、

19、

20、其中，flagsuccess是到达任务场景终点标志位；如果智能体成功到达目标位置，则奖励值为正数，表示任务完成；如果智能体未能到达目标位置，则奖励值为零，表示未完成任务或失败；

21、步骤33、引导奖惩函数设计：引导奖惩函数rguidance将路径约束中的道路中心距离和航向偏角作为奖惩，包括道路中心距离奖惩函数rd和航向偏角奖惩函数rθ：

22、rguidance＝rd+rθ+rn；

23、道路中心距离奖惩函数rd对车辆的目标行驶位置进行引导：

24、

25、当道路中心距离dlat小于限制距离dlimit时，车辆距离车道中心越远，惩罚值越大；当道路中心距离dlat大于限制距离dlimit时，惩罚值恒为-1；

26、局部规划路径靠近奖惩函数rθ对车辆的目标行驶方向进行引导：

27、

28、其中，θerror为局部规划路径航向向量与当前智能体航向向量的偏差；

29、当航向偏角小于等于1°时，车辆向正确航向行驶，给予值为1的奖励；当航向偏角大于1°且在限制范围θlimit之内时，车辆偏离正确航向越多，所获得的奖励值越低；当航向偏角大于限制范围时，给予值为-1的惩罚；

30、目标引导函数rn对车辆进行引导，使车辆向目标点前进：

31、

32、假设当前道路中心点为wn，则dx2为车辆距离道路中心点wn+2的距离，dx3为车辆距离道路中心点wn+3的距离；

33、步骤34、速度奖惩函数设计：速度奖惩函数根据当前车速与目标速度之间的差异，引导车辆逐渐接近或者保持目标速度：

34、

35、其中，rv是速度奖惩值；α是超速奖惩系数，β是减速奖惩系数；vmin和vmax分别是目标速度区间的下限和上限；

36、如果当前车速v在目标速度区间内，即vmin≤v≤vmax，则给予值为10的奖励；如果当前车速v超出目标速度区间，即v<vmin或v>vmax，则根据车速偏离目标速度的程度给予相应的惩罚或奖励；

37、步骤35、车辆智能体总奖励r是碰撞奖惩、目标奖励、引导奖惩、速度奖惩的加权总和：

38、r＝β1rcollision+β2rtarget+β3rguiddnce+rv；

39、其中，β1是碰撞奖惩系数，β2是目标奖惩系数，β3是引导奖惩系数。

40、进一步的，所述步骤4的具体过程为：

41、步骤41、选择深度学习架构：以sac算法作为优化策略，sac算法根据当前状态和环境反馈，生成相应的行为策略，并根据奖励信号对策略进行优化；sac算法将actor和critic相结合，并引入熵最大化；sac算法的步骤如下：

42、使用actor生成动作，目标是最大化期望累积奖励，定义如下目标函数：

43、

44、其中，是期望值，表示对经验数据分布d(即状态-动作对的分布)进行期望，γ是折扣因子，r(s，a)是在状态s下选择动作a后获得的即时奖励，α是熵系数，是策略π的熵，πθ是参数化策略；

45、已知一个状态st，通过actor网络得到所有动作概率π(a|st)，根据概率采样得到动作at，将at输入到环境中得到st+1和rt，获得经验(st，at，st+1，rt)，放入到经验池中；

46、从经验池中采样出数据(st，at，st+1，rt)，进行网络参数ω的更新；将动作at的q(st，at)值作为st的预测价值估计，根据最优bellman方程得到作为st状态的真实价值估计为eπ[rt+γq(st+1，π(st+1))|st]，其中eπ是在策略π下作为st状态的价值期望值，rt是在时间步t获得的即时奖励；使用均方损失函数作为损失，对q critic网络进行训练，损失函数定义为：

47、

48、其中，eb是损失值的期望，θtarg是目标网络的参数；

49、从经验池中采样出数据(st，at，st+1，rt)，进行网络参数θ的更新；v critic网络输出的真实值为rt+γv(st+1)-αlogπ(a′t|st)，其中v(st+1)是在状态st+1下的价值估计，a′t是由策略π在状态st中采样得到的动作；根据真实值计算vcritic网络的损失：

50、

51、进行梯度下降训练的损失函数定义为td误差衡量算法修正幅度，采用计算td误差的形式对策略选择的动作at进行评估：

52、δt＝rt+γq(st+1，at+1)-q(st，at)；

53、其中，δt是时间步t的td误差，q是critic的状态价值；

54、步骤42、定义状态空间和动作空间：考虑自车和周车的位置、速度、加速度，状态空间表示为s＝(sego，ssurroundings)，状态空间中的语义分割图像表示为simage，状态空间中的点云表示为spoint，考虑当前车辆的目的地、路线信息，表示为stask＝(xgoal,route)；得到状态空间表示s＝(s，simage，spoint，stask)；

55、动作空间表示为a＝(a，θ)，其中a是车辆加速度，a∈[amin，amax]；θ是车辆转向角度，θ∈[-θmax，θmax]。

56、进一步的，所述步骤5的具体过程为：

57、轨迹规划器采用lattice planner，轨迹规划器预测未来一段时间内的轨迹点，通过预测的轨迹点计算出未来期望的动作大小，然后根据已有的采样点，将点与点之间连接起来构成横向轨迹，采用给定边界条件后根据五次多项式进行连接的方法，公式如下：

58、d(t)＝a5t5+a4t4+a3t3+a2t2+a1t+a0；

59、其中，ai(i＝1，2，...，5)为多项式的系数，t为时间；

60、引入补偿反馈机制，计算局部轨迹规划器预测的未来期望动作与实际行驶过程中车辆智能体输出的动作之间的差异，得到补偿值，补偿值的计算公式为δ＝λ×(at-an)；其中，δ表示补偿值，λ是补偿系数，at是未来期望的动作大小，an是当前网络输出的动作大小；

61、计算得到补偿值后，将补偿值作为损失信息返回给sac网络：

62、

63、与现有技术相比，本发明的有益效果是：

64、1、通过多模态数据的融合，本发明能够提供更全面、准确的环境感知，使智能车辆能够更好地理解周围环境，包括道路状况、车辆行驶状态等。

65、2、本发明利用深度强化学习模型，能够实现智能车辆的自主决策，相比传统的规则制定方法，具有更高的智能化水平和适应性，能够更好地适应不同的交通场景和复杂路况。

66、3、本发明采用强化学习算法，智能车辆能够通过不断的交互和学习，快速优化决策策略，逐步提升驾驶水平，更快地适应不同的驾驶环境和路况，提高驾驶的自主性和智能化水平。

67、4、本发明引入补偿反馈机制，使智能车辆能够及时调整决策策略，减少危险驾驶行为的发生，提高了智能车辆的应变能力和安全性。

技术特征：

1.一种带有补偿反馈的多模态强化学习车辆决策规划方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的带有补偿反馈的多模态强化学习车辆决策规划方法，其特征在于，所述步骤2的具体过程为：将来自不同传感器的数据进行整合和融合，包括点云、图像以及自车和周车状态信息，构建全面的环境状态表示；具体包括以下步骤：

3.根据权利要求1所述的带有补偿反馈的多模态强化学习车辆决策规划方法，其特征在于，所述步骤3的具体过程为：

4.根据权利要求1所述的带有补偿反馈的多模态强化学习车辆决策规划方法，其特征在于，所述步骤4的具体过程为：

5.根据权利要求1所述的带有补偿反馈的多模态强化学习车辆决策规划方法，其特征在于，所述步骤5的具体过程为：

技术总结
本发明适用于智能驾驶技术领域，提供了一种带有补偿反馈的多模态强化学习车辆决策规划方法，包括以下步骤：强化学习交互环境设计；环境状态的多模态融合；奖励函数设计；构建深度强化学习模型；设计局部轨迹规划器反馈机制。本发明结合了多模态学习和补偿反馈机制，旨在提高学习效率，同时确保决策的安全性和鲁棒性。通过该方法，即使在复杂的交通环境中，自动驾驶车辆也能够做出准确、高效的决策。

技术研发人员：赵海艳,徐成成,曹靖笛,陈虹
受保护的技术使用者：吉林大学
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-13520.html

专利

最新回复(0)