1.本发明涉及自动驾驶汽车控制技术领域,尤其是涉及一种考虑不确定性的自动驾驶汽车换道决策控制方法。
背景技术:2.决策规划是自动驾驶的关键部分之一,它首先融合多传感信息,然后根据驾驶需求进行任务决策,接着在能避开可能存在的障碍物前提下,通过一些特定的约束条件,规划出两点间多条可选安全路径和,并在这些路径中选取一条最优的路径作为车辆行驶轨迹。
3.目前,车辆的决策模块统筹汇集所需的信息,经过综合分析,以做出合理的驾驶决策,而车辆的规划模块则根据决策结果,输出安全舒适的车辆轨迹。现有研究中,比较有代表性的决策方法包括有限状态机、行为树、马尔科夫过程等等。然而,大多数决策方法对未来一段时间内由环境和自车状态动态变化引起的不确定性问题考虑的较少,并且大多决策方法也只是简单地输出行为指令,无法保证决策结果的合理性,甚至决策结果在时间上还会存在不连续的情况,这就给轨迹规划模块带来了求解困难的问题,容易导致车辆的安全性和舒适性不佳、用户体验感较差。
技术实现要素:4.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种考虑不确定性的自动驾驶汽车换道决策控制方法,通过考虑他车预测轨迹的不确定性,提高决策结果的可靠性,以增强驾驶车辆的舒适性及安全性。
5.本发明的目的可以通过以下技术方案来实现:一种考虑不确定性的自动驾驶汽车换道决策控制方法,包括以下步骤:
6.s1、基于感知到的自车状态及预测的他车状态,结合车辆动力学模型,构建状态空间及动作空间,并建立状态转移方程;
7.s2、分别建立自车的观测空间模型及信念空间模型、他车的观测空间模型及信念空间模型、他车预测轨迹的不确定性模型;
8.s3、设定奖励函数,结合步骤s1和s2构建得到pomdp(partially observable markov decision process,部分可观察马尔可夫决策过程)模型,求解出自车的决策状态点集;
9.s4、将自车的决策状态点集解耦为横向空间决策集及纵向时间决策集;
10.s5、确定横向可行驶边界,引入道路边界约束,车速约束及障碍物距离约束,划分出横向可行驶区域及参考路径;
11.确定纵向可行驶边界,引入道路边界约束,车速约束及障碍物距离约束,划分出纵向可行驶区域及参考速度曲线;
12.s6、根据步骤s5划分出的横向可行驶区域及参考路径、纵向可行驶区域及参考速度曲线,车辆规划模块输出相应车辆最优轨迹,使车辆按照最优轨迹行驶。
13.进一步地,所述步骤s1具体包括以下步骤:
14.s11、使用简化的车辆运动学模型,将车辆的运动简化为frenet坐标系中质点的运动,以构建自车的状态空间及动作空间;
15.s12、利用状态空间和动作空间,建立自车及他车的状态转移函数。
16.进一步地,所述步骤s11具体包括以下步骤:
17.s111、采集感知的自车的车辆位置、纵向速度、纵向加速度、侧向速度信息,构成自车的状态空间;
18.采集预测的他车的航向角、车辆位置、纵向速度、纵向加速度、侧向速度信息,结合车身长宽,构成他车的状态空间;
19.s112、设定离散的横向加速度序列及纵向加速度序列,以作为动作空间。
20.进一步地,所述步骤s12的具体过程为:假设自车和他车状态的演进过程是相互独立的,根据简化的车辆运动模型,得到自车的状态转移方程,他车的状态转移方程则由下一时刻不同状态的概率表达。
21.进一步地,所述步骤s2中观测空间模型的观测函数分为自车和他车,其中,自车观测函数由布尔值表示,若下一状态存在,则设置为1,否则设置为0;
22.他车的观测函数符合高斯分布;
23.所述步骤s2中他车预测轨迹的不确定性模型采用多元高斯分布构建。
24.进一步地,所述步骤s3具体包括以下步骤:
25.s31、设定奖励函数包括安全性奖励函数r
safe
、舒适性奖励函数r
comfort
及效率性奖励函数r
efficiency
,其中,安全性奖励函数r
safe
包括碰撞奖励函数r
colli
及距离奖励函数r
dis
;
26.舒适性奖励函数r
comfort
包括速度相关舒适性奖励函数r
speed
、侧向速度动作惩罚函数r
vlat
以及连续性指标r
continuity
;
27.效率性奖励函数r
efficiency
包括目标任务奖励函数r
lane
和目标速度函数r
v_tar
;
28.s32、基于构建的状态空间、动作空间、信念空间及奖励函数,采用确定性稀疏可观测树(determined sparse partially observable tree,despot)的方法,求解pomdp模型,得到自车的决策状态点集,其中,决策状态点集的内容包括自车的位置信息以及不同时刻的速度和加速度信息。
29.进一步地,所述步骤s31具体是根据碰撞发生的概率设计碰撞奖励函数r
colli
,即当碰撞概率超过设定阈值时,给予惩罚;
30.所述步骤s31具体是根据碰撞发生时间(ttc)模型设计距离奖励函数r
dis
,并设定最大安全距离的上下界限;
31.所述步骤s31中,速度相关舒适性奖励函数r
speed
的影响因素包括当前的纵向速度vlon
cur
、纵向加速度alon
cur
、侧向速度vlat
cur
以及下一时刻的纵向速度vlon
next
、纵向加速度alon
next
、侧向速度vlat
next
;
32.所述步骤s31中,侧向速度动作惩罚函数r
vlat
只与侧向速度有关;
33.所述步骤s31中,连续性指标r
continuity
与前后两次决策的位置变化量正相关,前后两次决策的位置变化量越大、则r
continuity
越大。
34.进一步地,所述步骤s4中横向空间决策集包括自车的位置信息;纵向时间决策集包括自车的速度及加速度信息。
35.进一步地,所述步骤s5中横向可行驶边界在选择时,横向可行驶边界的节点到障碍物的距离应大于安全距离,同时横向可行驶边界值不超过结构化道路的原始边界,并保持一个安全阈值的距离;
36.所述横向参考路径的建立过程具体为:
37.首先构建横向优化问题,设计横向成本函数对每个节点进行评价,取横向成本函数最小处的点作为最优解,其中,所述横向优化问题的约束为航向角在最小及最大车轮转角之间,所述横向优化问题的目标函数为横向成本函数,所述横向成本函数c
node-h
为第一距离成本cd,第一安全成本co及连续性成本cc的加权和;
38.通过计算从节点到目标状态点的距离,以作为第一距离成本;计算从节点到障碍物的距离,以作为第一安全成本;计算从前后节点之间的位置变化率,以作为连续性成本;结合对应的权重系数,计算得到横向成本函数;
39.最终取横向成本函数最小处的值,连线形成横向期望参考路径。
40.进一步地,所述步骤s5中纵向可行驶边界的确定原则为:纵向可行驶边界与障碍物车位置坐标重合;
41.纵向可行驶边界的约束条件为:纵向可行驶边界的s-t曲线不超过表示最高、最低的平均车速的s-t曲线;
42.所述纵向参考速度曲线的建立过程具体为:
43.首先构建纵向优化问题,设计纵向成本函数对每个节点进行评价,取纵向成本函数最小处的点作为最优解,其中,所述纵向成本函数c
node-z
为第二距离成本c
d-ref
,第二安全成本c
o-ref
及速度变化成本cv的加权和;
44.通过计算从节点到状态点连线的距离,以作为第二距离成本;计算节点到障碍物在s轴上的距离与距障碍物的距离阈值之差的平方,以作为第二安全成本;计算参考速度的变化率,以作为速度变化成本;结合对应的权重系数,计算得到纵向成本函数;
45.最终取纵向成本函数最小处的值,连线形成纵向期望参考速度曲线。
46.与现有技术相比,本发明充分考虑他车预测轨迹的不确定性,通过建立自车及他车的观测空间模型及信念空间模型、建立他车的预测轨迹的不确定性模型,再结合设定的奖励函数,基于pomdp模型求解得到自车的决策状态点集。由此使得决策出的自车状态点集更加稳定可靠,有利于增强驾驶车辆的舒适性及安全性,能够很好地适用于跟车、换道及自主超车等典型驾驶工况下的无人驾驶。
47.本发明在求解得到自车的决策状态点集后,将其解耦为横向空间决策集及纵向时间决策集,通过引入道路边界约束、车速约束及障碍物距离约束,分别划分出横向可行驶区域及参考路径、划分出纵向可行驶区域及参考速度曲线,能够进一步保证决策结果的可靠性。
附图说明
48.图1为本发明的方法流程示意图;
49.图2为实施例中换道决策过程示意图;
50.图3为实施例中他车预测轨迹的不确定性示意图;
51.图4为实施例中横向搜索确定横向可行驶边界的示意图;
52.图5为实施例中横向可行驶区域及横向期望参考路径图;
53.图6为实施例中纵向可行驶区域及纵向期望参考速度曲线图。
具体实施方式
54.下面结合附图和具体实施例对本发明进行详细说明。
55.实施例
56.如图1所示,一种考虑不确定性的自动驾驶汽车换道决策控制方法,包括以下步骤:
57.s1、基于感知到的自车状态及预测的他车状态,结合车辆动力学模型,构建状态空间及动作空间,并建立状态转移方程;
58.s2、分别建立自车的观测空间模型及信念空间模型、他车的观测空间模型及信念空间模型、他车预测轨迹的不确定性模型;
59.s3、设定奖励函数,结合步骤s1和s2构建得到pomdp模型,求解出自车的决策状态点集;
60.s4、将自车的决策状态点集解耦为横向空间决策集及纵向时间决策集;
61.s5、确定横向可行驶边界,引入道路边界约束,车速约束及障碍物距离约束,划分出横向可行驶区域及参考路径;
62.确定纵向可行驶边界,引入道路边界约束,车速约束及障碍物距离约束,划分出纵向可行驶区域及参考速度曲线;
63.s6、根据步骤s5划分出的横向可行驶区域及参考路径、纵向可行驶区域及参考速度曲线,车辆规划模块输出相应车辆最优轨迹,使车辆按照最优轨迹行驶。
64.本实施例应用上述技术方案,其换道决策过程如图2所示,包括:
65.1、基于感知到的自车状态及预测的他车状态,依据简化的车辆动力学模型,构建状态空间及动作空间,并建立状态转移方程;
66.具体有:
67.11)使用简化的车辆运动学模型,仅将车辆的运动简化为frenet坐标系中质点的运动,构建自车的状态空间及动作空间;
68.111)状态空间表达式为:
69.s=[state
ego
,state1,state2,...,staten]
[0070][0071]
[0072]
其中,state
ego
为自车的状态空间,time为时间标志,(s
ego
,l
ego
)为自车的位置,vlon
ego
为自车纵向速度,acc
ego
为自车纵向加速度,vlat
ego
为自车侧向速度信息;
[0073]
staten为他车n的状态空间,(length,width)为他车n的车身长宽,θ为预测的他车的航向角,(s,l)为他车的位置,vn为他车的速度信息;
[0074]
112)设定离散的横向加速度序列及纵向加速度序列,以作为动作空间:
[0075]
a=[acc
lon
,vel
lat
]
[0076]
vel
vlat
={-2.0,-1.5,-1.0,-0.5,0.0,0.5,1.0,1.5,2.0}
[0077]
acc
lon
={-3.0,-2.5,-2.0,-1.5,-1.0,-0.5,0.0,0.5,1.0,1.5,2.0}
[0078]
其中,vel
vlat
为横向加速度序列;acc
lon
为纵向加速度序列;
[0079]
12)利用状态空间和动作空间,建立自车及他车的状态转移函数;
[0080]
具体建立的过程如下:
[0081]
121)假设自车和他车状态的演进过程是相互独立的,依据简化的车辆运动模型得到自车的状态转移方程,他车的状态转移方程由下一时刻不同状态的概率表达;
[0082]
自车状态转移方程计算式为:
[0083][0084]
他车状态转移方程计算式为:
[0085][0086]
2、建立自车及他车的观测空间模型及信念空间模型,建立他车的预测轨迹的不确定性模型,其中,观测空间包含的是智能车环境感知定位系统能够观察到的信息,包括自车的位置、速度、航向角信息以及他车的位置、速度、航向角信息;
[0087]
具体步骤如下:
[0088]
21)所述的自车的状态完全可观,他车的观测函数包含坐标及航向角,符合高斯分布;
[0089]
建立观测空间的观测函数,自车观测函数由布尔值表示,若下一状态存在、设置为1,否则为0:
[0090]
自车的观测函数为:
[0091][0092]
他车的观测函数符合高斯分布,计算式为:
[0093][0094]
其中μ
s,l,θ
表示观测值,σ
s,l,θ
表示方差;
[0095]
通过观测模型计算位姿不确定性的过程为:
[0096]
22)采用多元高斯分构建他车自车位姿的不确定性模型;
[0097]
他车自车位姿的不确定性计算式为:
[0098][0099]
其中,φ为状态转移矩阵,m表示状态转移过程中的噪声,z是噪声的协方差,σ是系统的协方差矩阵,x为状态量,表达方式为:
[0100][0101]
通过不确定性建模,得到他车预测轨迹点上各状态量的高斯分布协方差如图3所示;
[0102]
3、设定奖励函数,基于pomdp模型求解自车的决策状态点集;
[0103]
31)设定奖励函数包括的内容:安全性指标r
safe
、舒适性指标r
comfort
及效率性指标r
efficiency
;
[0104]
32)设计安全性指标的奖励函数:考虑碰撞奖励函数r
colli
及距离奖励函数r
dis
,具体计算式为:
[0105]rsafe
=r
colli
+r
dis
[0106]
33)依据碰撞发生的概率设计碰撞奖励函数r
colli
,当碰撞概率超过阈值时给予惩罚,具体的,碰撞奖励函数求解如下:
[0107][0108]
其中,w
colli
=100是权重值,p
safe
是安全阈值;
[0109]
依据碰撞发生时间(ttc)模型设计前车距离的奖励函数r
dis
,设定最大安全距离的上下界限,具体的,与前车距离的奖励函数计算如下:
[0110][0111]
其中,d
max
、d
min
分别为自车与其他车辆的最大安全距离、最小安全距离,w
dis
=20为距离奖励的权重值;
[0112]
34)设计舒适性奖励函数:考虑速度相关舒适性奖励函数r
speed
,侧向速度动作惩罚函数r
vlat
及连续性指标为r
continuity
,舒适性奖励函数写作:
[0113]rcomfort
=r
speed
+r
vlat
+r
continuity
[0114]
其中,速度相关舒适性奖励函数r
speed
求解公式为:
[0115][0116]
当前纵向速度为vlon
cur
,当前纵向加速度为alon
cur
,当前侧向速度为vlat
cur
,下一时刻的纵向速度为vlon
next
,下一时刻的纵向加速度为alon
next
,下一时刻的侧向速度为vlat
next
,w
speed
=15为速度的权重系数;
[0117]
侧向速度动作惩罚函数计算式为:
[0118]rvlat
=-vlat2×wvlat
[0119]
其中,w
vlat
=12为侧向速度的权重系数;
[0120]
结果的连续性指标计算式为:
[0121][0122]
其中,t代表决策结果每一步的时间;m、n分别代表前、后决策结果的步长总数,(s
last_loop,t
,l
last_loop,t
)和(s
cur_loop,t
,l
cur_loop,t
)分别为上一次和当前决策结果的位置信息,w
con
=12为连续性指标的权重系数;
[0123]
35)设计效率性奖励函数r
efficiency
:考虑目标任务奖励函数r
lane
和目标速度函数r
v_tar
,效率性奖励函数写作:
[0124]refficiency
=r
lane
+r
v_tar
[0125]
其中,目标任务奖励函数为r
lane
=-|l
lane-l
ego
|
×wlane
;
[0126]
目标速度函数为r
v_tar
=-|v
tar-v
ego
|
×wv_tar
;
[0127]wv_tar
=12为目标速度的权重系数;
[0128]
36)求解决策动作序列,将决策分为横向空间决策集合纵向空间决策集,具体是采用确定性稀疏可观测树的方法求解pomdp模型,得到包括自车位置信息及不同时刻速度和加速度信息的自车决策状态点集;
[0129]
4、将决策状态点集解耦为横向空间决策集及纵向时间决策集,其中横向空间决策集包括每个时刻的自车的位置信息;纵向时间决策集包括自车每个时刻的速度及加速度信息;
[0130]
5、确定横向可行驶边界,引入道路边界约束,车速约束及障碍物距离约束,划分出横向可行驶区域及参考路径;
[0131]
在进行横向可行驶边界的选择时,边界的节点到障碍物的距离应大于安全距离,具体表达式为:
[0132][0133]
其中,d
obs
为当前节点离障碍物的距离,当其小于一定的安全距离时,该节点被视为不安全,lk为节点侧向坐标,应满足l
min
≤lk≤l
max
;
[0134]
同时还应满足可行驶边界值不超过结构化道路的原始边界的边界值l
min
与l
max
,并保持一个安全阈值d
safe
的距离:
[0135][0136]
解算后得到的横向可行驶区域如图4所示;
[0137]
在横向可行驶区域中建立横向优化模型,得到横向参考路径,具体为:
[0138]
构建横向优化问题,设计横向成本函数对每个节点进行评价,横向成本函数最小处的点为最优;
[0139]
约束为航向角约束:
[0140][0141]
其中,θ'
min
、θ'
max
分别为车辆运动航向角变化的最小值和最大值;
[0142]
横向成本函数作为目标函数,表达式为:
[0143]cnode-h
=w
dcd
+w
oco
+wccc[0144]
其中,cd为节点第一距离成本,co为第一安全成本,cc为连续性成本,对应的权重函数分别为wd=0.35,wo=0.45,wc=0.2;
[0145]
第一距离成本函数cd表达式为:
[0146][0147]
其中,(s
state
,l
state
)是目标状态点的位置,(sk,lk)是扩展节点的位置;
[0148]
第一安全成本函数co表达式为:
[0149][0150]
其中,d
obs
代表节点离最近的障碍物的距离,d
max
代表离障碍物的距离阈值;
[0151]
代表连续性的成本函数cc表达式为:
[0152][0153]
其中,li,l
i+1
,l
i+2
为前后三个节点的侧向位置;
[0154]
最终取横向成本函数最小处的值连线形成横向期望参考路径;
[0155]
本实施例中形成的横向期望参考路径在图5中采用空心圆点表示;
[0156]
6、确定纵向可行驶边界,引入道路边界约束,车速约束及障碍物距离约束,划分出纵向可行驶区域及参考速度曲线;
[0157]
纵向可行驶边界的确定方法具体为:
[0158]
保证s轴方向上的边界s
border
满足式:
[0159][0160]sborder
约束条件为:s
min_t
≤s
border
≤s
max_t
,其中,s
max_t
和s
min_t
分别为平均速度的上下边界;
[0161]
纵向参考速度曲线的建立方法具体为:
[0162]
构建纵向优化问题,设计纵向成本函数对每个节点进行评价,纵向成本函数最小处的点为最优;纵向成本函数计算式为:
[0163]cnode-z
=w
d-refcd-ref
+w
o-refco-ref
+w
vcv
[0164]
其中,c
d-ref
为从节点到状态点连线的第二距离成本,c
o-ref
为节点的第二安全成本,cv为速度的变化成本,对应的权重系数分别为w
d-ref
=0.4,w
o-ref
=0.4,wv=0.2。
[0165]
第二距离成本函数为:
[0166]cd-ref
=(s
i-s
ref
)2[0167]
其中,s
ref
是两状态点连线上节点的位置;
[0168]
第二安全成本函数为:
[0169][0170]
其中,s
obs
代表节点离最近的障碍物沿s轴的距离,s
max
代表离障碍物的距离阈值;
[0171]
速度变化的成本函数为:
[0172][0173]
最终取纵向成本函数最小处的值连线形成纵向期望参考速度曲线。
[0174]
本实施例中形成的纵向参考速度曲线如图6所示。
[0175]
综上所述,本技术方案考虑了自车与交通参与者的行为交互特性和他车预测轨迹的不确定性,决策过程稳定性更强,决策出的自车状态点集更加合理可靠,有利于后续车辆规划模块准确快速进行求解,从而有效增强车辆驾驶的舒适性及安全性。
技术特征:1.一种考虑不确定性的自动驾驶汽车换道决策控制方法,其特征在于,包括以下步骤:s1、基于感知到的自车状态及预测的他车状态,结合车辆动力学模型,构建状态空间及动作空间,并建立状态转移方程;s2、分别建立自车的观测空间模型及信念空间模型、他车的观测空间模型及信念空间模型、他车预测轨迹的不确定性模型;s3、设定奖励函数,结合步骤s1和s2构建得到pomdp模型,求解出自车的决策状态点集;s4、将自车的决策状态点集解耦为横向空间决策集及纵向时间决策集;s5、确定横向可行驶边界,引入道路边界约束,车速约束及障碍物距离约束,划分出横向可行驶区域及参考路径;确定纵向可行驶边界,引入道路边界约束,车速约束及障碍物距离约束,划分出纵向可行驶区域及参考速度曲线;s6、根据步骤s5划分出的横向可行驶区域及参考路径、纵向可行驶区域及参考速度曲线,车辆规划模块输出相应车辆最优轨迹,使车辆按照最优轨迹行驶。2.根据权利要求1所述的一种考虑不确定性的自动驾驶汽车换道决策控制方法,其特征在于,所述步骤s1具体包括以下步骤:s11、使用简化的车辆运动学模型,将车辆的运动简化为frenet坐标系中质点的运动,以构建自车的状态空间及动作空间;s12、利用状态空间和动作空间,建立自车及他车的状态转移函数。3.根据权利要求2所述的一种考虑不确定性的自动驾驶汽车换道决策控制方法,其特征在于,所述步骤s11具体包括以下步骤:s111、采集感知的自车的车辆位置、纵向速度、纵向加速度、侧向速度信息,构成自车的状态空间;采集预测的他车的航向角、车辆位置、纵向速度、纵向加速度、侧向速度信息,结合车身长宽,构成他车的状态空间;s112、设定离散的横向加速度序列及纵向加速度序列,以作为动作空间。4.根据权利要求2所述的一种考虑不确定性的自动驾驶汽车换道决策控制方法,其特征在于,所述步骤s12的具体过程为:假设自车和他车状态的演进过程是相互独立的,根据简化的车辆运动模型,得到自车的状态转移方程,他车的状态转移方程则由下一时刻不同状态的概率表达。5.根据权利要求1所述的一种考虑不确定性的自动驾驶汽车换道决策控制方法,其特征在于,所述步骤s2中观测空间模型的观测函数分为自车和他车,其中,自车观测函数由布尔值表示,若下一状态存在,则设置为1,否则设置为0;他车的观测函数符合高斯分布;所述步骤s2中他车预测轨迹的不确定性模型采用多元高斯分布构建。6.根据权利要求1所述的一种考虑不确定性的自动驾驶汽车换道决策控制方法,其特征在于,所述步骤s3具体包括以下步骤:s31、设定奖励函数包括安全性奖励函数r
safe
、舒适性奖励函数r
comfort
及效率性奖励函数r
efficiency
,其中,安全性奖励函数r
safe
包括碰撞奖励函数r
colli
及距离奖励函数r
dis
;舒适性奖励函数r
comfort
包括速度相关舒适性奖励函数r
speed
、侧向速度动作惩罚函数
r
vlat
以及连续性指标r
continuity
;效率性奖励函数r
efficiency
包括目标任务奖励函数r
lane
和目标速度函数r
v_tar
;s32、基于构建的状态空间、动作空间、信念空间及奖励函数,采用确定性稀疏可观测树的方法,求解pomdp模型,得到自车的决策状态点集,其中,决策状态点集的内容包括自车的位置信息以及不同时刻的速度和加速度信息。7.根据权利要求6所述的一种考虑不确定性的自动驾驶汽车换道决策控制方法,其特征在于,所述步骤s31具体是根据碰撞发生的概率设计碰撞奖励函数r
colli
,即当碰撞概率超过设定阈值时,给予惩罚;所述步骤s31具体是根据碰撞发生时间ttc模型设计距离奖励函数r
dis
,并设定最大安全距离的上下界限;所述步骤s31中,速度相关舒适性奖励函数r
speed
的影响因素包括当前的纵向速度vlon
cur
、纵向加速度alon
cur
、侧向速度vlat
cur
以及下一时刻的纵向速度vlon
next
、纵向加速度alon
next
、侧向速度vlat
next
;所述步骤s31中,侧向速度动作惩罚函数r
vlat
只与侧向速度有关;所述步骤s31中,连续性指标r
continuity
与前后两次决策的位置变化量正相关,前后两次决策的位置变化量越大、则r
continuity
越大。8.根据权利要求6所述的一种考虑不确定性的自动驾驶汽车换道决策控制方法,其特征在于,所述步骤s4中横向空间决策集包括自车的位置信息;纵向时间决策集包括自车的速度及加速度信息。9.根据权利要求1所述的一种考虑不确定性的自动驾驶汽车换道决策控制方法,其特征在于,所述步骤s5中横向可行驶边界在选择时,横向可行驶边界的节点到障碍物的距离应大于安全距离,同时横向可行驶边界值不超过结构化道路的原始边界,并保持一个安全阈值的距离;所述横向参考路径的建立过程具体为:首先构建横向优化问题,设计横向成本函数对每个节点进行评价,取横向成本函数最小处的点作为最优解,其中,所述横向优化问题的约束为航向角在最小及最大车轮转角之间,所述横向优化问题的目标函数为横向成本函数,所述横向成本函数c
node-h
为第一距离成本c
d
,第一安全成本c
o
及连续性成本c
c
的加权和;通过计算从节点到目标状态点的距离,以作为第一距离成本;计算从节点到障碍物的距离,以作为第一安全成本;计算从前后节点之间的位置变化率,以作为连续性成本;结合对应的权重系数,计算得到横向成本函数;最终取横向成本函数最小处的值,连线形成横向期望参考路径。10.根据权利要求9所述的一种考虑不确定性的自动驾驶汽车换道决策控制方法,其特征在于,所述步骤s5中纵向可行驶边界的确定原则为:纵向可行驶边界与障碍物车位置坐标重合;纵向可行驶边界的约束条件为:纵向可行驶边界的s-t曲线不超过表示最高、最低的平均车速的s-t曲线;所述纵向参考速度曲线的建立过程具体为:首先构建纵向优化问题,设计纵向成本函数对每个节点进行评价,取纵向成本函数最
小处的点作为最优解,其中,所述纵向成本函数c
node-z
为第二距离成本c
d-ref
,第二安全成本c
o-ref
及速度变化成本c
v
的加权和;通过计算从节点到状态点连线的距离,以作为第二距离成本;计算节点到障碍物在s轴上的距离与距障碍物的距离阈值之差的平方,以作为第二安全成本;计算参考速度的变化率,以作为速度变化成本;结合对应的权重系数,计算得到纵向成本函数;最终取纵向成本函数最小处的值,连线形成纵向期望参考速度曲线。
技术总结本发明涉及一种考虑不确定性的自动驾驶汽车换道决策控制方法,包括:构建状态空间及动作空间,建立状态转移方程;建立自车、他车的观测空间模型及信念空间模型、他车预测轨迹的不确定性模型;设定奖励函数,结合POMDP模型,求解自车的决策状态点集、并解耦为横向空间决策集及纵向时间决策集;分别确定横向、纵向可行驶边界,引入道路边界约束,车速约束及障碍物距离约束,划分出横向可行驶区域及参考路径、纵向可行驶区域及参考速度曲线;根据决策结果,车辆规划模块输出相应车辆最优轨迹,使车辆按照最优轨迹行驶。与现有技术相比,本发明充分考虑他车预测轨迹的不确定性,决策出的自车状态点集更加稳定可靠,能有效增强车辆驾驶的舒适性及安全性。驶的舒适性及安全性。驶的舒适性及安全性。
技术研发人员:熊璐 李拙人 杨若霖 付志强 肖宏宇 冷搏
受保护的技术使用者:同济大学
技术研发日:2022.07.21
技术公布日:2022/11/1