用于优化自动驾驶车辆运动规划器的系统和方法与流程

专利2026-03-07  14


本发明涉及寻找改进的超参数以用于自动驾驶车辆运动规划器,尤其是使用贝叶斯优化和/或进化算法等机器学习方法。


背景技术:

1、可靠的自动驾驶车辆(autonomous driving vehicle,adv)的目标是为控制车辆的运动做出实际且安全的决策,不管有没有实时用户输入。这些决策由adv中的运动规划器控制。然而,最优的运动规划器的设计目的是为汽车的所有运动输出类人决策。因此,一个设计良好的运动规划器在设计时不仅应考虑避免道路使用者、障碍物和行人碰撞等硬约束,还要使该运动规划器的输出模仿人类的驾驶方式。然而,以这种方式实现运动规划器并非易事。

2、第一个难题是为运动规划器设计一个合适的架构,该运动规划器能够吸收从adv周围环境中获取的大量信息,并处理这些信息以生成合适的运动规划决策。第二个难题是设计了运动规划器架构后如何训练和/或运行运动规划器,使得运动规划器最有效地利用输入信息来生成准确的决策。

3、本发明大体上涉及第二个难题。本领域中已知运动规划器使用权重或超参数,这些权重或超参数影响运动规划器对来自周围环境的信息的处理方式。然而,由于超参数和运动输出之间的关系非常复杂,通常是不可知的,因此为运动规划器选择或设计最佳超参数集具有困难。因此,对于给定的大多数运动规划器,通常无法通过分析确定“最佳”超参数集。例如,运动规划器通常利用成百上千的超参数,这些超参数的值可以是整数、连续变量、分类变量、布尔值等。此外,运动规划器算法通常很复杂,并且在训练期间重复运行的计算成本高昂。因此,即使具有优质的人类标记的决策集来确定最优超参数,如何选择用于部署运动规划器的最佳超参数这一任务仍然具有挑战性。

4、此外,很难选择能够泛化到新位置中的超参数集。换句话说,所选超参数不应“过拟合”,即,所选超参数应在各种地点和场景中产生准确和安全的决策,而不仅仅是针对训练运动规划器的数据中使用的地点/场景类型。

5、由于具有这些困难,运动规划器超参数通常需要由人类进行调节。然而,改善自动驾驶车辆性能的几种相关方法在本领域中是已知的。

6、在us2020/0150671中公开了一种系统,该系统基于利用反向强化学习的奖励函数生成轨迹并对轨迹进行评分。然后,选择奖励最高的轨迹来控制adv。然而,在选择“最佳”轨迹之前,需要确定多个不同的轨迹。这个发明并未直接公开调节运动规划器的参数。

7、在wo 2020/056331 a1中公开了一种用于收集训练数据的系统,其中,训练数据从真实的adv中收集,并且使用神经网络分类器来确定训练数据是否具有足够好的质量。这个发明并未公开如何训练超参数,也未公开使用在本质上被视为是正确的人类标记的决策数据。

8、在cn 105946858a中公开了一种遗传算法,该遗传算法调整用于预测重要属性(例如,估计用于下游控制方法的纵向轮胎力)的估计模型的参数。这个发明并未公开调节采样器的参数,该采样器基于成本最低的轨迹对要选择的轨迹进行加权。

9、在cn108216250a中公开了一种系统,该系统用于使用机器学习模型来调整参数,基于乘客的即时反馈自适应地改变adv参数。因此,这个发明涉及部署期间和部署之后对参数的实时调整,并未公开adv部署之前对所有超参数的调节和选择。

10、在“acm siggraph 2019中发布的使用可微分代理的黑盒图像处理中的超参数优化(hyperparameter optimization in black-box image processing usingdifferentiable proxies)”中,公开了adv系统的图像处理组件的优化。因此,这涉及对输入信息的处理的优化,但是并未公开对用于车辆控制的不同轨迹进行加权的系统的优化,其中图像处理组件保持不变。

11、在“cat车辆2020年技术报告中的在单目深度估计中使用网格搜索进行超参数优化(hyperparameter optimization using grid search for use in monocular depthestimation),2020”中,公开了深度估计模型的超参数调节。因此,这涉及特定超参数子集的调节,但并未公开运动规划系统的所有超参数的一般调节。

12、“使用深度集合进行简单可扩展预测不确定性估计(simple and scalablepredictive uncertainty estimation using deep ensembles)——nips2017”公开了量化深度神经网络中的预测不确定性的方法。

13、在“超带宽:一种基于老虎机的诺贝尔超参数优化方法(hyperband:anovelbandit based approach to hyper parameter optimization)——jmlr 2018:聚焦不同问题”中,公开了大型机器学习模型的多保真度超参数优化,其中训练过程可以暂时停止以修改参数。

14、为adv运动规划器选择优化的超参数的高效方案是有利的,其中该优化的超参数优于当前部署的人类选择的次优超参数。提供可泛化到未知位置和场景中的超参数也是有利的。


技术实现思路

1、根据第一方面,提供了一种装置,所述装置用于确定改进的超参数以用于自动驾驶车辆运动规划器,所述装置包括一个或多个处理器和存储器,其中所述存储器以非瞬时形式存储数据,所述数据定义了可由所述一个或多个处理器执行的程序代码,以确定所述改进的超参数。所述装置用于:接收包括至少一个数据对的数据,其中每个数据对包括超参数集和效用分数,所述效用分数定义了所述超参数集产生的运动规划器结果的效用;基于所述至少一个数据对提供模型,其中所述模型定义了所述超参数集与对应效用分数之间的关系;使用引导目标生成至少一个超参数试验集,其中所述引导目标用于根据所述模型评估超参数试验集的质量;根据所述超参数试验集和预定义行程数据确定所述运动规划器的试验结果;确定所述超参数试验集的新效用分数,其中所述新效用分数是根据所述试验结果与和所述预定义行程数据相关联的真值结果数据的比较确定的;生成新数据对,其中所述新数据对包括所述超参数试验集和所述新效用分数。

2、有利的是,通过基于现有超参数数据(例如,在当前部署的自动驾驶车辆中使用的超参数)构建模型,并且通过根据真值结果数据(例如,人类标记的决策)计算试验超参数的新效用分数,可以生成新超参数集,所述新超参数集优于当前超参数,另外还能够运行运动规划器使其产生与人类驾驶方式一致的实际结果。这有益于将自动驾驶车辆(autonomousdriving vehicle,adv)安全地集成到真实世界的交通环境中。此外,通过基于根据预定义行程数据(优选地,所述预定义行程数据是从真实道路获取的真实驾驶数据,并且优选地还包含各种环境)进行评分的模型生成试验超参数,可以有利地将改进的超参数应用于不一定构成预定义行程数据一部分的新的、未知的场景。

3、在一些实现方式中,所述模型可以是概率代理函数,所述引导目标用于通过以下方式生成所述至少一个超参数试验集:将所述概率代理函数拟合到所述至少一个数据对中的一个或多个数据对;根据对所述概率代理函数的采样,搜索超参数输入域空间。有利的是,概率代理模型能够高效地引导对试验超参数的搜索,因为这种代理模型运行所消耗的时间通常比静态或动态运动规划器要少得多。此外,概率代理函数能够通过确定新数据点(例如,超参数集)的预测不确定性来引导对试验超参数的搜索。

4、在一些实现方式中,所述概率代理函数可以是高斯过程模型,而在其它实现方式中,所述概率代理函数可以是由多个神经网络组合形成的高斯混合模型。高斯过程的优点是非常灵活,甚至适用于运动规划器等复杂的函数。此外,高斯过程可以很容易地仅基于一个数据对进行初始化,并用于在后续迭代中生成更多的数据对。由多个神经网络组合形成的高斯混合模型(gaussian mixture model,gmm)提供了一个优点,即,即使是非常嘈杂和/或复杂的函数也可以进行建模,即,这样可以对代理函数进行有效的探索和利用。

5、在一些实现方式中,所述超参数输入域空间的所述搜索由采集函数引导,其中所述采集函数用于至少部分地基于所述超参数试验集产生的所述代理函数的值的预测不确定性来计算所述超参数试验集的所述质量。这样做的好处是,超参数试验集的感知值(即,由模型计算的感知值)可以与该值的预测不确定性相抵消。因此,采集函数具有可调节性的优点,例如,可以确定有效探索和利用之间的权衡,从而可以确定代理函数的全局极大值或全局极小值。

6、在一些实现方式中,所述采集函数包括以下函数中的一个或多个函数:预期效用函数、改进概率函数和置信上限函数。这些函数可以很容易地单独使用或结合使用,而且在装置执行的整个过程中很容易交换或互换。

7、在某些实现方式中,所述超参数输入域空间的所述搜索由进化算法引导。例如,使用采集函数搜索超参数试验集本身可以由进化算法引导。在其它示例中,基于梯度的方法可以用于使用采集函数来引导对试验超参数的搜索。

8、在一些实现方式中,所述模型是所述运动规划器,所述引导目标用于使用进化算法生成所述至少一个超参数试验集,以通过评估一个或多个新超参数集的效用分数随机确定新数据对。换句话说,所述模型可以是运动规划器本身(优选地,是静态运动规划器),而不是运动规划器的代理函数或近似值。具体地,一些示例可以采用直接对运动规划器进行采样,例如,当运动规划器的计算成本不是很高时。所述模型是运动规划器的实施例具有一个优点,即由于运动并不近似计算超参数和对应的效用分数之间的关系,而是直接计算所述关系,因此,由所述模型和/或引导目标确定的试验超参数的质量是准确的。因此,通过直接查询运动规划器,进化算法可以高效地收敛于改进的超参数。

9、在一些实现方式中,所述试验结果是车辆轨迹,其中所述车辆轨迹包括与至少一种类型的车辆运动动作相对应的多个车辆运动决策。例如,车辆运动动作可以是加速或制动等速度变化、转向或变道等横向规划决策、指示等。

10、在一些实现方式中,所述效用分数表示所述试验结果与所述真值结果数据相比的准确性,其中所述真值结果数据包括人类标记的车辆运动决策。有利的是,使用人类标记的决策使得过程能够提供试验超参数,当用于运行运动规划器时,所述试验超参数提供更实际的驾驶决策(例如,模仿人类决策的决策)。因此,人类标记的决策具有一个好处,即更有可能找到优于当前部署的超参数的超参数。

11、在一些实现方式中,所述效用分数是根据目标函数计算的,其中所述目标函数奖励所述试验结果中的正确决策和/或惩罚所述试验结果中不正确的并且先前基于所述接收到的数据中的初始超参数输入集正确地确定了的决策。发明人发现,如果超参数集产生不正确的决策,而当前部署的超参数能正确地判定这些决策,则对这些超参数集进行重罚是有益的。在效用分数计算中提供该指标有助于鼓励生成改进的超参数,并阻止返回性能不佳的试验超参数。换句话说,以这种方式确定的效用分数具有一个优点,即生成的试验超参数应至少与所述接收到的数据中的超参数一样好。

12、在一些实现方式中,所述预定义行程数据包括多个行程,所述装置还用于:使用所述超参数试验集确定多个试验结果,每个行程一个试验结果;基于所述多个试验结果确定所述效用分数。例如,预定义行程数据可以包含来自在不同城市和不同交通条件与驾驶环境下进行的真实行程的数据。使用包括多个行程的预定义行程数据具有一个优点,即生成的超参数能够很好地泛化到未知环境中。

13、在一些实现方式中,所述装置用于使用静态模拟器确定所述运动规划器的所述试验结果。静态模拟器仍然可以提供实际的试验结果,但运行效率比动态模拟器更高。

14、在一些实现方式中,所述装置还用于迭代所述生成至少一个超参数试验集和确定新效用分数的步骤,所述接收到的数据包括先前生成的新数据对。通过这种方式,所述装置用于建立在数据之上,使得后续迭代可以产生更有价值的超参数试验集。有利的是,由于接收到的数据包含更多作为模型基础的信息,因此,所述模型可以在后续迭代之后产生更高质量的试验超参数。进一步有利的是,可以理解,接收到的数据中的超参数集的质量与生成优质超参数无关,因为每个超参数集都有一个相关分数指示每个超参数集的好坏。因此,所述模型本质上在所述关系中对如何确定良好的试验超参数以及如何避免生成质量较差的试验超参数进行了编码。

15、根据本发明的另一方面,提供了一种方法,所述方法用于确定改进的超参数以用于自动驾驶车辆运动规划器。所述方法包括:接收包括至少一个数据对的数据,其中每个数据对包括超参数集和效用分数,所述效用分数定义了所述超参数集产生的运动规划器结果的效用;基于所述至少一个数据对提供模型,其中所述模型定义了所述超参数集与对应效用分数之间的关系;使用引导目标生成至少一个超参数试验集,其中所述引导目标用于根据所述模型评估超参数试验集的质量;基于所述超参数试验集和预定义行程数据确定所述运动规划器的试验结果;确定所述超参数试验集的新效用分数,其中所述新效用分数是根据所述试验结果与所述预定义行程数据的真值结果数据的比较确定的;生成新数据对,其中所述新数据对包括所述超参数试验集和所述新效用分数。


技术特征:

1.一种装置(300、400、900),其特征在于,所述装置(300、400、900)用于确定改进的超参数(402)以用于自动驾驶车辆运动规划器(202),所述装置包括一个或多个处理器(902)和存储器(904),其中所述存储器(904)以非瞬时形式存储数据,所述数据定义了可由所述一个或多个处理器执行的程序代码,以确定所述改进的超参数(402),所述装置用于:

2.根据权利要求1所述的装置,其特征在于,所述模型是概率代理函数(304),所述引导目标用于通过以下方式生成所述至少一个超参数试验集:

3.根据权利要求2所述的装置,其特征在于,所述概率代理函数是高斯过程模型(600)。

4.根据权利要求2所述的装置,其特征在于,所述概率代理函数是由多个神经网络组合形成的高斯混合模型(602)。

5.根据权利要求2至4中任一项所述的装置,其特征在于,所述超参数输入域空间的所述搜索由采集函数(504)引导,其中所述采集函数(504)用于至少部分地基于超参数试验集产生的所述代理函数的值的预测不确定性来计算超参数试验集(402)的所述质量。

6.根据权利要求5所述的装置,其特征在于,所述采集函数(504)包括以下函数中的一个或多个函数:预期效用函数、改进概率函数和置信上限函数。

7.根据权利要求2至4中任一项所述的装置,其特征在于,所述超参数输入域空间的所述搜索由进化算法(700)引导。

8.根据权利要求1所述的装置,其特征在于,所述模型(304)是所述运动规划器(202),所述引导目标用于使用进化算法(700)生成所述至少一个超参数试验集(402),以通过评估一个或多个新超参数集的效用分数随机确定新数据对(306i)。

9.根据上述权利要求中任一项所述的装置,其特征在于,所述试验结果是车辆轨迹(404),其中所述车辆轨迹(404)包括与至少一种类型的车辆运动动作相对应的多个车辆运动决策。

10.根据上述权利要求中任一项所述的装置,其特征在于,所述效用分数表示所述试验结果与所述真值结果数据(408)相比的准确性,其中所述真值结果数据包括人类标记的车辆运动决策。

11.根据权利要求10所述的装置,其特征在于,所述效用分数是根据目标函数计算的,其中所述目标函数奖励所述试验结果中的正确决策和/或惩罚所述试验结果中不正确的并且先前基于所述接收到的数据中的初始超参数输入集正确地确定了的决策。

12.根据上述权利要求中任一项所述的装置,其特征在于,所述预定义行程数据包括多个行程(802),所述装置还用于:

13.根据上述权利要求中任一项所述的装置,其特征在于,所述装置用于使用静态模拟器(202)确定所述运动规划器的所述试验结果。

14.根据上述权利要求中任一项所述的装置,其特征在于,所述装置还用于包括迭代所述生成至少一个超参数试验集和确定新效用分数的步骤,所述接收到的数据包括先前生成的新数据对。

15.一种方法,其特征在于,所述方法用于确定改进的超参数以用于自动驾驶车辆运动规划器(202),所述方法包括:


技术总结
描述了一种装置(900),所述装置(900)用于确定改进的运动规划器超参数(402)。所述装置(900)用于:接收数据对(306),其中所述数据对(306)包括超参数集(402)和效用分数,所述效用分数定义了所述超参数集(402)产生的运动规划器(202)结果(404)的效用;提供模型,其中所述模型定义了所述超参数(402)和所述效用分数之间的关系;使用引导目标(304)生成试验超参数(402),其中所述引导目标(304)用于根据所述模型评估超参数试验集(402)的质量;基于所述试验超参数(402)确定所述运动规划器的试验结果(404);基于所述试验结果(404)与真值数据(408)的比较确定(406)所述试验超参数(402)的新效用分数。因此,所述装置通过与真值数据的比较来优化当前部署的超参数(402),以提供能够产生实际运动规划轨迹并且优于当前部署的超参数(402)的超参数(402)。

技术研发人员:亚历山大·伊马尼·考恩-里弗斯,杨逸伦,杨绍宇,拉苏尔·图图诺夫,艾瓦尔·苏特拉,海瑟姆·布·阿马尔,张洪波
受保护的技术使用者:华为技术有限公司
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-20614.html

最新回复(0)