本发明涉及交通,具体涉及一种高速公路改扩建瓶颈路段动态限速优化方法及装置。
背景技术:
1、随着社会经济的快速发展和城市化进程的加快,高速公路系统作为城市间主要交通通道,其承载的车辆数量和运输需求不断增加。然而,由于各种因素如交通事故、施工区域、车辆拥堵等,高速公路上的交通流动性和安全性面临诸多挑战。因此,开发智能化、动态化的交通管理系统,成为提高道路使用效率和保障交通安全的重要途径之一。
2、在高速公路运行中,经常会遇到需要进行改扩建的情况,例如为了增加通行能力或适应交通需求变化而进行的道路扩宽、车道增设等工程。然而,改扩建工程常常在施工过程中导致改扩建瓶颈路段变窄,从而形成瓶颈区域,这些瓶颈会显著影响交通流量和行车速度,增加交通事故和拥堵的风险。传统的静态限速方法往往难以有效应对这些动态变化的交通状况,导致在瓶颈改扩建瓶颈路段容易出现严重的交通拥堵和事故。因此,如何在高速公路改扩建施工期间和后续运行阶段,通过智能化技术实现动态限速调整,成为当前交通管理领域亟需解决的技术难题。
3、现有技术中,cn201610542934.7和cn202310130498.2等专利提出了采用强化学习进行可变限速的技术方案,但存在以下不足:
4、(1)缺乏针对高速公路改扩建瓶颈路段的优化:现有技术主要关注普通改扩建瓶颈路段的限速优化,对于改扩建瓶颈路段的特殊交通状况缺乏针对性的优化策略,导致在施工期间和后续运行中效果不佳;
5、(2)算法适应性不足:现有的强化学习算法在处理高维状态和离散动作空间时存在性能瓶颈,难以充分适应复杂的交通环境和实时变化的交通状况;
6、(3)稳定性和高效性不足:部分现有技术的策略优化过程容易出现不稳定性,导致限速调整策略不够稳定高效,影响了实际应用效果。
技术实现思路
1、本发明的目的在于提供一种高速公路改扩建瓶颈路段动态限速优化方法及装置,解决了现有技术中存在的问题。
2、本发明通过下述技术方案实现:
3、一方面,本发明提供一种高速公路改扩建瓶颈路段动态限速优化方法,包括:
4、采集目标高速公路中每个改扩建瓶颈路段的交通数据,对所述交通数据进行预处理,得到预处理之后的交通数据;
5、根据所述预处理之后的交通数据确定每个改扩建瓶颈路段所对应的状态表示,以限速值定义动作,并根据所述状态表示以及动作确定每个改扩建瓶颈路段对应的奖励函数,得到每个改扩建瓶颈路段所对应的状态表示、动作以及奖励函数;
6、以每个改扩建瓶颈路段所对应的状态表示、动作以及奖励函数为基础,采用近端策略优化算法对每个改扩建瓶颈路段对应的限速调整策略进行优化,完成高速公路改扩建瓶颈路段动态限速优化。
7、在一种可能的实施方式中,采集目标高速公路中每个改扩建瓶颈路段的交通数据,包括:
8、针对目标高速公路中每个改扩建瓶颈路段,采集改扩建瓶颈路段所对应的交通流量、车速以及车道占用率,得到每个改扩建瓶颈路段对应的交通数据。
9、在一种可能的实施方式中,对所述交通数据进行预处理之后,得到预处理之后的交通数据,包括:
10、对所述交通数据进行归一化处理和/或去噪处理,得到预处理之后的交通数据。
11、在一种可能的实施方式中,根据所述预处理之后的交通数据确定每个改扩建瓶颈路段所对应的状态表示,包括:
12、以所述预处理之后的交通数据为基础,确定每个改扩建瓶颈路段在决策时间步上对应的平均车速以及平均车道占用率;
13、根据每个改扩建瓶颈路段在决策时间步上对应的平均车速以及平均车道占用率,确定每个改扩建瓶颈路段对应的状态表示为:;其中,表示改扩建瓶颈路段i在决策时间步t上的平均车速,表示改扩建瓶颈路段i在决策时间步t上的平均车道占用率;,i表示目标高速公路中改扩建瓶颈路段总数。
14、在一种可能的实施方式中,以限速值定义动作,包括:
15、采用多个限速值构建限速调整动作空间a;
16、针对每个改扩建瓶颈路段,定义动作,以表示限速控制的改扩建瓶颈路段在时刻t选择的限速值。
17、在一种可能的实施方式中,根据所述状态表示以及动作确定每个改扩建瓶颈路段对应的奖励函数为:;其中,表示采取动作后在时刻t+1的下游交通流量。
18、在一种可能的实施方式中,以每个改扩建瓶颈路段所对应的状态表示、动作以及奖励函数为基础,采用近端策略优化算法对每个改扩建瓶颈路段对应的限速调整策略进行优化,完成高速公路改扩建瓶颈路段动态限速优化,包括:
19、针对每个改扩建瓶颈路段,以所述状态表示以及动作作为策略网络的输入,以获取策略网络输出的在状态下采取动作的概率;
20、以所述状态表示作为价值网络的输入,以评估决策时间步t上状态表示的价值;
21、根据所述状态表示的价值以及奖励函数,确定优势函数;
22、根据所述概率以及优势函数,确定损失函数;
23、采用梯度下降法对策略网络参数和价值网络参数进行更新,以最小化损失函数,并将每个决策时间步t上策略网络输出的最大概率对应的动作作为下一个决策时间步t上对应的限速,得到优化后的限速调整策略;
24、将优化后的限速调整策略部署于高速公路动态限速系统中,在每个决策时间步t上对交通数据进行更新,以获取下一个决策时间步t上对应的限速,实现高速公路改扩建瓶颈路段动态限速优化。
25、在一种可能的实施方式中,根据所述状态表示的价值以及奖励函数,确定优势函数为:
26、;
27、其中,表示折扣因子,以平衡当前奖励和未来奖励的权重,表示决策时间步t+1上状态表示的价值。
28、在一种可能的实施方式中,根据所述概率以及优势函数,确定损失函数为:
29、;
30、其中,表示对决策时间步t上的期望值;min表示最小值;表示在当前策略参数下,状态下选择动作的概率;表示在旧策略参数下,状态下选择动作的概率;为裁剪函数,用于限制概率比率的变化范围,防止更新过大导致不稳定性;ϵ是裁剪系数。
31、另一方面,本发明提供一种高速公路改扩建瓶颈路段动态限速优化方法,包括:数据采集模块、数据处理模块以及动态限速优化模块;
32、所述数据采集模块,用于采集目标高速公路中每个改扩建瓶颈路段的交通数据,对所述交通数据进行预处理,得到预处理之后的交通数据;
33、所述数据处理模块,用于根据所述预处理之后的交通数据确定每个改扩建瓶颈路段所对应的状态表示,以限速值定义动作,并根据所述状态表示以及动作确定每个改扩建瓶颈路段对应的奖励函数,得到每个改扩建瓶颈路段所对应的状态表示、动作以及奖励函数;
34、所述动态限速优化模块,用于以每个改扩建瓶颈路段所对应的状态表示、动作以及奖励函数为基础,采用近端策略优化算法对每个改扩建瓶颈路段对应的限速调整策略进行优化,完成高速公路改扩建瓶颈路段动态限速优化。
35、本发明提供的一种高速公路改扩建瓶颈路段动态限速优化方法及装置,通过强化学习算法,能够根据实时交通状况和环境条件,动态调整高速公路限速,避免了传统固定限速方法的局限性,提高了交通流量和安全性;近端策略优化算法能够处理高维状态和离散动作空间,适用于各种复杂的交通环境和高速公路改扩建场景,具有广泛的适用性;近端策略优化算法通过引入剪切目标函数,限制每次策略更新的步幅,确保策略优化过程的稳定性和高效性,避免了其他算法中常见的策略更新不稳定问题;在实际运行过程中,持续收集和处理数据,不断更新和优化限速调整策略,确保系统能够适应长期的交通变化和环境变化,实现可持续的交通管理优化。
1.一种高速公路改扩建瓶颈路段动态限速优化方法,其特征在于,包括:
2.根据权利要求1所述的高速公路改扩建瓶颈路段动态限速优化方法,其特征在于,采集目标高速公路中每个改扩建瓶颈路段的交通数据,包括:
3.根据权利要求1所述的高速公路改扩建瓶颈路段动态限速优化方法,其特征在于,对所述交通数据进行预处理之后,得到预处理之后的交通数据,包括:
4.根据权利要求2所述的高速公路改扩建瓶颈路段动态限速优化方法,其特征在于,根据所述预处理之后的交通数据确定每个改扩建瓶颈路段所对应的状态表示,包括:
5.根据权利要求4所述的高速公路改扩建瓶颈路段动态限速优化方法,其特征在于,以限速值定义动作,包括:
6.根据权利要求5所述的高速公路改扩建瓶颈路段动态限速优化方法,其特征在于,根据所述状态表示以及动作确定每个改扩建瓶颈路段对应的奖励函数为:;其中,表示采取动作后在时刻t+1的下游交通流量。
7.根据权利要求6所述的高速公路改扩建瓶颈路段动态限速优化方法,其特征在于,以每个改扩建瓶颈路段所对应的状态表示、动作以及奖励函数为基础,采用近端策略优化算法对每个改扩建瓶颈路段对应的限速调整策略进行优化,完成高速公路改扩建瓶颈路段动态限速优化,包括:
8.根据权利要求7所述的高速公路改扩建瓶颈路段动态限速优化方法,其特征在于,根据所述状态表示的价值以及奖励函数,确定优势函数为:
9.根据权利要求7所述的高速公路改扩建瓶颈路段动态限速优化方法,其特征在于,根据所述概率以及优势函数,确定损失函数为:
10.一种高速公路改扩建瓶颈路段动态限速优化装置,其特征在于,包括:数据采集模块、数据处理模块以及动态限速优化模块;
