1.本发明属于计算机技术领域,涉及一种基于双策略网络的强化学习智能交通信号灯控制方法。尤其涉及在高度复杂动态变化的交通环境中,如何对路口交通情况进行精确建模,如何设计强化学习方法以快速准确地进行高质量的信号灯控制的方法。
背景技术:2.随着全球城市化的快速增长和经济的飞速发展,全球机动车保有量持续快速增长,各地交通设施的供给与交通需求之间的矛盾日益突出,由此导致交通拥堵问题越来越严重,已经成为了困扰各地可持续发展的重大民生问题。交通拥堵不单单会造成巨大的时间与经济成本的损失,而且会导致温室气体排放等环境污染问题。因此,改善交通状况、缓解交通拥堵是加快城市和经济发展、提高人民生活质量的关键。
3.作为交通系统中最小的控制单位之一,缓解交通拥堵的一个有效方法就是智能地控制交通信号灯。因此,如何设计智能的交通信号灯控制方法成为了目前的一个难题。由于人工智能和物联网技术的繁荣,强化学习成为智能交通系统中交通控制模型设计的一种很有希望的方法。通常,基于强化学习的方法在每个交叉口部署一个智能体来控制相关的红绿灯。基于捕捉到的实时交通状况,智能体为交叉口选择最佳控制相位,该相位指示向车辆发送的路权信号。同时,智能体评估相位选择决策并相应地更新其控制策略。以一种进化的方式,最终可以实现最优的交通信号控制策略,以自适应地提高交通控制的质量。
4.随着人工智能和物联网技术的繁荣,强化学习在智慧交通中变得越来越流行,尤其是自治交通灯系统的控制模型设计。为了实现交通网络中基于强化学习的自主信号控制,通常每个路口都配备有强化学习智能体,该智能体基于物联网设备(例如交通摄像头、路边传感器)捕获的实时交通数据,生成向路口所有交通灯发送信号的动作。对于每个交通路口,应用在所有相关交通灯上的一组动作形成一个控制相位,向车辆发出信号,引导对应方向道路上的车辆通过路口。基于智能体的智能优化控制,可以有效降低路网中车辆的平均行驶时间。同时,所有收集到的交通数据及历史动作被用于智能体的训练学习,以逐步构建更精确的控制模型。
5.尽管基于强化学习的交通信号控制方法在平均行驶时间等总体指标方面优于传统方法,但优于对交通环境建模的不精确,现有的基于强化学习的信号灯控制方法在对路口的交通场景建模时,往往难以抽取到有效的信息来对路口交通情况进行精确建模。同时现有的方法为了简化交通模型,通常都只为信号灯设置了固定的持续时间,这造成空余时长的浪费与频繁的相位切换,影响了信号灯的控制质量。因此如何对路口环境精确建模同时更加智能地控制交通信号灯成为了基于强化学习的交通信号控制方法设计中的一个主要挑战。
技术实现要素:6.为了应对上述挑战,本文发明的目的是提出一种新的基于双策略网络的强化学习
智能交通信号灯控制方法。
7.本发明方法在交通信号控制时兼顾了对路口环境的精确建模与可变时长的交通信号灯相位控制,包括以下步骤:
8.1.对路口交通环境的精确建模
9.经过对现有方法的广泛研究,现有的大部分强化学习方法都主张在对路口情况建模时尽可能多的包含交通状态信息。然而过多的信息并不都会带来提升,过于复杂的状态信息使得强化学习智能体难以学习,导致漫长的训练过程。本发明在充分调研了各种交通数据的有效性基础上,提出了一种满意度指标,在个体层面可以有效刻画车辆的行驶质量,在全局层面可以对路口交通情况进行准确建模。通过物联网与车联网技术,通过路口数据采集设备可以获得车辆的出行时间、驾驶时间与等待时间。基于满意度指标的状态与奖励设计可以有效提高强化学习智能体的控制质量。
10.首先定义单个车辆的满意度指标。假设当前该车辆的出行时间为t
出行
,其中驾驶时间为t
驾驶
,等待时间为t
等待
,出行时间=驾驶时间+等待时间,即t
出行
=t
驾驶
+t
等待
,此时该车辆的满意度指标为:
[0011][0012]
在此基础上,本发明将其扩展到车道层面,定义一条车道上的满意度指标为当前车道上所有车辆的满意度指标之和,即
[0013][0014]
其中车辆i表示当前车道上的第i辆车,i
车辆i
表示当前车道上第i辆车的满意度指标。
[0015]
基于以上定义,在完整的路口层面,路口的满意度指标定义为当前路口所有进入车道的满意度指标之和,即
[0016][0017]
其中进入车道l表示当前路口中的第l条进入车道,i
进入车道l
表示当前路口中第l条进入车道的满意度指标。
[0018]
2.基于双策略网络的可变时长交通信号控制方法
[0019]
现有的强化学习方法为了简化交通模型,往往采用了固定时长的控制策略。对于固定的相位持续时间通常存在两种问题,当设置的持续时间过长时,会导致空余的时长被浪费,当指定的持续时间较短时又会使信号灯频繁切换相位。以上问题均会影响对路口信号灯的控制质量。为了智能地控制信号灯的相位持续时间,本发明提出了一种双策略网络的结构,基于此设计的强化学习智能体包含了两个策略网络,分别是相位选择策略网络与时长分配策略网络。两个策略网络根据路口的交通情况分别选择适合的路口信号灯相位同时给选择出的相位分配相应的持续时间。
[0020]
具体地,相位选择策略网络负责根据当前路口的交通情况选择出合适的信号灯相位,时长分配策略网络负责根据当前路口的交通情况给选择出的下一相位分配合适的持续
时间。单个相位包括信号灯的颜色及方向。
[0021]
所述相位选择策略网络与时长分配策略网络均为全连接网络,包括输出层、2层各由20个神经元构成的隐藏层、输出层,具体结构见附图1所示的策略网络结构图。所述的两种策略网络均遵循dqn方法,采用adam优化器通过随机梯度下降法进行优化。
[0022]
所述dqn方法,其目标为优化真实值函数v与学习到的值函数v
θ
之间的最小平方误差即l=(v(s,a)-v
θ
(s,a))2,其中θ为学习到的参数,s与a分别为当前时刻的状态与动作。参数θ采用随机梯度下降法进行更新,其更新公式为其中η为学习率,设置为0.001,运算符计算v
θ
(s,a)的梯度。
[0023]
对于相位选择策略网络,其输入为当前路口各个进入车道的满意度指标与当前路口信号灯的相位状态,输出为选择的下一个路口信号灯相位。对于时长分配策略网络,其输入为相位选择策略网络选择出的下一个相位与各个进入车道的满意度指标,输出为下一相位应该分配的持续时间。
[0024]
3.强化学习智能体的设计
[0025]
基于步骤1的满意度指标设计强化学习方法中的状态与奖励,基于步骤2中的双策略网络设计强化学习方法中的动作。每个路口上都部署了一个包含两个策略网络的deep q network(dqn)强化学习智能体。dqn智能体中包含了相位选择与时长分配两个策略网络,相位选择策略网络通过对环境的观测选择合适的信号灯相位,时长分配策略网络根据相位选择策略网络选择的相位与交通环境的状态确定相位的持续时间。
[0026]
强化学习智能体的设计通常包含三要素,状态、动作与奖励,本发明设计如下:
[0027]
状态1:状态1由强化学习智能体通过物联网设备对环境观察后计算得到。状态1作为智能体中相位选择策略网络的输入,包含了路口中各个进入车道的满意度指标与路口当前的信号灯相位。其中各个进入车道的满意度指标可通过车联网设备由车辆上传自身满意度并加和得到,路口当前相位可以直接读取信号灯当前状态得到。状态1表示为(i
车道1
,i
车道2
,...,i
车道i
,p
当前
),其中,i为车道数量,路口当前信号灯相位为p
当前
。
[0028]
所述信号灯状态如图3右上部分表格所示,通过对8种不同的交通运动进行无冲突的组合得到了8种信号灯状态。每个时刻只有1种信号灯状态显示为绿色,表示相应的交通运动可以进行。
[0029]
状态2:状态2作为智能体中时长分配策略网络的输入,其包含了与状态1中相同的各个进入车道的满意度指标,同时组合了相位选择策略网络选择出的相位以用于分配合适的时长。状态2表示为(i
车道1
,i
车道2
,...,i
车道i
,p
选择
),其中,i为车道数量,相位选择策略网络选择的信号灯相位为p
选择
。
[0030]
动作:基于状态1,智能体中的相位选择策略网络选择出合适的信号灯相位,随后基于选择的相位构建状态2,时长分配策略网络根据状态2选择出应该分配给该相位的时长。强化学习智能体的动作定义为相位与其对应时长的组合。设相位选择策略网络选择出的信号灯相位为p
选择
,而时长分配网络分配的信号灯相位的时长为d,则动作表示为(p
选择
,d)。
[0031]
如图3所示信号灯包含了8种相位状态,同时本发明将相位的持续时间设置为5-30秒之间。相位选择策略网络的输入为状态1,输出为从8种信号灯相位中选择出的下一个相位。时长分配策略网络的输入为状态2,输出为从5-30秒共26种持续时间设置中选择出的持
续时间。当选择出的相位对应的车道上车辆较少时,选择的相位持续时间较短;当车辆数量较多时,选择的相位持续时间较长。
[0032]
奖励:奖励在环境执行完智能体的动作后得到,用于反映某个状态智能体选择的动作的好坏程度,表明了在当前状态下执行该动作的质量,以指导智能体的学习过程。本发明将奖励设置为路口满意度指标,这意味着如果某个动作可以更大幅度地提高路口的满意度指标,这个动作就会被认为是一个更好的动作。
[0033]
在智能体与环境之间交互的过程中,智能体会不断更新自身的策略网络以逐步优化自己的控制策略,学习过程可以大致分为五个步骤:
[0034]
1)智能体观察交通环境以获取状态1,包括路口中各个进入车道的满意度指标与路口当前的信号灯相位;
[0035]
2)智能体根据状态1选择合适的信号灯相位,随后组成状态2,包括路口中各个进入车道的满意度指标与相位选择策略网络选择出的相位;
[0036]
3)智能体根据状态2选择相应的相位时长,与选择出的信号灯相位组成智能体的动作;
[0037]
4)环境执行智能体的动作后返回奖励;
[0038]
5)智能体存储状态1、状态2、动作与奖励组成的轨迹数据并通过强化学习的回放机制来更新策略网络的参数。
[0039]
本发明中智能体的控制策略基于dqn方法,目标为最小化学习到的值函数v
θ
与真实值函数v之间的最小平方误差,即loss=(v(s,a)-v
θ
(s,a))2,其中s为当前时刻的状态,a为当前时刻的动作,θ为可学习的参数。值函数v
θ
(s,a)表明了在当前时刻的状态s下智能体执行动作a的价值。智能体会倾向于选择价值越高的动作以获得更多的奖励,值函数起到了控制智能体决策的作用。
[0040]
智能体存储每一次与环境交互时的轨迹数据(s,a,r,s
′
,a
′
),其中r为在当前状态s下智能体执行动作a后获得的奖励,s
′
为下一个状态,a
′
为智能体在下一状态s
′
时选择的动作。在存储的轨迹数据数量达到设定的阈值时,智能体通过从存储的轨迹数据中进行随机采样得到数据集用于自身策略网络的更新。本发明中,智能体可以存储的轨迹数据的总量可以设置为10000条,每次采样出的轨迹数据条目为32,开始采样更新的阈值也为32。
[0041]
通过本发明方法可以对城市交通和交通流量进行仿真模拟:
[0042]
本发明基于所提出的满意度指标,提出了对单个车辆、一条车道、整个路口的状态进行了精准建模,更好地表达了交通情况。基于对交通环境的设计,本发明采用cityflow模拟器对城市交通路网和对应流量进行仿真模拟以评估方法的有效性。模拟器读入路网与车流量数据后,逐秒开始进行模拟,在模拟的过程中,当路口信号灯相位的持续时间结束时,智能体通过模拟器的数据接口读取路口的当前交通状况,随后将选择出的信号灯相位与相应的持续时间应用于模拟器的模拟设置,开始后续的模拟。cityflow作为一种针对大规模城市交通场景的开源模拟软件,相比其他交通仿真模拟器,具有以下优点:1.在仿真层面上,支持到模拟车辆个体行为的微观层级。2.数据导入的文件格式简洁,可以方便地自定义道路网络与运行在其上的交通流量。3.对python语言的良好支持,cityflow的底层采用c/c++语言实现,但其保留了丰富的python接口,对强化学习算法提供了良好的环境。4.简洁高效,相比于其他交通仿真模拟器,cityflow的数据结构于仿真算法简单高效,拥有更高的执
行效率。
[0043]
本发明还提出了一种上述控制方法在路口交通信号灯实时控制中的应用。
[0044]
本发明还提出了一种系统,包括:存储器和处理器;所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现上述方法。
[0045]
本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述方法。
[0046]
本发明的有益效果在于:
[0047]
本发明提出了一种满意度指标,将交通行为中个体层次的行驶质量与全局层面的状态有效结合,在反映个体车辆的行驶质量的同时也可以精确地对路口环境建模。基于该指标设计的强化学习智能体的状态与奖励使得智能体对路口信号灯的控制质量得到了显著提高。同时该指标需要的数据简单易获取,具有良好的可行性,也加速了智能体的学习过程。
[0048]
本发明提出了一种双策略网络的架构,将相位选择策略网络与时长分配策略相结合,使得智能体不仅可以对交通情况选择合适的信号灯相位,还可以给指定的信号灯相位分配相应的时长。有效解决了可变时长的交通信号灯控制问题。
[0049]
本发明提出了一种强化学习智能体的设计方法,基于满意度指标设计强化学习方法中的状态与奖励,基于双策略网络设计强化学习方法中的动作。每个路口上都部署了一个包含两个策略网络的deep q network(dqn)强化学习智能体。相比较现有方法,本发明的强化学习智能体具有对信号灯进行可变时长控制的能力,可以得到更高的控制质量。基于新提出的满意度指标设计的智能体状态与奖励可以使智能体快速收敛到一个优秀的控制策略。
[0050]
本发明提出了一种分布式的多路口信号灯控制系统,对于路网中的每个路口均部署了一个强化学习智能体。通过交通流量模拟软件cityflow,使用公开数据集,对城市道路网络及交通流量进行模拟。并使用cityflow的可视化功能,可以观察到道路的情况和车流量的运动情况。
[0051]
本发明提出的交通信号灯控制方法,能够获得交通数据中的有效信息用于对强化学习智能体中的状态与奖励,不仅可以根据动态变化的交通环境选择合适的信号灯相位,还可以为所选择的相位分配相应的持续时间。相比现有方案,在显著提高控制质量的同时也可以有效加快学习训练速度,快速收敛到优秀的控制策略,提高控制质量。
[0052]
现有的交通信号灯控制方法往往专注于优化全局的性能指标,如所有车辆的平均行驶时间等,而都忽略了个体车辆的行驶质量,这会导致一些车辆的行驶体验大打折扣。同时为了简化对交通环境的建模,现有的方法大多假设信号灯相位的持续时间为固定值,固定的相位时长无法灵活应对多变的交通情况。本发明提出的交通信号控制方法通过时长分配策略网络可以智能地为信号灯相位分配持续时间,同时在选择相位与分配时长时均考虑了个体车辆的满意度指标,通过提高个体车辆的行驶质量来优化总体的控制性能。如附图4所示相比于传统方法,控制质量提高了47.37%-81.22%,相比于现有的强化学习方法,控制质量可以提高12.15%-31.11%。
附图说明
[0053]
图1是本发明中策略网络的结构示意图。
[0054]
图2是本发明基于双策略网络的强化学习智能交通信号灯控制方法中强化学习智能体的结构图与工作流程示意图。
[0055]
图3是本发明对交叉路口信号灯相位的建模与交叉路口中车辆、车道与路口的满意度指标计算的示意图。
[0056]
图4是本发明方法与现有类似方法的性能测试结果对比图。
具体实施方式
[0057]
结合以下具体实施例和附图,对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
[0058]
本发明主要包含了以下几方面的内容:设计了一种车辆个体满意度指标,在反映单个车辆的行驶质量的同时,可以扩展对路口环境的精确建模;引入双策略网络,不仅可以智能地根据交通情况选择合适的信号灯相位,还可以给选择出的相位分配适宜的持续时间。通过对真实路口的精准建模,使用交通模拟软件cityflow对城市交通和交通流量进行模拟。
[0059]
具体地,
[0060]
本发明中基于双策略网络的强化学习智能交通信号灯控制方法,包括以下内容:
[0061]
1.利用满意度指标对路口交通环境进行精确建模
[0062]
首先定义单个车辆的满意度指标。假设当前该车辆的出行时间为t
出行
,其中驾驶时间为t
驾驶
,等待时间为t
等待
,出行时间=驾驶时间+等待时间,即t
出行
=t
驾驶
+t
等待
,此时该车辆的满意度指标为:
[0063][0064]
在此基础上,本发明将其扩展到车道层面,定义一条车道上的满意度指标为当前车道上所有车辆的满意度指标之和,即
[0065][0066]
其中车辆i表示当前车道上的第i辆车,i
车辆i
表示当前车道上第i辆车的满意度指标。
[0067]
基于以上定义,在完整的路口层面,路口的满意度指标定义为当前路口所有进入车道的满意度指标之和,即
[0068][0069]
其中进入车道l表示当前路口中的第l条进入车道,i
进入车道l
表示当前路口中第l条进入车道的满意度指标。
[0070]
2.基于双策略网络的可变时长交通信号控制方法
[0071]
每个路口上都部署了一个包含两个策略网络的deep q network(dqn)强化学习智能体。dqn智能体中包含了相位选择策略网络与时长分配策略网络两个策略网络,相位选择策略网络通过对环境的观测选择合适的信号灯相位,时长分配策略网络根据相位选择策略网络选择的相位与交通环境的状态确定相位的持续时间。
[0072]
3.基于满意度指标与双策略网络的强化学习智能体设计
[0073]
状态1:状态1由强化学习智能体通过物联网设备对环境观察后计算得到。状态1作为智能体中相位选择策略网络的输入,包含了路口中各个进入车道的满意度指标与路口当前的信号灯相位。其中各个进入车道的满意度指标可通过车联网设备由车辆上传自身满意度并加和得到,路口当前相位可以直接读取信号灯当前状态得到。如图3所示路口为例,设路口当前信号灯相位为p
当前
,i为车道数量,则状态1表示为(i
车道1
,i
车道2
,...,i
车道i
,p
当前
)。
[0074]
状态2:状态2作为智能体中时长分配策略网络的输入,其包含了与状态1中相同的各个进入车道的满意度指标,同时组合了相位选择策略网络选择出的相位以用于分配合适的时长。如图3所示路口为例,设相位选择策略网络选择的信号灯相位为p
选择
,i为车道数量,则状态2表示为(i
车道1
,i
车道2
,...,i
车道i
,p
选择
)。
[0075]
动作:基于状态1,智能体中的相位选择策略网络选择出合适的信号灯相位,随后基于选择的相位构建状态2,时长分配策略网络根据状态2选择出应该分配给该相位的时长。强化学习智能体的动作定义为相位与其对应时长的组合。设相位选择策略网络选择出的信号灯相位为p
选择
,而时长分配网络分配的时长为d,则动作表示为(p
选择
,d)。
[0076]
奖励:奖励在环境执行完智能体的动作后得到,用于反映某个状态智能体选择的动作的好坏程度,表明了在当前状态下执行该动作的质量,以指导智能体的学习过程。本发明将奖励设置为路口满意度指标,这意味着如果某个动作可以更大幅度地提高路口的满意度指标,这个动作就会被认为是一个更好的动作。以图3的路口为例,奖励为i
路口
=∑
进入车道l∈路口i进入车道l
=0+3.9+2.9+2.3+1.5+1.3+4.8+1.4+1.2+0+3.4+0=22.7。
[0077]
通过本发明方法模拟城市道路与交通流:
[0078]
本发明基于所提出的满意度指标,提出了对单个车辆、一条车道、整个路口的满意度概念,对路口的状态进行了精准建模,更好地表达路口的交通情况。本发明采用开源交通模拟软件cityflow完成对城市交通和交通流量的模拟。模拟器读入路网与车流量数据后,逐秒开始进行模拟,在模拟的过程中,当路口信号灯相位的持续时间结束时,智能体通过模拟器的数据接口读取路口的当前交通状况,随后将选择出的信号灯相位与相应的持续时间应用于模拟器的模拟设置,开始后续的模拟。
[0079]
实施例
[0080]
本发明提出了一种基于双策略网络的强化学习智能交通信号灯控制方法,以下是其代码实现部分(截取重要):
[0081]
如代码1所示,这部分包括了对城市道路与交通流量的模拟的方法的代码:
[0082]
[0083]
[0084][0085]
代码1
[0086]
代码1简单列举多路口环境中的四个重要函数,它们分别是:get_state_phase、get_state_duration、step、get_reward,这四个函数的功能如下:get_state_phase对路口的信息进行加工,计算每条进入车道的满意度指标,加上路口当前的信号灯相位,作为智能体中相位选择策略网络的输入状态1。get_state_duration对路口信息进行加工,计算每条进入车道的满意度指标,由相位选择网络选择的相位,作为智能体中时长分配策略网络的输入状态2。step调用模拟器引擎,将模拟过程推进一步即进行下1s的模拟。get_reward函数计算当前路口的满意度指标,作为智能体控制信号灯相位与持续时间后从环境中获得的奖励。
[0087]
如代码2所示为对交通信号的强化学习控制方法:
[0088]
[0089]
[0090]
[0091][0092]
代码2
[0093]
在代码2中,描述了使用带有两个相同超参数的策略网络的dqn强化学习算法对路口信号灯的控制流程。简单列出了5段代码,分别是智能体中的策略网络超参数设置、智能体的回放缓冲区设置、策略网络架构设计、策略网络的动作选择与基于双策略网络的信号灯相位选择与持续时间分配。
[0094]
在智能体中,相位选择策略网络与时长分配策略网络具有相同的隐藏层结构(两个隐藏层分别包含了20个神经元),使用adam优化器进行参数更新。学习率设置为0.001,折扣因子设置为0.9。轨迹数据的回放缓冲区大小为10000,训练时采样的批大小为32。
[0095]
为了综合测试本发明的性能,本实施例中使用cityflow交通模拟平台,在4个仿真数据集(1
×
3路口、2
×
2路口、3
×
3路口、4
×
4路口)以及2个真实数据集(杭州4
×
4路口、济南3x4路口)上了进行了模拟控制,并与传统信号灯控制方法以及其他现有的先进强化学习方法进行了性能比较。测试结果为模拟一小时交通内路网中所有出行车辆的平均行驶时间。图4是本发明方法性能测试结果,可以看出应用此方法能够使得出行车辆的平均行驶时间最短。传统方法采用固定的时间长度与预先设置好的相位顺序,因此无法应对动态的交通场景,车辆的平均行驶时间都很长。现有的强化学习方法引入了强化学习方法,根据当前的交通情况智能地选择合适的信号灯相位,因此相比于传统方法有效降低了车辆的平均行驶时间。本发明提出的方法采用新的满意度指标设计强化学习智能体的关键元素如状态与奖励,同时采用可变时长的控制策略,相较于传统方法,本发明提出的方法将所有车辆的平均行驶时间缩短了47.37%-81.22%,相比于现有的强化学习方法,车辆平均行驶时间缩短了12.15%-31.11%。
[0096]
本发明提出了一种新的基于双策略网络的强化学习智能交通信号灯控制方法,该方法结合对个体车辆与整个路口的交通情况表达与可变时长的信号灯控制问题。通过使用提出的满意度指标设计强化学习智能体的状态与奖励,以及双策略网络架构设计智能体的动作,本发明提出的方法相比现有的固定时长方法可以根据交通情况动态调整相位的持续时间。本方法不仅在交通信号灯的控制质量如路网中车辆的平均行驶时间上更优,还可以
更快地收敛到一个表现优秀的控制策略。
[0097]
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
技术特征:1.一种基于双策略网络的强化学习智能交通信号灯控制方法,其特征在于,所述控制方法包括:步骤1:定义满意度指标,在车辆个体层面刻画车辆的行驶质量,在全局层面对路口交通情况进行准确建模;步骤2:利用双策略网络的可变时长交通信号控制方法根据步骤1中对路口交通情况的建模选择合适的路口信号灯相位与相应的持续时间;步骤3:基于步骤1的满意度指标设计强化学习方法中的状态与奖励,基于步骤2中的双策略网络设计强化学习方法中的动作,利用每个路口的强化学习智能体使用带有两个策略网络的deep q network强化学习算法,根据路口车流情况对交通信号灯实时控制。2.如权利要求1所述的控制方法,其特征在于,所述满意度指标包括单个车辆的满意度指标、当前车道的满意度指标、当前路口的满意度指标;所述单个车辆的满意度指标通过以下公式计算:其中,t
出行
为当前车辆的出行时间,t
驾驶
为当前车辆的驾驶时间,t
等待
为当前车辆的等待时间,出行时间=驾驶时间+等待时间,即t
出行
=t
驾驶
+t
等待
;所述当前车道的满意度指标为当前车道上所有车辆的满意度指标之和,通过以下公式计算:其中,车辆i表示当前车道上的第i辆车,i
车辆i
表示当前车道上第i辆车的满意度指标;所述当前路口的满意度指标为当前路口所有进入车道的满意度指标之和,通过以下公式计算:其中,进入车道l表示当前路口中的第l条进入车道,i
进入车道l
表示当前路口中第l条进入车道的满意度指标。3.如权利要求1所述的控制方法,其特征在于,所述双策略网络包括相位选择策略网络、时长分配策略网络;所述相位选择策略网络根据当前路口的交通情况选择出合适的信号灯相位;所述时长分配策略网络根据当前路口的交通情况给选择出的信号灯相位分配合适的持续时间。4.如权利要求1所述的控制方法,其特征在于,所述相位选择策略网络和时长分配策略网络均为全连接网络,包括输出层、2层各由20个神经元构成的隐藏层、输出层;所述的两种策略网络均遵循dqn方法,采用adam优化器通过随机梯度下降法进行优化;所述相位选择策略网络的输入为当前路口各个进入车道的满意度指标与当前路口信号灯的相位状态,输出为选择的下一个路口信号灯相位;所述时长分配策略网络的输入为相位选择策略网络选择出的下一个相位与各个进入车道的满意度指标,输出为下一相位应
该分配的持续时间。5.如权利要求1所述的控制方法,其特征在于,所述强化学习智能体使用了相位选择策略网络和时长分配策略网络;所述强化学习智能体的设计包括三个要素,包括状态、动作、奖励;所述状态包括强化学习智能体通过物联网设备对环境观察后计算得到包含了路口中各个进入车道的满意度指标与路口当前的信号灯相位的状态1、路口中各个进入车道的满意度指标与组合了相位选择策略网络选择出的相位的状态2;所述动作是指强化学习智能体中的相位选择策略网络选择出合适的信号灯相位,并根据选择出的相位分配对应时长;所述奖励在环境执行完智能体的动作后得到,用于反映某个状态智能体选择的动作的好坏程度,表明了在当前状态下执行该动作的质量,以指导智能体的学习过程;所述强化学习智能体存储状态1、状态2、动作和奖励组成的轨迹数据并通过强化学习的回放机制更新策略网络的参数。6.如权利要求5所述的控制方法,其特征在于,所述强化学习智能体通过物联网设备对环境观察后计算得到包含了路口中各个进入车道的满意度指标与路口当前的信号灯相位的状态表示为(i
车道1
,i
车道2
,
…
,i
车道i
,p
当前
),其中,i为车道数量,路口当前信号灯相位为p
当前
;所述路口中各个进入车道的满意度指标与组合了相位选择策略网络选择出的相位的状态表示为(i
车道1
,i
车道2
,
…
,i
车道i
,p
选择
),其中,i为车道数量,相位选择策略网络选择的信号灯相位为p
选择
;包括了信号灯相位及对应时长的动作表示为(p
选择
,d),其中,p
选择
表示相位选择策略网络选择出的信号灯相位,d表示时长分配网络分配的信号灯相位的时长;所述奖励设置为路口满意度指标,若某个动作能够更大幅度地提高路口满意度指标,则所述动作被认为更好。7.如权利要求1-6之任一项所述控制方法在路口交通信号灯实时控制中的应用。8.一种系统,其特征在于,包括:存储器和处理器;所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现如权利要求1-6任一项所述的方法。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-6任一项所述的方法。
技术总结本发明公开了一种基于双策略网络的强化学习智能交通信号灯控制方法,包括:步骤1:定义满意度指标,在车辆个体层面刻画车辆行驶质量,在全局层面对路口交通情况进行准确建模;步骤2:利用双策略网络的可变时长交通信号控制方法根据步骤1中对路口交通情况的建模选择合适的路口信号灯相位与相应的持续时间;步骤3:基于步骤1的满意度指标设计强化学习方法中的状态与奖励,基于步骤2中的双策略网络设计强化学习方法中的动作,利用每个路口的强化学习智能体使用带有两个策略网络的Deep Q Network强化学习算法,根据路口车流情况对交通信号灯实时控制。本发明的强化学习智能体可以快速收敛到一个好的控制策略,在学习速度与控制质量上均优于现有方法。控制质量上均优于现有方法。控制质量上均优于现有方法。
技术研发人员:陈铭松 叶豫桐 丁捷频 李一鸣 王嘉莉
受保护的技术使用者:华东师范大学
技术研发日:2022.06.29
技术公布日:2022/11/1