transactions onvehicular technology,2020,69(8):9041-9052.)。其中一些学者们利用多智能体强化学习分配该场景下的网络资源时,仅将单智能体算法扩展至多智能体场景,未充分地考虑车联网环境下各车辆用户的通信能力以及环境的部分可观测性,因此不能最大化利用环境信息,并高效作出缓存部署决策。
技术实现要素:5.本发明的目的在于提供一种种基于多智能体近端策略的车联网分布式边缘缓存决策方法,使得每个车辆用户智能体充分利用自身观测信息,协同利用系统边缘缓存资源,降低了缓存内容传输时延。
6.实现本发明目的的技术解决方案为:一种基于多智能体近端策略的车联网分布式边缘缓存决策方法,包括以下步骤:
7.步骤1、输入车辆边缘网络环境,初始化执行者-评估者网络参数;
8.步骤2、各车辆用户观测自身坐标及各边缘接入点剩余存储空间;
9.步骤3、各车辆用户制定缓存策略,根据策略选择边缘接入点,执行边缘缓存动作;
10.步骤4、各车辆用户计算时延相关奖励,根据广义优势估计方法计算回报与优势;
11.步骤5、根据收集的动作、观测和奖励信息,各车辆用户通过共享的策略网络进行集中式训练,以截断方法约束策略的更新,计算执行者-评估者网络的损失函数且更新共享策略;
12.步骤6、判断是否所有车辆抵达设定路段终点:如果否,则返回步骤2;如果是,则结束当前回合,进入步骤7;
13.步骤7、判断算法是否收敛:如果否,则返回步骤1;如果是,则算法结束,得到最终的车联网分布式边缘缓存决策。
14.本发明与现有技术相比,其显著优点为:
15.(1)采用基于多智能体近端策略优化的车联网分布式边缘缓存决策方案,协同利用有限系统边缘缓存资源,收敛速度快且训练开销小,能够实现在未知车联网环境下大幅降低系统缓存内容的传输时延;
16.(2)基于多智能体近端策略优化的车联网分布式边缘缓存决策方案,采用多智能体近端策略优化算法,利用收集的动作、观测和奖励信息,以及通过广义优势估计计算得到的优势,计算策略梯度,引入重要性采样以提高采样效率,再以截断方法设计损失函数以避免重要性采样产生误差,进而分别对执行者网络损失函数进行梯度上升和对评估值网络损失函数进行梯度下降,以实现策略更新,使得每个车辆用户智能体充分利用自身观测信息,在车联网场景下更具优越性;
17.(3)对于车联网边缘缓存决策问题,充分考虑多智能体环境特性,应用多智能体近端策略优化算法,能够使执行者及评估者网络的损失函数更稳定,保证方案更为稳定地探索到最优缓存策略;
18.(4)当车辆用户达到20时,多智能体近端策略优化算法的车联网分布式边缘缓存方案仍具有最高的奖励,说明在缓存资源紧缺的情况下,各车辆用户能够利用各自的观测协同制定最小化系统传输时延的决策。
附图说明
[0019][0020]
图1是本发明基于多智能体近端策略的车联网分布式边缘缓存决策方法的流程图。
[0021]
图2为本发明实施例的网络模型示意图。
[0022]
图3为本发明实施例中不同方案的学习收敛效果示意图。
[0023]
图4为本发明实施例中不同方案执行者网络收敛效果示意图。
[0024]
图5为本发明实施例中不同方案评估者网络收敛效果示意图。
[0025]
图6为本发明实施例中不同算法收敛平均值与用户数目的关系图。
具体实施方式
[0026]
本发明基于多智能体近端策略的车联网分布式边缘缓存决策方法,包括以下步骤:
[0027]
步骤1、输入车辆边缘网络环境,初始化执行者-评估者网络参数;
[0028]
步骤2、各车辆用户观测自身坐标及各边缘接入点剩余存储空间;
[0029]
步骤3、各车辆用户制定缓存策略,根据策略选择边缘接入点,执行边缘缓存动作;
[0030]
步骤4、各车辆用户计算时延相关奖励,根据广义优势估计方法计算回报与优势;
[0031]
步骤5、根据收集的动作、观测和奖励信息,各车辆用户通过共享的策略网络进行集中式训练,以截断方法约束策略的更新,计算执行者-评估者网络的损失函数且更新共享策略;
[0032]
步骤6、判断是否所有车辆抵达设定路段终点:如果否,则返回步骤2;如果是,则结束当前回合,进入步骤7;
[0033]
步骤7、判断算法是否收敛:如果否,则返回步骤1;如果是,则算法结束,得到最终的车联网分布式边缘缓存决策。
[0034]
进一步地,步骤1中所述输入车辆边缘网络环境,其中车辆边缘网络环境包含:
[0035]
(1)时隙模型:将连续的训练时间离散化为多个时隙,用正整数t∈{1,2,...,t}来表示第t个时隙;假设单个时隙内车辆用户完成一次边缘缓存决策以及位置移动,且单个时隙内发射功率和信道噪声等环境状态不发生改变,而当车辆用户全部抵达设定的道路终点时称为一个回合。
[0036]
(2)网络模型:建立城市单向车道模型,假设网络中有n个车辆用户和m个边缘接入点,边缘接入点包括路边单元和宏基站;车辆用户沿单向车道行驶,表示为φu={u1,u2,...,un};边缘接入点为车辆用户提供缓存服务,宏基站覆盖全路段范围,路边单元均匀分布在道路两侧,表示为φr={r0,r1,r2,...,rm},其中r0表示宏基站, {r1,r2,...,rm}表示路边单元。
[0037]
(3)通信模型:假设车辆用户和边缘接入点之间的信道增益由路径损耗和瑞利衰减组成;令d
m,n
表示车辆用户un和边缘接入点rm之间的距离,表示车辆用户un和边缘接入点rm之间的信道的路径损耗,其中τ为路径损耗指数;此外,令h
m,n
~exp(μ)表示un和rm之间的瑞利衰减,其中μ为相应的比例系数,且对于所有边缘接入点rm与车辆用户un,h
m,n
相互独
立;令信道增益为
[0038]
假设车辆用户un以发射功率pn在带宽为b的信道上进行通信;根据香农公式,车辆用户un将请求内容缓存到边缘接入点rm的上行传输速率ζ
n,m
(t)表示为
[0039][0040]
其中,σ2为高斯白噪声功率。
[0041]
令车辆用户的请求文件的内容大小为αn(bytes)。因此,车辆用户un的数据传输时延可表示为dn=αn/ζ
n,m
,数据的总传输时延可表示为d
total
=∑
n∈ndn
。此外,令ddln(s) 为车辆用户请求内容容许的最大传输时延。各车辆用户传输时延应小等于其请求内容所容许的最大传输时延,表示为dn≤ddln。
[0042]
(4)缓存模型:令表示为车辆用户请求的内容集合;定义(pf)n×1为全局流行度,表示系统中各车辆用户请求内容fn的概率分布,其中pn为车辆用户un请求内容fn的局部流行度;假设(pf)n×1遵循mandelbrot-zipf即mzipf分布:
[0043][0044]
其中if是内容fn按内容流行度降序排列的排名,δ和β分别表示平台因子和偏度因子。
[0045]
(5)车辆移动模型:车辆用户的速度被建模为高斯-马尔科夫随机过程;
[0046]
具体而言,当车辆用户un以初始速度v
n,0
行驶时,根据时隙t-1处的速度v
n,t-1
和渐近速度可计算车辆用户un在时隙t处的速度v
n,t
,表示为
[0047][0048]
其中,和是车辆用户un速度的相应渐近均值和标准差。参数ηn∈[0,1]表示过去速度的记忆深度,决定车辆用户un移动的时间相关性。值得注意的是,ηn趋近于1 时,车辆用户un时隙t下的速度变得更加依赖于先前的速度。此外,k是一个均值为零、方差为的独立随机高斯过程。
[0049]
进一步地,步骤2所述各车辆用户观测自身坐标及各边缘接入点剩余存储空间,具体为:
[0050]
根据时隙t下的环境状态,各车辆用户un得到所需的观测可表示为
[0051][0052]
其中xn(t)和yn(t)表示当前车辆用户un在时隙t下的x坐标和y坐标,表示路边单元rm在时隙t下的缓存状态;具体而言,时,路边单元rm的剩余存储空间能够处理用户的缓存请求,而如果路边单元rm因存储空间不足无法处理任何缓存请求。
[0053]
进一步地,步骤3所述各车辆用户根据策略选择边缘接入点,执行边缘缓存动作,具体为:
[0054]
时隙t下,车辆un的动作为车辆un的缓存策略,表示为
[0055][0056]
其中,当时,车辆用户将内容缓存于宏基站,而当时,车辆用户将内容缓存至路边单元rm。
[0057]
进一步地,步骤4所述各车辆用户计算时延相关奖励,根据广义优势估计方法计算回报与优势,具体为:
[0058]
(4.1)各车辆用户的奖励
[0059]
为了最小化各用户缓存文件传输时延,各车辆用户的奖励函数rn(t)定义为
[0060][0061]
其中dn是在相应动作下进行缓存的时间成本;
[0062]
如果各用户的决策满足约束条件,则直接获得奖励,否则,奖励为0;
[0063]
(4.2)计算优势与回报
[0064]
令v(s
t
)为马尔可夫决策过程中的状态值函数,即为估计智能体在一状态下的预期回报的函数;令γ为折扣因子,r
t
为时隙t下的奖励,s
t
为时隙t下的状态,优势函数将状态值函数归一化,在后续用于计算损失函数,表示为
[0065][0066]
回报函数计算为
[0067][0068]
进一步地,步骤5所述根据收集的动作、观测和奖励信息,各车辆用户通过共享的策略网络进行集中式训练,以截断方法约束策略的更新,计算执行者-评估者网络的损失函数且更新共享策略,具体为:
[0069]
近端策略优化算法利用收集的动作、观测和奖励信息,以及通过广义优势估计计算得到的优势,计算策略梯度,引入重要性采样以提高采样效率,再以截断方法设计损失函数以避免重要性采样产生误差,进而对损失函数进行梯度上升以更新策略。
[0070]
(5.1)近端策略优化算法利用收集的动作、观测和奖励信息,以及通过广义优势估计计算得到的优势,计算策略梯度,具体如下:
[0071]
策略梯度算法计算梯度估计,然后使用随机梯度下降算法得到最优策略,使用的梯度估计表示为
[0072][0073]
其中,θ为策略参数,π
θ
是一个随机梯度函数,是时隙t的优势函数,a
t
为时隙 t下的动作;
[0074]
进行梯度更新时,构建一个梯度的损失函数,然后对该损失函数进行梯度上升或梯度下降;
[0075]
(2)引入重要性采样以提高采样效率,重要性采样具体如下:
[0076]
传统on-policy方法的缺点是采样效率低,这意味着采样的数据只能用于更新一次策略。因此,近端策略优化算法引入了另一个策略q,令f(x)为策略梯度,p(x)与q(x)为两个策略,计算策略梯度有以下公式推导:
[0077][0078]
其中,来自策略q的样本能够用于多次更新策略p;但只有当p和q分布相似时,期望才能近似相等;否则,可能会出现很大的误差。
[0079]
(5.3)以截断方法设计损失函数以避免重要性采样产生误差,具体如下:
[0080]
近端策略优化算法使用截断方法来约束策略的更新,降低对迭代步长的敏感度,保证每次得出的新策略与原策略相近,将损失函数定义为
[0081][0082]
其中,ε为一个超参数,clip()为截断函数。如果意味着当前动作产生的回报大于基准动作的预期回报,故更新策略增加该动作出现的概率,此概率不能高于原策略的1+ε倍。反之若说明当前动作的回报小于基准动作预期回报,降低该动作出现概率,不低于原策略的1-ε倍。
[0083]
(5.4)建立多智能体集中训练分散执行框架,具体如下:
[0084]
多智能体强化学习通常使用两种框架:集中式学习与分布式学习。集中式方法通常假设一个合作型博弈,并通过学习统一的策略以将单智能体强化学习算法扩展至多智能体场景,从而同时产生多智能体的联合动作。而在分布式学习中,每个智能体独立优化自身的奖励。
[0085]
单纯的集中式学习与分布式学习可以解决一般的求和博弈,但即使面对简单的矩阵博弈也可能表现不稳定。集中训练分散执行方法通过采用执行者-评估者框架并使用一个集中式的评估者来解决这一问题。
[0086]
多智能体近端策略优化为使用集中式值函数的集中训练分散执行算法。令所有车辆用户共享相同的执行者-评估者网络参数θ和φ,利用收集的动作、观测和奖励信息对网络进行更新。
[0087]
(5.5)多智能体近端策略优化,具体如下:
[0088]
多智能体近端策略优化算法在利用单智能体近端策略优化算法的基础上,使用值归一化、针对智能体的全局状态、训练数据处理、动作屏蔽和死亡屏蔽五个处理过程,对损失函数进行梯度上升以更新策略。
[0089]
其中,值归一化、针对智能体的全局状态、训练数据处理、动作屏蔽和死亡屏蔽,具体如下:
[0090]
a.值归一化
[0091]
通过平均值函数的估计值来对值函数进行归一化,稳定了对值函数的学习。具体来说,在学习过程中,标准化价值网络。在计算优势时,将反归一化价值网络的输出,适当缩放价值网络输出。
[0092]
b.针对智能体的全局状态
[0093]
多智能体近端策略优化算法中,对于智能体un,将全局状态与该智能体观测拼接为 {s,on},避免忽略某些状态信息,其中s为全局状态,on为智能体un的局部观测,为进一步减小输入维度,将全局状态和局部观测间重复的信息裁切。
[0094]
c.训练数据处理
[0095]
由于多智能体强化学习的非平稳性,过于频繁的样本复用将降低多智能体近端策略优化的性能,故使用与单智能体近端策略优化算法相比较少回合的样本进行训练;此外,由于在估计梯度时使用更多数据会提升算法性能,故默认不将数据拆分为小批量。
[0096]
d.动作屏蔽
[0097]
根据算法应用的环境,或存在不可能被执行的动作,例如车辆用户选择缓存至存储容量已满的路边单元。在多智能体近端策略优化算法中,直接屏蔽这些无法执行的动作,提高算法效率。
[0098]
e.死亡屏蔽
[0099]
根据场景,智能体可能出现死亡的情况,例如车联网环境中车辆驶出场景范围。在多智能体近端策略优化算法中,屏蔽已死亡的智能体相关信息。
[0100]
进一步地,多智能体近端策略优化,结合了单智能体近端策略优化和以上的改进,基于步骤2~步骤4收集的动作、观测和奖励信息,训练执行者-评估者网络;
[0101]
设定所有智能体共享执行者和评估者网络,集中训练共享的策略,设样本批量大小为bs,执行者网络在损失函数中增加了策略的熵,通过最大化熵,增加策略的随机性,鼓励对策略的探索,避免过早陷入局部最优解,令θ为执行者网络的参数,通过最大化以下函数进行训练:
[0102][0103]
其中,为策略熵,κ为熵系数超参数;
[0104]
令φ为评估者网络的参数,评估者网络通过最小化以下函数进行训练:
[0105][0106]
通过对l
mappo
(θ)进行梯度上升,对l
mappo
(φ)进行梯度下降,完成对策略网络的更新。
[0107]
下面结合附图及具体实施例对本发明做进一步详细描述。
[0108]
实施例
[0109]
本发明提出了一种基于多智能体近端策略的车联网分布式边缘缓存决策方法,通过多智能体近端策略优化算法,使得每个车辆用户智能体充分利用自身观测信息,协同利用系统边缘缓存资源,降低了缓存内容传输时延,结合图1~图2,包括以下步骤:
[0110]
步骤1、输入车辆边缘网络环境,初始化执行者-评估者网络参数;
[0111]
步骤2、各车辆用户观测自身坐标及各边缘接入点剩余存储空间;
[0112]
步骤3、各车辆用户根据策略选择边缘接入点,执行边缘缓存动作;
[0113]
步骤4、各车辆用户计算时延相关奖励,根据广义优势估计方法计算回报与优势;
[0114]
步骤5、根据收集的动作、观测和奖励信息,各车辆用户通过共享的策略网络进行
集中式训练,以截断方法约束策略的更新,计算执行者-评估者网络的损失函数且更新共享策略;
[0115]
步骤6、当所有车辆抵达设定路段终点时,结束当前回合,开始下一回合,重新输入车辆边缘网络环境,重复步骤2~步骤5;
[0116]
步骤7、重复步骤6,直至算法收敛。
[0117]
进一步地,步骤1中所述输入车辆边缘网络环境,其中车辆边缘网络环境包含:
[0118]
(1)时隙模型:将连续的训练时间离散化为多个时隙,用正整数t∈{1,2,...,t}来表示第t个时隙。假设单个时隙内车辆用户完成一次边缘缓存决策以及位置移动,且单个时隙内发射功率和信道噪声等环境状态不发生改变,而当车辆用户全部抵达设定的道路终点时称为一个回合。
[0119]
(2)网络模型:建立城市单向车道模型,假设网络中有n个车辆用户和m个边缘接入点(包括路边单元和宏基站)。车辆用户沿单向车道行驶,表示为φu={u1,u2,...,un};边缘接入点为车辆用户提供缓存服务,宏基站覆盖全路段范围,路边单元均匀分布在道路两侧,表示为φr={r0,r1,r2,...,rm},其中r0表示宏基站,{r1,r2,...,rm}表示路边单元。
[0120]
(3)通信模型:假设车辆用户和边缘接入点之间的信道增益由路径损耗和瑞利衰减组成。令d
m,n
表示车辆用户un和边缘接入点rm之间的距离,表示车辆用户un和边缘接入点rm之间的信道的路径损耗,其中τ为路径损耗指数。此外,令h
m,n
~exp(μ)表示un和rm之间的瑞利衰减,其中μ为相应的比例系数,且对于所有边缘接入点rm与车辆用户un,h
m,n
相互独立。令信道增益为
[0121]
假设车辆用户un以发射功率pn在带宽为b的信道上进行通信。因此,根据香农公式,车辆用户un将请求内容缓存到边缘接入点rm的上行传输速率表示为
[0122][0123]
其中,σ2为高斯白噪声功率。
[0124]
令车辆用户的请求文件的内容大小为αn(bytes)。因此,车辆用户un的数据传输时延可表示为dn=αn/ζ
n,m
,数据的总传输时延可表示为d
total
=∑
n∈ndn
。此外,令ddln(s) 为车辆用户请求内容容许的最大传输时延。各车辆用户传输时延应小等于其请求内容所容许的最大传输时延,表示为dn≤ddln。
[0125]
(4)缓存模型:令表示为车辆用户请求的内容集合。定义(pf)n×1为全局流行度,表示系统中各车辆用户请求内容fn的概率分布,其中pn为车辆用户un请求内容fn的局部流行度。假设(pf)n×1遵循mandelbrot-zipf(mzipf)分布:
[0126][0127]
其中if是内容fn按内容流行度降序排列的排名,δ和β分别表示平台因子和偏度因子。
[0128]
(5)车辆移动模型:车辆用户的速度被建模为高斯-马尔科夫随机过程;
[0129]
具体而言,当车辆用户un以初始速度v
n,0
行驶时,根据时隙t-1处的速度v
n,t-1
和渐
近速度可计算车辆用户un在时隙t处的速度v
n,t
,表示为
[0130][0131]
其中,和是车辆用户un速度的相应渐近均值和标准差。参数ηn∈[0,1]表示过去速度的记忆深度,决定车辆用户un移动的时间相关性。值得注意的是,ηn趋近于1 时,车辆用户un时隙t下的速度变得更加依赖于先前的速度。此外,k是一个均值为零、方差为的独立随机高斯过程。
[0132]
进一步地,步骤2所述各车辆用户观测更新后的自身坐标及各边缘接入点剩余存储空间,具体为:
[0133]
根据时隙t下的环境状态,各车辆用户un得到所需的观测可表示为
[0134][0135]
其中xn(t)和yn(t)表示当前车辆用户un在时隙t下的x坐标和y坐标,表示路边单元rm在时隙t下的缓存状态。具体而言,时,路边单元rm的剩余存储空间能够处理用户的缓存请求,而如果路边单元rm因存储空间不足无法处理任何缓存请求。
[0136]
进一步地,步骤3所述各车辆用户根据策略选择边缘接入点,执行边缘缓存动作,具体为:
[0137]
时隙t下,车辆un的动作为其缓存卸载决策,可表示为
[0138][0139]
其中,当时,车辆用户将内容缓存于宏基站,而当时,车辆用户将内容缓存至路边单元rm。
[0140]
进一步地,步骤4所述各车辆用户计算时延相关奖励,根据广义优势估计方法计算回报与优势,具体为:
[0141]
(1)各车辆用户的奖励
[0142]
为了最小化各用户缓存文件传输时延,各车辆用户的奖励函数rn(t)定义为
[0143][0144]
其中dn是在相应动作下进行缓存的时间成本。如果各用户的决策满足约束条件,则直接获得奖励,否则,奖励为0。
[0145]
(2)计算优势与回报
[0146]
广义优势估计能够有效减少梯度估计的方差,被应用在近端策略优化算法中。令 v
φ
(s
t
)为马尔可夫决策过程中的状态值函数,即为估计智能体在某一状态下的预期回报的函数。令γ为折扣因子。优势函数将状态值函数归一化,在后续用于计算损失函数,表示为
[0147][0148]
回报函数计算为
[0149][0150]
进一步地,步骤5所述根据收集的动作、观测和奖励信息,各车辆用户通过共享的策略网络进行集中式训练,以截断方法约束策略的更新,计算执行者-评估者网络的损失函数且更新共享策略,具体为:
[0151]
近端策略优化算法利用收集的动作、观测和奖励信息,以及通过广义优势估计计算得到的优势,计算策略梯度,引入重要性采样以提高采样效率,再以截断方法设计损失函数以避免重要性采样产生误差,进而对损失函数进行梯度上升以更新策略。
[0152]
(1)策略梯度方法
[0153]
策略梯度算法计算梯度估计,然后使用随机梯度下降算法得到最优策略。最广泛使用的梯度估计表示为
[0154][0155]
其中,π
θ
是一个随机梯度函数,是时隙t的优势函数。进行梯度更新时,通常会构建一个梯度的损失函数,然后对该损失函数进行梯度上升或梯度下降。
[0156]
(2)重要性采样
[0157]
传统on-policy方法的缺点是采样效率低,这意味着采样的数据只能用于更新一次策略。因此,近端策略优化算法引入了另一个策略q。有以下公式推导:
[0158][0159]
其中,来自策略q的样本可用于多次更新策略p。但只有当p和q分布相似时,期望才能近似相等。否则,可能会出现很大的误差。
[0160]
(3)截断方法
[0161]
近端策略优化算法使用截断方法来约束策略的更新,降低了对迭代步长的敏感度,保证每次得出的新策略与原策略相近,将损失函数定义为
[0162][0163]
其中,ε为一个超参数。clip()为截断函数,如果意味着当前动作产生的回报大于基准动作的预期回报,故更新策略增加该动作出现的概率,此概率不能高于原策略的1+ε倍。反之若说明当前动作的回报小于基准动作预期回报,降低该动作出现概率,不低于原策略的1-ε倍。
[0164]
(4)多智能体集中训练分散执行框架
[0165]
多智能体强化学习通常使用两种框架:集中式学习与分布式学习。集中式方法通常假设一个合作型博弈,并通过学习统一的策略以将单智能体强化学习算法扩展至多智能体场景,从而同时产生多智能体的联合动作。而在分布式学习中,每个智能体独立优化自身的奖励。
[0166]
单纯的集中式学习与分布式学习可以解决一般的求和博弈,但即使面对简单的矩
阵博弈也可能表现不稳定。集中训练分散执行方法通过采用执行者-评估者框架并使用一个集中式的评估者来解决这一问题。
[0167]
多智能体近端策略优化为使用集中式值函数的集中训练分散执行算法。令所有车辆用户共享相同的执行者-评估者网络参数θ和φ,利用收集的动作、观测和奖励信息对网络进行更新。
[0168]
(5)多智能体近端策略优化
[0169]
多智能体近端策略优化算法在利用单智能体近端策略优化算法的基础上,使用值归一化、针对智能体的全局状态、训练数据处理、动作屏蔽和死亡屏蔽五个技巧提升了算法性能。
[0170]
a.值归一化
[0171]
通过平均值函数的估计值来对值函数进行归一化,稳定了对值函数的学习。具体来说,在学习过程中,标准化价值网络。在计算优势时,将反归一化价值网络的输出,适当缩放价值网络输出。
[0172]
b.针对智能体的全局状态
[0173]
多智能体近端策略优化算法中,对于智能体un,将全局状态与该智能体观测拼接为 {s,on},避免忽略某些状态信息,为进一步减小输入维度,裁切其中重复的信息后使用。
[0174]
c.训练数据处理
[0175]
由于多智能体强化学习的非平稳性,过于频繁的样本复用将降低多智能体近端策略优化的性能,故使用较少回合的样本进行训练。此外,由于在估计梯度时使用更多数据会提升算法性能,故避免将数据拆分为小批量。
[0176]
d.动作屏蔽
[0177]
根据算法应用的环境,或存在不可能被执行的动作,例如车辆用户选择缓存至存储容量已满的路边单元。在多智能体近端策略优化算法中,直接屏蔽这些无法执行的动作,提高算法效率。
[0178]
e.死亡屏蔽
[0179]
根据场景,智能体可能出现死亡的情况,例如车联网环境中车辆驶出场景范围。在多智能体近端策略优化算法中,屏蔽已死亡的智能体相关信息。
[0180]
多智能体近端策略优化算法结合了单智能体近端策略优化和以上改进,基于步骤2~步骤3收集的动作、观测和奖励等信息,训练执行者-评估者网络。设定所有智能体共享执行者和评估者网络,集中训练共享的策略。执行者网络在损失函数中增加了策略的熵,通过最大化熵,增加策略的随机性,鼓励对策略的探索,避免过早陷入局部最优解。
[0181]
设样本批量大小为bs,通过最大化以下函数进行训练:
[0182][0183]
其中,为策略熵,κ为熵系数超参数。
[0184]
评估者网络通过最小化以下函数进行训练:
[0185]
[0186]
通过对l
mappo
(θ)进行梯度上升,对l
mappo
(φ)进行梯度下降,完成对策略网络的更新。
[0187]
本实施例仿真采用python编程,参数设定不影响一般性。与所述方法进行对比的方法有:
[0188]
(1)随机车联网边缘缓存决策方法;
[0189]
(2)基于多智能体独立深度双q网络的车联网分布式边缘缓存决策方法;
[0190]
(3)基于单智能体近端策略优化的车联网集中式边缘缓存决策方法。
[0191]
车辆边缘网络模型如图2所示。假设在长度为1千米的单向车道上有10辆车辆行驶,道路两侧各均匀分布5个路边单元,各路边单元广播覆盖范围为500米,一个宏基站覆盖全道路范围,所有用户与其距离约等于1千米。表1列出了其它的仿真参数。
[0192]
表1主要仿真参数
[0193][0194]
如图3所示,相较于各对比方案,基于多智能体近端策略优化的车联网分布式边缘缓存决策方案收敛速度最快且收敛后的性能最优,验证了该方案能够大幅降低系统的传输时延且训练开销小。相比下,基于单智能体近端策略优化的车联网集中式边缘缓存决策方案收敛奖励较低且收敛速度较慢,原因在于近端策略优化算法作为on-policy算法,面对复杂的车联网环境,采样效率较低,与多智能体算法相比不具备优势。而基于多智能体近端策略优化的车联网分布式边缘缓存决策方案针对多智能体场景对近端策略优化算法作出多个改进,在车联网场景下更具优越性。
[0195]
如图4~图5所示,多智能体近端策略算法的执行者和评估者网络均能得到更稳定的损失,说明对于车联网边缘缓存决策问题,充分考虑多智能体环境特性,应用基于多智能体近端策略优化的分布式边缘缓存决策方案,能够使执行者评估者网络的损失函数更稳定,保证方案更为稳定地探索到最优缓存策略。
[0196]
如图6所示,随着用户数量增多,各方案的平均收敛奖励逐渐下降,其原因是边缘缓存资源紧张,使得车辆用户难以作出最小化传输时延的缓存部署决策。而当车辆用户达到20时,多智能体近端策略优化算法的车联网分布式边缘缓存方案仍具有最高的奖励。该
现象说明在缓存资源紧缺的情况下,各车辆用户能够利用各自的观测协同制定最小化系统传输时延的决策,进一步验证了其在车辆网络复杂情况下的优越性。
技术特征:1.一种基于多智能体近端策略的车联网分布式边缘缓存决策方法,其特征在于,包括以下步骤:步骤1、输入车辆边缘网络环境,初始化执行者-评估者网络参数;步骤2、各车辆用户观测自身坐标及各边缘接入点剩余存储空间;步骤3、各车辆用户制定缓存策略,根据策略选择边缘接入点,执行边缘缓存动作;步骤4、各车辆用户计算时延相关奖励,根据广义优势估计方法计算回报与优势;步骤5、根据收集的动作、观测和奖励信息,各车辆用户通过共享的策略网络进行集中式训练,以截断方法约束策略的更新,计算执行者-评估者网络的损失函数且更新共享策略;步骤6、判断是否所有车辆抵达设定路段终点:如果否,则返回步骤2;如果是,则结束当前回合,进入步骤7;步骤7、判断算法是否收敛:如果否,则返回步骤1;如果是,则算法结束,得到最终的车联网分布式边缘缓存决策。2.根据权利要求1所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法,其特征在于,步骤1中所述输入车辆边缘网络环境,其中车辆边缘网络环境包含:(1.1)时隙模型:将连续的训练时间离散化为多个时隙,用正整数t∈{1,2,...,t}来表示第t个时隙;假设单个时隙内车辆用户完成一次边缘缓存决策以及位置移动,且单个时隙内发射功率和信道噪声等环境状态不发生改变,而当车辆用户全部抵达设定的道路终点时称为一个回合;(1.2)网络模型:建立城市单向车道模型,假设网络中有n个车辆用户和m个边缘接入点,边缘接入点包括路边单元和宏基站;车辆用户沿单向车道行驶,表示为φ
u
={u1,u2,...,u
n
};边缘接入点为车辆用户提供缓存服务,宏基站覆盖全路段范围,路边单元均匀分布在道路两侧,表示为φ
r
={r0,r1,r2,...,r
m
},其中r0表示宏基站,{r1,r2,...,r
m
}表示路边单元;(1.3)通信模型:假设车辆用户和边缘接入点之间的信道增益由路径损耗和瑞利衰减组成;令d
m,n
表示车辆用户u
n
和边缘接入点r
m
之间的距离,表示车辆用户u
n
和边缘接入点r
m
之间的信道的路径损耗,其中τ为路径损耗指数;此外,令h
m,n
~exp(μ)表示u
n
和r
m
之间的瑞利衰减,其中μ为相应的比例系数,且对于所有边缘接入点r
m
与车辆用户u
n
,h
m,n
相互独立;令信道增益为假设车辆用户u
n
以发射功率p
n
在带宽为b的信道上进行通信;根据香农公式,车辆用户u
n
将请求内容缓存到边缘接入点r
m
的上行传输速率ζ
n,m
(t)表示为其中,σ2为高斯白噪声功率;令车辆用户的请求文件的内容大小为α
n
(bytes),车辆用户u
n
的数据传输时延表示为d
n
=α
n
/ζ
n,m
,数据的总传输时延表示为d
total
=σ
n∈n
d
n
;此外,令ddl
n
(s)为车辆用户请求内容容许的最大传输时延,各车辆用户传输时延应小等于其请求内容所容许的最大传输时延,
表示为d
n
≤ddl
n
;(1.4)缓存模型:令表示为车辆用户请求的内容集合;定义(p
f
)
n
×1为全局流行度,表示系统中各车辆用户请求内容f
n
的概率分布,其中p
n
为车辆用户u
n
请求内容f
n
的局部流行度;假设(p
f
)
n
×1遵循mandelbrot-zipf即mzipf分布:其中i
f
是内容f
n
按内容流行度降序排列的排名,δ和β分别表示平台因子和偏度因子;(1.5)车辆移动模型:车辆用户的速度被建模为高斯-马尔科夫随机过程;具体而言,当车辆用户u
n
以初始速度v
n,0
行驶时,根据时隙t-1处的速度v
n,t-1
和渐近速度计算车辆用户u
n
在时隙t处的速度v
n,t
,表示为其中,和是车辆用户u
n
速度的相应渐近均值和标准差;参数η
n
∈[0,1]表示过去速度的记忆深度,决定车辆用户u
n
移动的时间相关性;η
n
趋近于1时,车辆用户u
n
时隙t下的速度变得更加依赖于先前的速度;k是一个均值为零、方差为的独立随机高斯过程。3.根据权利要求2所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法,其特征在于,步骤2所述各车辆用户观测自身坐标及各边缘接入点剩余存储空间,具体为:根据时隙t下的环境状态,各车辆用户u
n
得到所需的观测表示为其中x
n
(t)和y
n
(t)表示当前车辆用户u
n
在时隙t下的x坐标和y坐标,表示路边单元r
m
在时隙t下的缓存状态;具体而言,时,路边单元r
m
的剩余存储空间能够处理用户的缓存请求,而如果路边单元r
m
因存储空间不足无法处理任何缓存请求。4.根据权利要求3所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法,其特征在于,步骤3所述各车辆用户制定缓存策略,根据策略选择边缘接入点,执行边缘缓存动作,具体为:时隙t下,车辆u
n
的动作为车辆u
n
的缓存策略,表示为其中,当时,车辆用户将内容缓存于宏基站,而当时,车辆用户将内容缓存至路边单元r
m
。5.根据权利要求4所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法,其特征在于,步骤4所述各车辆用户计算时延相关奖励,根据广义优势估计方法计算回报与优势,具体为:(4.1)各车辆用户的奖励为了最小化各用户缓存文件传输时延,各车辆用户的奖励函数r
n
(t)定义为
其中d
n
是在相应动作下进行缓存的时间成本;如果各用户的决策满足约束条件,则直接获得奖励,否则,奖励为0;(4.2)计算优势与回报令v(s
t
)为马尔可夫决策过程中的状态值函数,即为估计智能体在一状态下的预期回报的函数;令γ为折扣因子,r
t
为时隙t下的奖励,s
t
为时隙t下的状态,优势函数将状态值函数归一化,在后续用于计算损失函数,表示为回报函数计算为6.根据权利要求5所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法,其特征在于,步骤5所述根据收集的动作、观测和奖励信息,各车辆用户通过共享的策略网络进行集中式训练,以截断方法约束策略的更新,计算执行者-评估者网络的损失函数且更新共享策略,具体为:(5.1)近端策略优化算法利用收集的动作、观测和奖励信息,以及通过广义优势估计计算得到的优势,计算策略梯度,具体如下:策略梯度算法计算梯度估计,然后使用随机梯度下降算法得到最优策略,使用的梯度估计表示为其中,θ为策略参数,π
θ
是一个随机梯度函数,是时隙t的优势函数,a
t
为时隙t下的动作;进行梯度更新时,构建一个梯度的损失函数,然后对该损失函数进行梯度上升或梯度下降;(5.2)引入重要性采样以提高采样效率,重要性采样具体如下:近端策略优化算法引入了另一个策略q,令f(x)为策略梯度,p(x)与q(x)为两个策略,计算策略梯度有以下公式推导:其中,来自策略q的样本能够用于多次更新策略p;但只有当p和q分布相似时,期望才能近似相等;(5.3)以截断方法设计损失函数以避免重要性采样产生误差,具体如下:近端策略优化算法使用截断方法来约束策略的更新,降低对迭代步长的敏感度,保证每次得出的新策略与原策略相近,将损失函数定义为其中,ε为一个超参数,clip()为截断函数;如果意味着当前动作产生的回报大于基准动作的预期回报,故更新策略增加该
动作出现的概率,此概率不能高于原策略的1+ε倍;反之若说明当前动作的回报小于基准动作预期回报,降低该动作出现概率,不低于原策略的1-ε倍;(5.4)建立多智能体集中训练分散执行框架,具体如下:多智能体近端策略优化为使用集中式值函数的集中训练分散执行算法,令所有车辆用户共享相同的执行者-评估者网络参数θ和φ,利用收集的动作、观测和奖励信息对网络进行更新;(5.5)多智能体近端策略优化,具体如下:多智能体近端策略优化算法在利用单智能体近端策略优化算法的基础上,使用值归一化、针对智能体的全局状态、训练数据处理、动作屏蔽和死亡屏蔽五个处理过程,对损失函数进行梯度上升以更新策略。7.根据权利要求6所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法,其特征在于,(5.5)中,值归一化、针对智能体的全局状态、训练数据处理、动作屏蔽和死亡屏蔽,具体如下:a.值归一化通过平均值函数的估计值来对值函数进行归一化,稳定对值函数的学习,具体来说,在学习过程中,标准化价值网络;在计算优势时,将反归一化价值网络的输出,缩放价值网络输出;b.针对智能体的全局状态多智能体近端策略优化算法中,对于智能体u
n
,将全局状态与该智能体观测拼接为{s,o
n
},其中s为全局状态,o
n
为智能体u
n
的局部观测,为进一步减小输入维度,将全局状态和局部观测间重复的信息裁切;c.训练数据处理由于多智能体强化学习的非平稳性,过于频繁的样本复用将降低多智能体近端策略优化的性能,故使用与单智能体近端策略优化算法相比较少回合的样本进行训练;此外,由于在估计梯度时使用更多数据会提升算法性能,故默认不将数据拆分为小批量;d.动作屏蔽根据算法应用的环境,或存在不可能被执行的动作,在多智能体近端策略优化算法中,直接屏蔽无法执行的动作;e.死亡屏蔽根据场景,智能体可能出现死亡的情况,在多智能体近端策略优化算法中,屏蔽已死亡的智能体相关信息。8.根据权利要求7所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法,其特征在于,多智能体近端策略优化,结合了单智能体近端策略优化和(5.5)中的改进,基于步骤2~步骤4收集的动作、观测和奖励信息,训练执行者-评估者网络;设定所有智能体共享执行者和评估者网络,集中训练共享的策略,设样本批量大小为bs,执行者网络在损失函数中增加了策略的熵,通过最大化熵,增加策略的随机性,鼓励对策略的探索,避免过早陷入局部最优解,令θ为执行者网络的参数,通过最大化以下函数进行训练:
其中,为策略熵,κ为熵系数超参数;令φ为评估者网络的参数,评估者网络通过最小化以下函数进行训练:通过对l
mappo
(θ)进行梯度上升,对l
mappo
(φ)进行梯度下降,完成对策略网络的更新。
技术总结本发明公开了一种基于多智能体近端策略的车联网分布式边缘缓存决策方法,具体为:输入车辆边缘网络环境,初始化执行者-评估者网络参数;各车辆用户观测自身坐标及各边缘接入点剩余存储空间;各车辆用户根据策略选择边缘接入点,执行边缘缓存动作;各车辆用户计算时延相关奖励,根据广义优势估计方法计算回报与优势;根据收集的动作、观测和奖励信息,各车辆用户通过共享的策略网络进行集中式训练,以截断方法约束策略的更新,计算执行者-评估者网络的损失函数且更新共享策略,实现分布式车联网边缘缓存决策。本发明使得车联网用户中每个车辆用户智能体能够充分利用自身观测信息,协同分配系统边缘缓存资源,从而降低缓存内容传输时延。输时延。输时延。
技术研发人员:陈孟骐 林艳 包金鸣 张一晋 李骏 束锋
受保护的技术使用者:南京理工大学
技术研发日:2022.07.22
技术公布日:2022/11/1