基于行驶状态优先级和场景模拟的CVN频谱调度方法及系统

专利2023-03-19 190

基于行驶状态优先级和场景模拟的cvn频谱调度方法及系统
技术领域
1.本发明涉及一种基于行驶状态优先级和场景模拟的cvn(cognitive vehicular networks，认知车联网)频谱调度方法及系统，属于车联网技术领域。

背景技术：

2.当下，车联网被认为是智能交通网络系统中的一个新兴概念，简单来说，就是车辆与车辆之间或是车辆与基础设施之间进行通信的信息网。随着无处不在的网络和智能交通系统的迅猛发展，万物互联的高效通信已经引起了人们的广泛关注。智能交通的快速发展对车联网的安全业务及娱乐服务提出了更高的要求，使车联网面临着通讯需求的爆发式增长，这就引起了一系列的问题。
3.首先，授权频谱资源利用不足和车联网频谱资源短缺问题是制约车联网技术发展和落地的重要原因。为满足今后大规模的城市车联网的频谱资源需求，就需要更加高效的动态频谱资源调度方案。依托于认知车联网网络技术，我们试图将蜂窝网络下空闲的频谱资源合理分配给认知车辆用户。
4.对于移动无线网络中的动态频谱分配，目前已有很多相关研究。其中，主流的研究方法主要可分为四类：(1)基于传统优化理论的分配方法；(2)基于博弈论的分配方法；(3)基于群智能优化的粒子群算法；(4)基于机器学习的分配方法。虽然上述方法可以用于解决频谱分配问题，但也存在许多显而易见的不足。首先，当约束条件复杂时，传统的优化理论和博弈论不适合快速求解大规模动态规划问题。其次，群体智能优化容易陷入局部最优。此外，群体智能优化算法中的有效参数的设置和选择也是复杂的。最近，深度强化学习(deep reinforcement learning,drl)算法已被证明能够解决具有高维状态和动作空间的复杂动态决策问题。借助试错法的思想，它可以了解环境中潜在的规律，从而辅助智能决策。然而，这种基于机器学习的方法也存在一些局限性，如学习速度慢、收敛性差、自适应能力差等。
5.另外，考虑以下两方面问题：一方面，以上工作并没有将车辆的行驶状态信息纳入频谱资源调度的过程中，基于对车辆环境背景信息的纳入是可以改善频谱分配方案可靠性的。另一方面，现有的频谱分配方法往往依赖于专家经验知识和复杂的参数设置，搜索结构的可移植性不强，所以需要一种更加高效的搜索结构。现有的有关认知无线电频谱分配的研究工作并未对车辆用户自身的移动性和网络场景的额外收益进行评价并纳入求解的过程中。

技术实现要素：

6.本发明的目的是解决现有技术中基站侧频谱资源利用率低下的问题。
7.为了达到上述目的，本发明的一个技术方案是提供了一种基于行驶状态优先级和场景模拟的cvn频谱调度方法，其特征在于，包括以下步骤：
8.s1：根据认知车辆的行驶状态及地理分散程度，计算得到认知车辆的优先级服务顺序列表；
9.s2：基于优先级服务顺序列表，使用马尔可夫决策过程构建蒙特卡洛搜索树算法框架，包括以下步骤：
10.根据以下公式定义马尔可夫决策过程的状态空间和动作空间：
[0011][0012]
式中，sv表示节点v的状态值，其由λv、ξv组成；表示基站侧的剩余带宽向量，表示信道m的剩余带宽；表示请求被分配的认知车辆个数；ξv表示个认知车辆的总带宽要求；动作am表示智能体将信道m分配给当前可进入分配序列的一辆车；m表示信道总数；
[0013]
基于状态空间和动作空间，构建蒙特卡洛搜索树，该蒙特卡洛搜索树由节点和边组成：每个节点都维护一个节点状态值，包括节点被访问的次数、环境状态值以及节点获得的累计奖励值；边表示导致状态转换的动作；
[0014]
按照优先级服务顺序列表依次对认知车辆进行频谱分配，并扩展子节点、更新节点状态值，形成蒙特卡洛搜索树算法框架；
[0015]
s3：使用蒙特卡洛搜索树算法依次迭代执行树策略、基于差异化场景的模拟及反向传播过程，以得到所述认知车联网的最优频谱分配方案，其中，树策略包括选择和面向约束的扩展，具体包括以下步骤：
[0016]
执行选择过程时，从根节点开始，当必须选择当前节点将下降到哪个子节点时，使用蒙特卡洛搜索树的置信上限uct递归选择子节点，最终，将置信上限uct最大的子节点视作当前节点进行下一步的扩展；
[0017]
当选择过程达到终止时，执行面向约束的扩展操作：
[0018]
判断当前节点的访问次数是否为0，若访问次数则直接进入模拟阶段；若访问次数枚举所有可用的动作，枚举时根据下式定义的约束条件修剪动作空间，以便从当前节点获得所有可用动作：
[0019][0020]
式中：k表示主用户k的总数；认知车辆n为二级用户，n为二级用户总数；m表示信道m的总数；信道可用矩阵l＝{l
n,m
|l
n,m
∈{0,1}}n×m，当信道m对二级用户n可用时，l
n,m
＝1；反
之，当信道m对二级用户n不可用时，l
n,m
＝0；二级用户干扰矩阵c＝{c
n,n
′
,m
|c
n,n
′
,m
∈{0,1}}n×n×m，c
n,n
′
,m
＝1表示当二级用户n和n
′
共用信道m进行信息传输时存在相互干扰，c
n,n
′
,m
＝0则表示二级用户n和n
′
可以在满足无干扰约束条件下同时使用信道m；信道分配矩阵a＝{a
n,m
|a
n,m
∈{0,1}}n×m，a
n,m
＝1表示将信道m分配给二级用户n，a
n,m
＝0则视为不将信道m分配给二级用户n；信道奖励矩阵r＝{r
n,m
|r
n,m
≥0}n×m，r
n,m
表示二级用户n使用信道m时所获得的网络奖励；p
m,k,n
表示主用户k在信道m上接收到的二级用户n的干扰功率；δ
m,k
表示主用户k在信道m上的最大可接受干扰功率；u(a,r)表示网络系统总链路容量，am、rm分别表示信道分配矩阵a、信道奖励矩阵r的第m列向量，运算符号表示哈达玛积，sum是返回矩阵所有条目总和的运算符；表示二级用户n在信道m上的传输功率，和分别表示二级用户n在信道m的最小、最大允许传输功率；φm表示信道m的可用带宽阈值，表示rm的转置向量；
[0021]
然后，添加新节点以展开蒙特卡洛搜索树，并将当前节点设置为一个扩展后随机选择的新子节点；
[0022]
若当前节点的访问次数为0，则执行从当前节点到终端叶子节点的模拟，当前节点为新扩展的节点终端叶子节点用表示，则模拟时将主用户的网络服务持续时间τ纳入模拟过程中多阶段扩展的奖励评价中，设主用户k的服务持续时间τk对应一个不确定性场景πk，且主用户的网络服务持续时间服从对数正态分布；在每层模拟时进行χ次采样，以控制计算规模，得到一个场景集合，表示为则基于差异化场景的模拟包括以下步骤：
[0023]
当分配信道m给认知车辆n时，搜索树执行从节点到下一节点的模拟，此时节点的随机收益为：
[0024][0025]
式中：e表示认知车辆n在χ个场景下获得的随机收益的期望；τi是来自分布的采样之一，1≤i≤χ，τ
i-1
就刻画了主用户服务持续时间和车辆用户收益之间的关系；utilityn＞0是一个表示认知车辆n的网络效用分数的权重系数，使用双曲正切函数tanh(
·
)将认知车辆n的utilityn值归一化到区间[0,1]内；count(lm)记录了信道可用矩阵l的第m列中元素为1的个数，count(am)记录了信道分配矩阵a的第m列中元素为1的个数，count(lm)-count(am)描述了在不考虑干扰约束c和容量约束φm时信道m上最多可接入的车辆用户数，λm表示信道m的剩余带宽，度量了认知车辆n当前能获得的剩余最小平均带宽；
[0026]
在模拟阶段为节点调整了奖励qv′
：
[0027][0028]
式中，r
n,m
是指将信道m分配给认知车辆n的即时奖励；
[0029]
当模拟到达终端叶子节点时，得到从节点到终端叶子节点的模拟路径上所有节点的累积模拟奖励也即：
[0030][0031]
当一次迭代到达终端叶子节点后，得到累积模拟奖励进行反向传播，反向传播的目的是在下一次迭代之前更新搜索树先验探索的经验信息，反向传播的奖励包含所有模拟路径上的扩展节点的奖励评价，反映了当前迭代中模拟策略的整体频谱分配性能；
[0032]
达到迭代终止条件后，输出当前认知车联网的最优频谱分配方案。
[0033]
优选地，所述步骤s1包括以下步骤：
[0034]
步骤s11：对一个发起服务请求的认知车辆n，根据其行驶方向、gps坐标、速度和加速度，计算得到车辆行驶评价分数travelingscoren：
[0035][0036]
式中，θn为认知车辆n的gps坐标位置和基站位置的连线与车辆当前行驶方向的夹角；vn表示认知车辆n的速度，v
min
、v
max
分别表示认知车辆n行驶速度的最小值和最大值；an表示认知车辆n的加速度；
[0037]
s12：根据认知车辆n的地理分散程度，计算得到车辆的网络效用分数utilityn：
[0038][0039]
式中，snrn为认知车辆n的接收机接收来自基站的信号的信噪比；log2(1+snrn)表示车辆n在有限带宽中的数据接收速率，即车辆可实现的吞吐量；dispersion
n,n
′
表示认知车辆n和认知车辆n
′
之间的分散度，∑
1≤n,n
′
≤n,n≠n
′
dispersion
n,n
′
表示认知车辆n在基站覆盖范围内的全局用户分散度。
[0040]
s13：根据车辆行驶评价分数及网络效用分数，计算得到车辆的综合优先级评价分数priorityscoren：
[0041]
priorityscoren＝travelingscoren·
utilityn[0042]
s14：将不同车辆的综合优先级评价分数进行从大到小排序，以得到当前分配周期内认知车辆的优先级服务顺序列表。
[0043]
优选地，步骤s12中，认知车辆n和认知车辆n
′
之间的分散度dispersion
n,n
′
定义为：
[0044][0045]
式中，εn表示分散度阈值；d
n,n
′
表示认知车辆n和认知车辆n
′
之间的平均分散时间。
[0046]
优选地，步骤s12中，认知车辆n和认知车辆n
′
之间的平均分散时间d
n,n
′
定义为：
[0047][0048]
式中，β
n,n
′
(t)表示认知车辆n和认知车辆n
′
之间的通信分散状态：当认知车辆n和认知车辆n
′
在地理位置上存在通信干扰时，β
n,n
′
(t)＝0，表示二者处于相遇状态；当认知车辆n和认知车辆n
′
在地理位置上不存在通信干扰，则γ
n,n
′
(t)＝1，表示二者处于分散状态；
表示认知车辆n和认知车辆n
′
在一个分配周期t内的总分散时间；τ
n,n
′
表示认知车辆n和认知车辆n
′
在一个分配周期t内处于分散状态的统计次数。
[0049]
优选地，所述步骤s2中，按照优先级服务顺序列表依次对认知车辆进行频谱分配，并扩展子节点、更新节点状态值，形成蒙特卡洛搜索树算法框架包括以下步骤：
[0050]
创建蒙特卡洛搜索树的根节点v，并初始化根节点的节点状态值其中，为节点v被访问的次数，sv为环境状态值，qv为节点v获得的累计奖励值；
[0051]
从根节点v开始按照优先级服务顺序列表依序对每一辆认知车辆的频谱进行分配，蒙特卡洛搜索树的每一层扩展表示对一辆认知车辆的频谱进行分配；当当前认知车辆的信道分配动作时，蒙特卡洛搜索树向下扩展到子节点，并更新子节点的节点状态值，直至树扩展达到迭代终止条件，迭代就终止；
[0052]
当蒙特卡洛搜索树从一个节点扩展到下一个节点时，采用基于深度神经网络构建的离线环境状态预测器基于当前节点v的环境状态值sv以及当前认知车辆的信道分配动作am获得下一个节点v
′
的环境状态预测值则有：
[0053][0054]
式中，w
esp
为深度神经网络的参数，f
esp
为状态动作转移函数。
[0055]
优选地，对所述离线环境状态预测器进行训练时，将蒙特卡洛搜索树算法冷启动阶段后的一段时间内，通过基站获得的状态-动作转移对当做训练数据输入到所述离线环境状态预测器中，获得所述状态动作转移函数f
esp
。
[0056]
优选地，步骤s3中，最优子节点的选择准则为：
[0057][0058]
式中，c≥0是用来调整探索和利用权重的系数；child(v)表示蒙特卡洛搜索树中以当前节点v为父节点的子节点的集合；分别表示子节点v
′
和其父节点v被迭代访问的总次数；qv′
表示子节点v
′
所获得的累计奖励。
[0059]
优选地，使用表示从节点v开始进入下一轮为当前待分配认知车辆n进行信道分配的可选动作集合，也即当前待分配认知车辆n的无干扰动作空间，则步骤s3中，修剪动作空间时，采用以下步骤来进行动作剪枝：
[0060]
将当前待分配认知车辆n的信道可用矩阵l引入搜索树进行剪枝以减小可选动作集合，即把认知车辆n的信道可用矩阵l中l
n,m
＝1的元素映射为可选动作集合；
[0061]
把认知车辆之间的二级用户干扰矩阵c引入树搜索进行树结构的剪枝，判断an′
,m
＝1和c
n,n
′
,m
＝1是否同时成立，若两个条件同时成立，则将动作空间中的信道分配动作am移出动作集合；
[0062]
对步骤s3中定义的约束条件是否同时成立进行判断，如果当前待分配认知车辆n的可选信道m不满足这些约束，则将信道分配动作am从可选动作集合中移除；
[0063]
若将跳过当前分配，等待下一轮分配。
[0064]
优选地，步骤s3中，根据以下统计规则对从根节点到扩展节点路径上的节点状态
值进行更新：
[0065]
本发明的另一个技术方案是提供了一种基于行驶状态优先级和场景模拟的cvn频谱调度系统，其特征在于，用于实现上述的基于行驶状态优先级和场景模拟的cvn频谱调度方法，包括：
[0066]
优先级计算模块，用于根据认知车辆的行驶状态及地理分散程度，计算得到所述认知车辆的优先级服务顺序列表；
[0067]
算法构建模块，用于根据所述优先级服务顺序列表，使用马尔可夫决策过程构建蒙特卡洛搜索树算法框架；
[0068]
算法执行模块，用于使用所述蒙特卡洛搜索树算法依次迭代执行树策略、基于差异化场景的模拟及反向传播过程，以得到所述认知车联网的最优频谱分配方案。
[0069]
本发明提供的一种基于行驶状态优先级和场景模拟的认知车联网频谱调度方法及系统，具有以下效果：可以实现未知网络流量环境下频谱调度方案的自适应学习，快速给出近似最优解，极大地改善了蜂窝网络内认知车辆用户的链路容量和通信质量。
附图说明
[0070]
图1显示为本发明一实施例中认知车联网频谱调度的系统场景示意图。
[0071]
图2显示为本发明实施例中公开的一种认知车联网频谱调度方法的流程示意图。
[0072]
图3显示为本发明一实施例中finder-mcts的搜索步骤示意图。
[0073]
图4显示为本发明一实施例中finder-mcts的迭代计算过程示意图。
[0074]
图5显示为本发明一实施例中finder-mcts的迭代计算流程示意图。
[0075]
图6显示为本发明一实施例中finder-mcts的反向传播过程示意图。
[0076]
图7显示为本发明中认知车联网频谱调度系统的原理结构示意图。
具体实施方式
[0077]
下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本技术所附权利要求书所限定的范围。
[0078]
如图1所示，在本发明的一实施例中，设计的分配算法部署在基站上，配备认知无线电模块的车辆节点可以感知是否存在可用的频谱资源。车辆可以使用公共控制信道向基站发送访问该信道的请求。基站集中收集来自每辆车辆的请求后，学习将可用信道资源分配给覆盖区域内的认知车辆的近似最优策略。由于车联网是一个动态网络，设计的频谱资源分配算法必须在定义的分配时间窗口内执行，大的时间窗口不能满足车联网的实时性要求，但时间窗口太小又不能支持算法良好运行。在本实施例中，时间窗口的大小为10s。
[0079]
在认知车联网频谱调度的系统场景中，主用户是当前网络中的授权移动电话用户，二级用户是配电认知无线电模块的车辆。在本实施例中，认知车联网在t时刻有n个二级用户去竞争m个信道资源，且各个信道之间是正交非重叠的。当主用户k(1≤k≤k)占用某授
权信道m(1≤m≤m)时，k表示主用户总数，主用户周围会产生一个保护区，且其保护半径为同样地，由于每个二级用户n(1≤n≤n)在不同的信道m上具有不同的发射功率，因此也会产生不同的干扰半径于是，主用户k与二级用户n之间的地理间距为二者坐标之间的欧氏距离，即当不等式约束成立时，也即主用户k在信道m上产生的通信保护范围与二级用户n产生的干扰范围在空间上产生了交集，则认为主用户k与二级用户n之间存在通信干扰；反之，若不等式约束不成立，则认为主用户k与二级用户n之间不存在通信干扰。同理，两个不同的二级用户n和n
′
之间的欧氏距离为当不等式成立时，两个不同的二级用户n和n
′
之间存在通信干扰；反之，则认为两个不同的二级用户n和n
′
之间没有通信干扰。通信干扰影响着多信道多用户的频谱分配原则，即在主用户拥有信道最高优先级使用权限的同时，当两个用户之间不存在通信干扰时，二者可以使用同一信道进行信道传输；反之，二者不能同时接入使用同一信道。
[0080]
其次，频谱资源分配模型由信道可用矩阵l、二级用户干扰矩阵c、无冲突信道分配矩阵a和信道奖励矩阵r组成。首先，信道可用矩阵l＝{l
n,m
|l
n,m
∈{0,1}}n×m是一个用来表示信道可用性的矩阵。当信道m对二级用户n可用时，l
n,m
＝1；反之，当信道m对二级用户n不可用时，l
n,m
＝0。而为了确定信道m对于二级用户n是否可用，需要进行两方面分析：首先，当不等式成立时，二级用户n不能使用主用户k占用的信道；其次，二级用户n需要将其在信道m上接收到的干扰功率与其能实现有效传输的干扰功率阈值进行比较，如果满足以下不等式，则认为信道m对二级用户n可用：
[0081][0082]
式(1)中，p
m,n,k
是二级用户n接收到的来自信道m的主用户k的功率；nm表示信道m的环境背景噪声水平；γm表示在信道m上的最大可接受干扰水平。
[0083]
二级用户干扰矩阵c＝{c
n,n',m
|c
n,n',m
∈{0,1}}n×n×m是一个用来描述两个不同的二级用户n和n'之间干扰的矩阵。c
n,n',m
＝1表示当二级用户n和n'共用信道m进行信息传输时存在相互干扰；反之，c
n,n',m
＝0则表示二级用户n和n'可以在满足无干扰约束条件下同时使用信道m。特别的，对于n＝n'，有c
n,n,m
＝1-l
n,m
成立。并且，矩阵元素要满足c
n,n',m
≤l
n,m
×
l
n',m
，即只有信道m同时对二级用户n和n'可用时，才可能产生干扰。
[0084]
信道分配矩阵a＝{a
n,m
|a
n,m
∈{0,1}}n×m是一个用来描述无冲突的二级用户信道分配结果的矩阵。其中，a
n,m
＝1表示将信道m分配给二级用户n；反之，a
n,m
＝0则视为不将信道m分配给二级用户n。同时，信道分配矩阵a的建立也必须满足由二级用户干扰矩阵c给出的干扰约束，即，对于两个不同的二级用户n和n'，当c
n,n',m
＝1时，有等式a
n,m
·an',m
＝0成立。另外，在本实施例中，每个二级用户只能占用一个信道进行信息传输，所以，对于任意两个不同的信道m和m'，任一二级用户n∈n的决策变量应该满足不等式a
n,m
+a
n,m'
≤1。
[0085]
信道奖励矩阵r＝{r
n,m
|r
n,m
≥0}n×m是一个用来表示不同二级用户链路信道奖励的矩阵。r
n,m
表示二级用户n使用信道m时所获得的网络奖励，由链路容量进行评价，表示为：
[0086]rn,m
＝wm·
log2(1+sinr
n,m
)
ꢀꢀꢀꢀꢀ
(2)
[0087]
式(2)中，wm是信道m的带宽，sinr
n,m
表示二级用户n接入信道m的链路信噪比，其计算公式如下：
[0088][0089]
式(3)中，am表示信道分配矩阵a的第m列；count(am)表示信道m上分配的二级用户总数；p
m,n
表示在信道m上，接收机(基站)从发射机(二级用户n)接收的信号功率。
[0090]
由上面的定义和分析可知，满足分配限制条件的信道分配矩阵a不止一个，因此对应的频谱分配方案也有多种，而选择不同的频谱分配方案会产生不同的系统总奖励，本发明的目标就是求解一个最优信道分配矩阵a
*
，使得按照最优信道分配矩阵a
*
对应的分配方案进行频谱分配时，能获得最大的网络系统总链路容量u(a,r)，所述总链路容量定义为：
[0091][0092]
式(4)中，am、rm分别表示信道分配矩阵a、信道奖励矩阵r的第m列向量；运算符号表示哈达玛积，即两个向量对应位置元素的乘积；sum是返回矩阵所有条目总和的运算符。am可以看作是n
×
1维的0/1决策向量，rm则是一个n
×
1维的实数奖励向量，是一个n
×
1维的向量。
[0093]
因此，通过优化接入二级用户的分配方案的质量，将可用的频谱资源分配给更合理的认知用户，可以解决基站侧频谱资源利用率低下的问题。综上，我们将这一频谱资源分配的组合优化问题描述为公式(4)及公式(5.1)-(5.8)所示的二进制整数线性规划问题(binary integer linear programming，bilp)：
[0094][0095]
其中，公式(5.1)给出了输入矩阵向量am和rm的元素取值范围；公式(5.2)保证了分配方案中二级用户n所分配的信道一定是可用的信道；为了避免指定信道m上的链路冲突，保护各认知用户的通信免受其他认知用户的干扰，该信道的无冲突信道分配矩阵元素应当满足等式(5.3)。公式(5.4)说明每个二级用户只能占用一个信道进行信息传输。在约束条件(5.5)中，表示二级用户n在信道m上的传输功率，和分别表示二级用户n在
信道m的最小、最大允许传输功率。在约束条件(5.6)中，p
m,k,n
表示主用户k在信道m上接收到的二级用户n的干扰功率，δ
m,k
表示主用户k在信道m上的最大可接受干扰功率。对于任何主用户k，其所占用的信道m上的总接收干扰信号功率必须保持在最大可接受的干扰阈值以下，也即保证主用户不被该信道上的二级用户通信所干扰。在约束条件(5.7)中，φm表示信道m的可用带宽阈值，表示rm的转置向量，这一约束保证了信道m所接入链路的总网络容量应该小于等于其可用带宽。
[0096]
如图2所示，本发明提供了一种基于行驶状态优先级和场景模拟的认知车联网频谱调度方法，包括以下步骤：
[0097]
s1：根据认知车辆的行驶状态及地理分散程度，计算得到认知车辆的优先级服务顺序列表；
[0098]
s2：基于优先级服务顺序列表，使用马尔可夫决策过程构建蒙特卡洛搜索树算法框架；
[0099]
s3：使用蒙特卡洛搜索树算法依次迭代执行树策略、基于差异化场景的模拟及反向传播过程，以得到认知车联网的最优频谱分配方案，其中，树策略又包括选择和面向约束的扩展。
[0100]
本发明提供的认知车联网频谱调度方法，通过定义一个车辆行驶评估分数和一个网络效用分数，得到每辆车的综合优先评估分数。根据优先级得分，将可用的频谱资源从最高的优先级分配给最低的车辆用户，这可以提高在车联网中进行动态频谱分配时的性能。然后结合优先级评分，我们给出了基于不同车联网场景的蒙特卡洛搜索树算法。相比于经典的蒙特卡洛搜索树(monte carlo tree search，mcts)，此算法提供了一个面向约束的树扩展和场景模拟机制，可以实现未知网络流量环境下频谱调度方案的自适应学习，并快速给出近似最优解，极大地改善了蜂窝网络内认知车辆用户的链路容量和通话质量。为了区别经典的mcts，将本发明中的算法称为finder-mcts。
[0101]
进一步地，步骤s1包括：
[0102]
s11：对一个发起服务请求的二级用户n，根据其行驶方向、gps坐标、速度和加速度，计算得到车辆的车辆行驶评价分数travelingscoren：
[0103][0104]
式(6)中，θn为车辆n的gps坐标位置和所述基站位置的连线与车辆当前行驶方向的夹角；vn表示车辆n的速度，v
min
、v
max
分别表示车辆n行驶速度的最小值和最大值；an表示车辆n的加速度。
[0105]
s12：根据车辆的地理分散程度，计算得到车辆的网络效用分数utilityn：
[0106][0107]
式(7)中，snrn为车辆n的接收机接收来自基站的信号的信噪比；log2(1+snrn)表示车辆n在有限带宽中的数据接收速率，即车辆可实现的吞吐量；∑
1≤n,n
′
≤n,n≠n
′
dispersion
n,n'
表示车辆n在基站覆盖范围内的全局用户分散度。
[0108]
s13：根据车辆行驶评价分数及网络效用分数，计算得到车辆的综合优先级评价分
数priorityscoren：
[0109]
priorityscoren＝travelingscoren·
utilitynꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0110]
s14：将不同车辆的综合优先级评价分数进行从大到小排序，以得到当前分配周期内认知车辆的优先级服务顺序列表。
[0111]
显然，相对较大的夹角θn表示车辆n将在未来相对较短的时间内驶出基站覆盖范围，因此，具有相对较大夹角的认知车辆应该被给予相对低的频谱分配权重；具有相对较小夹角的认知车辆应该被给予相对高的频谱分配权重。我们使用将夹角归一化到区间[0,1]之内。另外，对于行驶速度偏大的车辆，在未来短时间内将会行驶出基站覆盖范围，应该被予以相对低的频谱分配权重；反之，行驶速度偏小的车辆应该被予以相对高的频谱分配权重，于是，我们采用标准化公式来刻画车辆n的行驶速度对频谱分配权重的影响。除此之外，同一方向上加速度的大小与速度的大小变化正相关，所以对于行驶加速度相对偏大的车辆，其将显著加快行驶速度，故应被给予相对低的频谱分配权重；反之，加速度相对偏小的车辆应该被给予相对高的频谱分配权重。为归一化到区间[0,1]，我们采用来强调车辆行驶加速度对车辆频谱分配权重的影响。另外，为了将travelingscoren的取值约束到区间[0,1]之内，还需要乘以最终得到公式(6)。车辆行驶评价分数越高，意味着车辆的本地状态未来在网络中的接入状态更趋于稳定，在当前认知车联网中留存的时间也越长，故车辆将获得更高的频谱分配权重。
[0112]
进一步地，在步骤s12中，两个不同的车辆n和n'之间的分散度定义为：
[0113][0114]
式(9)中，εn表示分散度阈值；d
n,n'
表示两个不同的车辆n和n'之间的平均分散时间，定义为：
[0115][0116]
式(10)中，β
n,n'
(t)表示两个不同的车辆n和n'之间的通信分散状态。当两个不同的车辆n和n'在地理位置上存在通信干扰时，β
n,n'
(t)＝0，表示二者处于“相遇”状态；反之，若两个不同的车辆n和n'在所述地理位置上不存在所述通信干扰，则β
n,n'
(t)＝1，表示二者处于“分散”状态。表示两个不同的车辆n和n'在一个分配周期t内的总分散时间；τ
n,n'
表示两个不同的车辆n和n'在一个分配周期t内处于“分散”状态的统计次数。显然，平均分散时间d
n,n'
的值越大，表示二级用户n和n'处于“分散”状态的时间越长，则车辆n的全局用户分散度∑
1≤n,n'≤n,n≠n'
dispersion
n,n'
越大，此时用户的网络效用分数也就越高。网络效用分数较大的车辆意味着全局通信能力相对较好，因此车辆也将获得更高的频谱分配权重。
[0117]
本实施例中，分散度阈值εn通过取当前基站覆盖范围内所有车辆的平均分散时间的中位数而得到。
[0118]
在本发明的一实施例中，车辆行驶评价分数和网络效用分数是由基站通过实时采集分析网络中车辆的相关特征信息得出的。所以对于网络中向基站发起服务请求的车辆用户，基站利用采集到的车辆信息来计算所请求车辆的优先级分数，并从大到小进行排序，以此得到当前分配周期内认知网络中用户的优先级服务顺序列表。这一优先级服务顺序列表将被作为二级用户的分配顺序列表，从而保证网络中不同分配权重的车辆用户根据优先级接入，提高了频谱调度方案的可靠性。
[0119]
进一步地，步骤s2包括：
[0120]
分别根据以下公式定义马尔可夫决策过程的状态空间和动作空间：
[0121][0122]
式(11)中，sv表示节点v的状态值，其由三部分组成：λv、ξv，其中：表示基站侧的剩余带宽向量，表示信道m的剩余带宽；表示请求被分配的车辆个数；ξv表示个车辆的总带宽要求；动作am表示智能体将信道m分配给当前可进入分配序列的一辆车。
[0123]
基于状态空间和动作空间，构建finder-mcts。其中，finder-mcts由节点和边组成，每个节点都维护一个节点状态值，其包括三种统计信息：节点被访问的次数、状态值以及节点获得的累计奖励值；边表示导致状态转换的动作。
[0124]
按照优先级服务顺序列表依次对车辆进行频谱分配，并扩展子节点、更新节点状态值，形成finder-mcts的算法框架。
[0125]
如图3所示，本发明一实施例中finder-mcts的搜索步骤包括：
[0126]
首先创建搜索树的根节点v，并初始化根节点的节点状态值其中，为节点v被访问的次数，sv为状态值，qv为节点v获得的累计奖励值。在本实施例中，车辆的优先级服务顺序列表为vehicle id3、vehicle id1、vehicle id2，且搜索树的每一层扩展表示对一辆车的频谱进行分配。因此，从根节点v开始先对车辆vehicle id3进行频谱分配，当车辆vehicle id3的信道分配动作a1时，搜索树向下扩展到子节点v'，并更新子节点v'的节点状态值为其中，每一个分配过程都包含了选择、扩展、模拟及反向传播的迭代计算过程；当完成了车辆vehicle id3的分配后，紧接着从节点v'开始对车辆vehicle id1进行频谱分配，当车辆vehicle id1的信道分配动作a5时，搜索树向下扩展到子节点v”，并更新子节点v”的节点状态值；以此类推，当树扩展达到迭代终止条件，即二级用户被分配完毕或者信道可用带宽资源被分配无剩余时，迭代就终止。此时黑色箭头线指示的分配路径为v
→
v'
→v”→
v”'，其对应动作构成的分配策略集为{a1,a5,a1}，根据优先级服务顺序列表及分配策略集，可以得到一个信道分配矩阵an×m。
[0127]
由于一级用户频谱占用活动的不确定性，当树从一个节点扩展到下一个节点时，扩展将不稳定，也即给定一个状态和动作，下一个状态是不确定的。因此，为了限制搜索树的水平扩展规模并加快搜索速度，有必要在进行频谱分配时逐步学习接近cvn的真实环境
模型，于是，本发明提供了一种基于深度神经网络(deep neural network，dnn)的离线环境状态预测器(environmental state predictor，esp)。由于获得esp需要足够多的训练数据，所以，在finder-mcts的冷启动阶段，即算法刚开始运行阶段，是不用esp的；而且在冷启动阶段后的一段时间内，基站可以实时算得并获取相当数量的“状态-动作转移对”。随后，我们不断地把这些“状态-动作转移对”当做训练数据输入到esp中，这样就可以获得状态动作转移函数f
esp
，而且这是一个离线训练的过程。当有了f
esp
后，finder-mcts的搜索将会由于分支的缩小而加快收敛。
[0128]
dnn的网络结构由一个输入层，三个隐藏层和一个输出层构成。在本实施例中，dnn的学习率设置为0.05，dnn的激活函数选用修正线性单元(relu)，且采用mini-batch梯度下降法去优化dnn的网络参数，以保证训练收敛的速度和准确性。首先，在dnn中，训练标签是真实环境状态sv′
，它是结点v对应扩展子节点v'的状态；其次，使用esp预测下一时刻的状态则损失函数为：
[0129][0130]
式(12)中，b表示mini-batch梯度下降中批的大小，在本实施例中b＝64，表示每次迭代会选取64个样本；||
·
||2表示l2范数。
[0131]
当损失函数达到收敛后，更新优化dnn网络的参数w
esp
，然后基于选定的动作am和状态sv，使用esp得到扩展节点的环境状态：
[0132][0133]
如图4、5所示，finder-mcts需要依次迭代执行选择、扩展、模拟和反向传播过程，而选择和扩展又一起称为树策略。
[0134]
首先，finder-mcts执行选择过程时，从根节点开始，当算法必须选择它将下降到哪个子节点时，算法试图在开发和探索之间找到一个良好的平衡。在本发明的一实施例中，我们使用树的置信上限(uct)递归选择子节点，最终，算法会将uct值最大的子节点视作当前节点进行下一步的扩展。最优子节点的选择准则为：
[0135][0136]
式(14)中，c≥0是用来调整探索和利用权重的系数，在本实施例中，设置c＝0.8。child(v)表示finder-mcts树中以v为父节点的子节点的集合。分别表示子节点v'和其父节点v被迭代访问的总次数。qv'表示叶子节点v'所获得的累计奖励。值得注意的是，所选子节点应该是可扩展的，即具有未访问的子节点，并表示非终结状态。
[0137]
当选择过程达到终止时，算法会接着执行扩展操作。算法首先判断当前节点的访问次数是否为0，若访问次数则算法直接进入模拟阶段；若访问次数算法会枚举所有可用的动作。然而，如果只是简单枚举，则下一层的可选动作数为m，于是，随着树的扩展，更多的动作扩展将会使得搜索树在下降的同时形成庞大的搜索结构，其计算复杂度与网络中的待分配二级用户数成几何级数增长关系。因此，本发明提供了一种面向约束的扩展。
[0138]
在面向约束的扩展中，根据公式(5)及公式(5.1)～(5.8)定义的约束条件修剪动作空间，以便从当前节点获得所有可用动作。然后，添加新节点以展开树，并将当前节点设置为一个扩展后随机选择的新子节点。
[0139]
进一步地，在本发明中使用表示从节点v开始进入下一轮为二级用户n进行信道分配的可选动作集合，也即二级用户n的无干扰动作空间。我们采用三个步骤来进行动作剪枝。首先，应考虑信道的可用性，故将车辆的可用信道矩阵l引入搜索树进行剪枝以减小可选动作集合，即把车辆n的可用信道矩阵中l
n,m
＝1的元素映射为可选动作集合。其次，考虑到当前待分配的车辆vehicle idn不应该与存在通信干扰的车辆共用同一信道，因此把车辆之间的二级用户干扰矩阵c引入树搜索进行树结构的剪枝。此时，算法会判断an′
,m
＝1和c
n,n
′
,m
＝1是否同时成立，若两个条件同时成立，则将动作空间中的am移出动作集合。接下来，算法会对约束(5)和约束(5.1)～(5.8)是否同时成立进行判断，如果当前待分配车辆的可选信道m不满足这些约束，则将am从可选动作集合中移除。最后，如果算法将跳过当前分配，等待下一轮分配。
[0140]
从上述扩展过程中得知，如果当前节点的访问次数为0，则会执行从当前节点(即新扩展的节点，用表示)到终端叶子节点(用表示)的模拟。通常，模拟策略采用随机搜索策略，在终端叶子节点产生奖励然而，一级用户占用频谱的活动的时变性使得基站一侧的实际可用频谱资源具有不确定性，这种不确定性给cvn中待被分配信道的认知车辆用户的奖励评价会产生潜在的影响。因此，在本发明中将主用户的网络服务持续时间τ纳入模拟过程中多阶段扩展的奖励评价中。特别的，主用户k的服务持续时间τk对应一个不确定性场景πk，且主用户的网络服务持续时间服从对数正态分布，即其概率密度函数为：
[0141][0142]
式(15)中，参数(μ,σ)是以毫秒(ms)为单位的，在本实施例中，(μ,σ)的取值为(2.47,1.88)。
[0143]
由于理论上采样时有无限多个场景，因此在本实施例中，我们在每层模拟时进行χ次采样，以控制计算规模。故可以得到一个场景集合，表示为首先，当分配信道m给vehicle idn时，搜索树执行从节点到下一节点的模拟，此时节点的随机收益为：
[0144][0145]
式(16)中，e表示vehicle idn在χ个场景下获得的随机收益的期望；τi(1≤i≤χ)是来自分布的采样之一，τi的取值越大说明主用户占用信道的时间越长，则vehicle idn在进行分配时的随机收益就越低。事实上，主用户的信道占用时间越短，同一信道上车辆用户的不确定性收益就会越高，而τ
i-1
就刻画了主用户服务持续时间和车辆用户收益之间的这种关系。utilityn＞0是一个表示二级用户vehicle idn的网络效用分数的权重系数，它反映了vehicle idn的通信能力。本实施例中使用双曲正切函数tanh(
·
)将vehicle idn的utilityn值归一化到区间[0,1]内。当utilityn越高，权重系数项越接近于1，这说明通信能
力越强的车辆用户越倾向于得到更高的随机收益。此外，则度量了vehicle idn当前能获得的剩余最小平均带宽(mhz)。count(lm)记录了信道可用矩阵l的第m列中元素为1的个数，count(am)记录了信道分配矩阵a的第m列中元素为1的个数。count(lm)-count(am)描述了在不考虑干扰约束c和容量约束-m
时信道m上最多可接入的车辆用户数。λm表示信道m的剩余带宽。
[0146]
从供需角度分析采样的意义，当使用同一信道m的主用户具有更长的服务持续时间τ，那么供给侧的可用频谱资源在长期内的不确定性将减少，资源供给倾向于小于等于需求，需求侧获得的随机收益将随之减小；反之，较短的τ意味着频谱资源供给倾向于大于需求，需求侧获得的随机收益将随之增大，此时分配方案获得高收益。显然，较大的随机收益反映了车辆用户获得更大网络收益的可能。
[0147]
总之，如果车辆具有强大的通信能力，主用户的服务持续时间较低，并且剩余资源足够，则认知车联网中的随机收益将很高。
[0148]
其次，根据以下公式，在模拟阶段为节点调整了奖励q
v'
：
[0149][0150]
式(16)中，r
n,m
是指将信道m分配给vehicle idn的即时奖励，由公式(2)得出。
[0151]
当模拟到达终端叶子节点时，就可以得到从节点到节点的模拟路径上所有节点的累积模拟奖励也即：
[0152][0153]
如图6所示，进一步地，当一次迭代到达终止节点后，根据公式(18)得到累积模拟奖励进行反向传播。反向传播的目的是在下一次迭代之前更新搜索树先验探索的经验信息。这样，反向传播的奖励包含所有模拟路径上的扩展节点的奖励评价，反映了当前迭代中模拟策略的整体频谱分配性能。同时，算法根据以下统计规则对从根节点到扩展节点路径上的节点状态值进行更新：
[0154][0155]
finder-mcts算法迭代执行树策略、模拟和反向传播等函数，以探索不同的频谱分配方案。最终，算法输出当前认知车联网的最优频谱分配方案。
[0156]
上面方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包含相同的逻辑关系，都在本发明的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该发明的保护范围内。
[0157]
如图7所示，本发明还提供了一种认知车联网频谱调度系统，包括：优先级计算模块、算法构建模块和算法执行模块。其中，优先级计算模块用于根据认知车辆的行驶状态及地理分散程度，计算得到所述认知车辆的优先级服务顺序列表；算法构建模块用于根据所述优先级服务顺序列表，使用马尔可夫决策过程构建蒙特卡洛搜索树算法框架；算法执行
模块用于使用所述蒙特卡洛搜索树算法依次迭代执行树策略、基于差异化场景的模拟及反向传播过程，以得到所述认知车联网的最优频谱分配方案。
[0158]
需要说明的是，为了突出本发明的创新部分，本实施例中并没有将与解决本发明所提出的技术问题关系不太密切的模块引入，但这并不表明本实施例中不存在其它的模块。
[0159]
此外，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本发明所提供的实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。
[0160]
作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0161]
另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0162]
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁盘或者光盘等各种可以存储程序代码的介质。
[0163]
如上所述，本发明提供的一种基于行驶状态优先级和场景模拟的认知车联网频谱调度方法及系统，能够实现未知网络流量环境下频谱调度方案的自适应学习，快速给出近似最优解，极大地改善了蜂窝网络内认知车辆用户的链路容量和通信质量，提高了频谱资源的利用率。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

技术特征：
1.一种基于行驶状态优先级和场景模拟的cvn频谱调度方法，其特征在于，包括以下步骤：s1：根据认知车辆的行驶状态及地理分散程度，计算得到认知车辆的优先级服务顺序列表；s2：基于优先级服务顺序列表，使用马尔可夫决策过程构建蒙特卡洛搜索树算法框架，包括以下步骤：根据以下公式定义马尔可夫决策过程的状态空间和动作空间：式中，s
v
表示节点v的状态值，其由λ
v
、ξ
v
组成；表示基站侧的剩余带宽向量，表示信道m的剩余带宽；表示请求被分配的认知车辆个数；ξ
v
表示个认知车辆的总带宽要求；动作a
m
表示智能体将信道m分配给当前可进入分配序列的一辆车；m表示信道总数；基于状态空间和动作空间，构建蒙特卡洛搜索树，该蒙特卡洛搜索树由节点和边组成：每个节点都维护一个节点状态值，包括节点被访问的次数、环境状态值以及节点获得的累计奖励值；边表示导致状态转换的动作；按照优先级服务顺序列表依次对认知车辆进行频谱分配，并扩展子节点、更新节点状态值，形成蒙特卡洛搜索树算法框架；s3：使用蒙特卡洛搜索树算法依次迭代执行树策略、基于差异化场景的模拟及反向传播过程，以得到所述认知车联网的最优频谱分配方案，其中，树策略包括选择和面向约束的扩展，具体包括以下步骤：执行选择过程时，从根节点开始，当必须选择当前节点将下降到哪个子节点时，使用蒙特卡洛搜索树的置信上限uct递归选择子节点，最终，将置信上限uct最大的子节点视作当前节点进行下一步的扩展；当选择过程达到终止时，执行面向约束的扩展操作：判断当前节点的访问次数是否为0，若访问次数则直接进入模拟阶段；若访问次数枚举所有可用的动作，枚举时根据下式定义的约束条件修剪动作空间，以便从当前节点获得所有可用动作：
式中：k表示主用户k的总数；认知车辆n为二级用户，n为二级用户总数；m表示信道m的总数；信道可用矩阵l＝{l
n,m
|l
n,m
∈{0,1}}
n
×
m
，当信道m对二级用户n可用时，l
n,m
＝1；反之，当信道m对二级用户n不可用时，l
n,m
＝0；二级用户干扰矩阵c＝{c
n,n',m
|c
n,n',m
∈{0,1}}
n
×
n
×
m
，c
n,n',m
＝1表示当二级用户n和n'共用信道m进行信息传输时存在相互干扰，c
n,n',m
＝0则表示二级用户n和n'可以在满足无干扰约束条件下同时使用信道m；信道分配矩阵a＝{a
n,m
|a
n,m
∈{0,1}}
n
×
m
，a
n,m
＝1表示将信道m分配给二级用户n，a
n,m
＝0则视为不将信道m分配给二级用户n；信道奖励矩阵r＝{r
n,m
|r
n,m
≥0}
n
×
m
，r
n,m
表示二级用户n使用信道m时所获得的网络奖励；p
m,k,n
表示主用户k在信道m上接收到的二级用户n的干扰功率；δ
m,k
表示主用户k在信道m上的最大可接受干扰功率；u(a,r)表示网络系统总链路容量，a
m
、r
m
分别表示信道分配矩阵a、信道奖励矩阵r的第m列向量，运算符号表示哈达玛积，sum是返回矩阵所有条目总和的运算符；表示二级用户n在信道m上的传输功率，和分别表示二级用户n在信道m的最小、最大允许传输功率；φ
m
表示信道m的可用带宽阈值，表示r
m
的转置向量；然后，添加新节点以展开蒙特卡洛搜索树，并将当前节点设置为一个扩展后随机选择的新子节点；若当前节点的访问次数为0，则执行从当前节点到终端叶子节点的模拟，当前节点为新扩展的节点终端叶子节点用表示，则模拟时将主用户的网络服务持续时间τ纳入模拟过程中多阶段扩展的奖励评价中，设主用户k的服务持续时间τ
k
对应一个不确定性场景π
k
，且主用户的网络服务持续时间服从对数正态分布；在每层模拟时进行χ次采样，以控制计算规模，得到一个场景集合，表示为则基于差异化场景的模拟包括以下步骤：当分配信道m给认知车辆n时，搜索树执行从节点到下一节点的模拟，此时节点的随机收益为：式中：e表示认知车辆n在χ个场景下获得的随机收益的期望；τ
i
是来自分布的采样之一，1≤i≤χ，τ
i-1
就刻画了主用户服务持续时间和车辆用户收益之间的关系；utility
n
＞0是一
个表示认知车辆n的网络效用分数的权重系数，使用双曲正切函数tanh(
·
)将认知车辆n的utility
n
值归一化到区间[0,1]内；count(l
m
)记录了信道可用矩阵l的第m列中元素为1的个数，count(a
m
)记录了信道分配矩阵a的第m列中元素为1的个数，count(l
m
)-count(a
m
)描述了在不考虑干扰约束c和容量约束φ
m
时信道m上最多可接入的车辆用户数，λ
m
表示信道m的剩余带宽，度量了认知车辆n当前能获得的剩余最小平均带宽；在模拟阶段为节点调整了奖励q
v'
：式中，r
n,m
是指将信道m分配给认知车辆n的即时奖励；当模拟到达终端叶子节点时，得到从节点到终端叶子节点的模拟路径上所有节点的累积模拟奖励也即：当一次迭代到达终端叶子节点后，得到累积模拟奖励进行反向传播，反向传播的目的是在下一次迭代之前更新搜索树先验探索的经验信息，反向传播的奖励包含所有模拟路径上的扩展节点的奖励评价，反映了当前迭代中模拟策略的整体频谱分配性能；达到迭代终止条件后，输出当前认知车联网的最优频谱分配方案。2.如权利要求1所述的一种基于行驶状态优先级和场景模拟的cvn频谱调度方法，其特征在于，所述步骤s1包括以下步骤：步骤s11：对一个发起服务请求的认知车辆n，根据其行驶方向、gps坐标、速度和加速度，计算得到车辆行驶评价分数travelingscore
n
：式中，θ
n
为认知车辆n的gps坐标位置和基站位置的连线与车辆当前行驶方向的夹角；v
n
表示认知车辆n的速度，v
min
、v
max
分别表示认知车辆n行驶速度的最小值和最大值；a
n
表示认知车辆n的加速度；s12：根据认知车辆n的地理分散程度，计算得到车辆的网络效用分数utility
n
：式中，snr
n
为认知车辆n的接收机接收来自基站的信号的信噪比；log2(1+snr
n
)表示车辆n在有限带宽中的数据接收速率，即车辆可实现的吞吐量；dispersion
n,n'
表示认知车辆n和认知车辆n'之间的分散度，∑
1≤n,n'≤n,n≠n'
dispersion
n,n'
表示认知车辆n在基站覆盖范围内的全局用户分散度；s13：根据车辆行驶评价分数及网络效用分数，计算得到车辆的综合优先级评价分数priorityscore
n
：priorityscore
n
＝travelingscore
n
·
utility
n
s14：将不同车辆的综合优先级评价分数进行从大到小排序，以得到当前分配周期内认
知车辆的优先级服务顺序列表。3.如权利要求2所述的一种基于行驶状态优先级和场景模拟的cvn频谱调度方法，其特征在于，步骤s12中，认知车辆n和认知车辆n'之间的分散度dispersion
n,n'
定义为：式中，ε
n
表示分散度阈值；d
n,n'
表示认知车辆n和认知车辆n'之间的平均分散时间。4.如权利要求3所述的一种基于行驶状态优先级和场景模拟的cvn频谱调度方法，其特征在于，步骤s12中，认知车辆n和认知车辆n'之间的平均分散时间d
n,n'
定义为：式中，β
n,n'
(t)表示认知车辆n和认知车辆n'之间的通信分散状态：当认知车辆n和认知车辆n'在地理位置上存在通信干扰时，β
n,n'
(t)＝0，表示二者处于相遇状态；当认知车辆n和认知车辆n'在地理位置上不存在通信干扰，则β
n,n'
(t)＝1，表示二者处于分散状态；表示认知车辆n和认知车辆n'在一个分配周期t内的总分散时间；τ
n,n'
表示认知车辆n和认知车辆n'在一个分配周期t内处于分散状态的统计次数。5.如权利要求1所述的一种基于行驶状态优先级和场景模拟的cvn频谱调度方法，其特征在于，所述步骤s2中，按照优先级服务顺序列表依次对认知车辆进行频谱分配，并扩展子节点、更新节点状态值，形成蒙特卡洛搜索树算法框架包括以下步骤：创建蒙特卡洛搜索树的根节点v，并初始化根节点的节点状态值其中，为节点v被访问的次数，s
v
为环境状态值，q
v
为节点v获得的累计奖励值；从根节点v开始按照优先级服务顺序列表依序对每一辆认知车辆的频谱进行分配，蒙特卡洛搜索树的每一层扩展表示对一辆认知车辆的频谱进行分配；当当前认知车辆的信道分配动作时，蒙特卡洛搜索树向下扩展到子节点，并更新子节点的节点状态值，直至树扩展达到迭代终止条件，迭代就终止；当蒙特卡洛搜索树从一个节点扩展到下一个节点时，采用基于深度神经网络构建的离线环境状态预测器基于当前节点v的环境状态值s
v
以及当前认知车辆的信道分配动作a
m
获得下一个节点v'的环境状态预测值则有：式中，w
esp
为深度神经网络的参数，f
esp
为状态动作转移函数。6.如权利要求5所述的一种基于行驶状态优先级和场景模拟的cvn频谱调度方法，其特征在于，对所述离线环境状态预测器进行训练时，将蒙特卡洛搜索树算法冷启动阶段后的一段时间内，通过基站获得的状态-动作转移对当做训练数据输入到所述离线环境状态预测器中，获得所述状态动作转移函数f
esp
。7.如权利要求1所述的一种基于行驶状态优先级和场景模拟的cvn频谱调度方法，其特征在于，步骤s3中，最优子节点的选择准则为：
式中，c≥0是用来调整探索和利用权重的系数；child(v)表示蒙特卡洛搜索树中以当前节点v为父节点的子节点的集合；分别表示子节点v'和其父节点v被迭代访问的总次数；q
v'
表示子节点v'所获得的累计奖励。8.如权利要求1所述的一种基于行驶状态优先级和场景模拟的cvn频谱调度方法，其特征在于，使用表示从节点v开始进入下一轮为当前待分配认知车辆n进行信道分配的可选动作集合，也即当前待分配认知车辆n的无干扰动作空间，则步骤s3中，修剪动作空间时，采用以下步骤来进行动作剪枝：将当前待分配认知车辆n的信道可用矩阵l引入搜索树进行剪枝以减小可选动作集合，即把认知车辆n的信道可用矩阵l中l
n,m
＝1的元素映射为可选动作集合；把认知车辆之间的二级用户干扰矩阵c引入树搜索进行树结构的剪枝，判断a
n
′
,m
＝1和c
n,n
′
,m
＝1是否同时成立，若两个条件同时成立，则将动作空间中的信道分配动作a
m
移出动作集合；对步骤s3中定义的约束条件是否同时成立进行判断，如果当前待分配认知车辆n的可选信道m不满足这些约束，则将信道分配动作a
m
从可选动作集合中移除；若将跳过当前分配，等待下一轮分配。9.如权利要求1所述的一种基于行驶状态优先级和场景模拟的cvn频谱调度方法，其特征在于，步骤s3中，根据以下统计规则对从根节点到扩展节点路径上的节点状态值进行更新：10.一种基于行驶状态优先级和场景模拟的cvn频谱调度系统，其特征在于，用于实现权利要求1所述的基于行驶状态优先级和场景模拟的cvn频谱调度方法，包括：优先级计算模块，用于根据认知车辆的行驶状态及地理分散程度，计算得到所述认知车辆的优先级服务顺序列表；算法构建模块，用于根据所述优先级服务顺序列表，使用马尔可夫决策过程构建蒙特卡洛搜索树算法框架；算法执行模块，用于使用所述蒙特卡洛搜索树算法依次迭代执行树策略、基于差异化场景的模拟及反向传播过程，以得到所述认知车联网的最优频谱分配方案。

技术总结
本发明提供的一种基于行驶状态优先级和场景模拟的CVN频谱调度方法及系统，包括步骤：根据认知车辆的行驶状态及地理分散程度，计算得到所述认知车辆的优先级服务顺序列表；基于所述优先级服务顺序列表，使用马尔可夫决策过程构建蒙特卡洛搜索树算法框架；使用所述蒙特卡洛搜索树算法依次迭代执行树策略、基于差异化场景的模拟及反向传播过程，以得到所述认知车联网的最优频谱分配方案。本发明提供的一种基于行驶状态优先级和场景模拟的认知车联网频谱调度方法，可以实现未知网络流量环境下频谱调度方案的自适应学习，快速给出近似最优解，极大地改善了蜂窝网络内认知车辆用户的链路容量和通信质量，提高了频谱资源的利用率。提高了频谱资源的利用率。提高了频谱资源的利用率。

技术研发人员：李重吴先科温倩倩
受保护的技术使用者：东华大学
技术研发日：2022.07.21
技术公布日：2022/11/1

转载请注明原文地址: https://tieba.8miu.com/read-1893.html

专利

最新回复(0)