一种基于智能天线的mimo全双工功率分配方法
技术领域
1.本发明涉及无线通信技术领域,尤其涉及一种基于智能天线的mimo全双工功率分配方法。
背景技术:2.近年来随着多媒体互联网、ar(augmented reality,增强现实)等技术的快速发展,相应伴随该技术所衍生出的业务也已融入并丰富大众生活。然而传统通信技术已接近香农容量极限,很难再满足人们日新月异的业务需求。因此未来无线通信技术对大通量、高频谱效率的性能指标提出了更高的要求。
3.全双工技术,即带内同时同频全双工,能在同一时域和频域资源上传输信息,较传统tdd(time division duplex,时分双工)和fdd(frequency division duplex,频分双工)等双工方式可有效提升通信系统自由度,鉴于此该技术被作为6g候选增强型无线空口技术之一,有着十分重要的研究前景。理论上,由香农容量公式的定义可知,全双工技术手段可以使通信系统的自由度在现有条件下获得一倍的性能提升,然而该技术却面临着严重的自干扰问题,这在某种程度上制约着其较高系统自由度的性能优势。所谓自干扰,就是在同时同频条件下,自身发射天线对自身接收天线所造成的干扰,如果不对干扰采取有效措施,当基站发射功率过高时,将会使自身接收信号完全埋没于发射信号当中,不利于基站对用户信号的解码,严重影响用户体验。因此这一现象已成为限制全双工技术发展的瓶颈,如何有效消除自干扰是一个亟待解决的议题。
4.现有研究主要从被动消除和主动消除两个方面进行自干扰消除。被动消除包括天线物理隔离、方向隔离、吸收屏蔽等。主动消除是基于信号域,包括从数字域或模拟域来估计自干扰信号的副本,并将估计到的信号副本从混合信号中移除。虽然现有自干扰消除技术已经能够达到110db的消除余量,但仍残余有部分自干扰,尤其对天线数量众多,发射功率较高的情形所造成的影响更不容忽视。目前残余自干扰消除多通过基站侧波束赋形来调整功率,从而对残余自干扰进行调控,并结合当前信道环境确保自由度与残余自干扰比值尽可能大,从而达到较高的频谱效率。但现有研究多针对基站发射/接收天线固定的情形,这在一定程度限制了天线分集增益的提升。
5.随着m-mimo(massive multiple-input multiple-output,大规模多进多出)技术深入研究,通过在基站侧布置大规模的天线阵列可以大幅提升系统容量,保证qos(quality of service,服务质量)。但是天线数目众多,相应会提升算法复杂度和残余自干扰程度。尤其在小区内有多个用户接入时,基站除受到自身干扰外,还会接收来自用户的干扰,同时用户间也会彼此干扰。这将导致本就存在较强残余自干扰的全双工通信系统面临更加严峻的挑战。
6.因此,面向大规模mimo全双工多用户场景需要设计合理的功率分配方案,以保证全双工系统固有的性能优势。
技术实现要素:7.发明目的:针对现有技术中的缺陷,本发明公开了一种基于智能天线的mimo全双工功率分配方法,采用用户全局唯一标识,实时对用户进行使能、静默管理,避免小区内可能出现某些用户在当前时隙造成显著的基站残余自干扰或者小区用户间干扰等异常情形,并结合各个智能天线的发送和接收等状态及子载波分配,设计出有效的系统频谱效率目标函数,通过求解目标函数最优化问题,确保系统频谱效率最大,以便尽可能提升全双工系统自由度。
8.技术方案:为实现上述技术目的,本发明采用以下技术方案。
9.一种基于智能天线的mimo全双工功率分配方法,包括以下步骤:
10.s1、建立全双工大规模mimo网络模型;所述全双工大规模mimo网络模型包括mimo网络、一个配备有n根天线的基站和z个可与基站进行通信的用户,基站工作在全双工模式,每个用户配备一根天线,且用户工作在半双工模式;
11.s2、定义全双工大规模mimo网络模型中智能天线、用户状态、子载波分配三要素;所述智能天线为基站每根天线智能选择四种工作模式之一,四种工作模式包括用于发送、用于接收、发送和接收并存以及不发送也不接收;所述用户状态定义为采用全局唯一标识为所有上下行用户定义当前时刻状态,构建上行用户集合和下行用户集合;所述子载波分配包括:根据上行用户集合和下行用户集合定义再分配的子载波分配矩阵所述再分配的子载波分配矩阵表示上下行使能用户的子载波分配状况;
12.s3、构建全双工大规模mimo网络模型的优化后的频谱效率目标函数;
13.s4、建立ddpg模型求解优化后的频谱效率目标函数:建立与全双工大规模mimo网络模型映射的ddpg模型,所述ddpg模型包括智能体、状态、动作和奖励,并设有ddpg网络,ddpg网络包括actor和critic两个结构不同的神经网络;
14.s5、优化ddpg模型中的状态和动作:基于公平原则求取上行用户发射功率的下限以及基站下行预编码矩阵的下限,得到缩减后的动作和状态空间;
15.s6、运行ddpg模型输出最优动作和状态,实现mimo全双工功率分配。
16.有益效果:本发明采用用户全局唯一标识,实时对用户进行使能、静默管理,避免小区内可能出现某些用户在当前时隙造成显著的基站残余自干扰或者小区用户间干扰等异常情形,并结合各个智能天线的发送和接收等状态及子载波分配,设计出有效的系统频谱效率目标函数,通过求解目标函数最优化问题,确保系统频谱效率最大,以便尽可能提升全双工系统自由度。同时在此基础上对目标函数中的耦合变量进行理论分析,对变量进行转化,有效缩减了变量个数。最终为实现深度强化学习算法,达成减少算法动作和状态取值个数,缩短算法学习时间,降低算法复杂度的目标,适合在大规模mimo全双工无线通信系统上部署。
附图说明
17.图1为本发明的方法流程图;
18.图2为实施例2中全双工大规模mimo网络模型示意图;
19.图3为实施例2中基站传统收发天线和智能收发天线架构示意图;
20.图4为实施例2中基于深度强化学习算法流程图。
(t),α2(t),...,α
2z
(t)},其中,α
2z
(t)为第z个用户在t时刻的业务标识;其中,
[0032][0033][0034]
α
2β-1
(t)=1,表示当前时刻用户β准使能上行业务,α
2β-1
(t)=0,表示当前时刻用户β不使能上行业务,α
2β-1
(t)=2,表示当前时刻用户β预调用上行业务,不会被静默;α
2β
(t)=1,表示当前时刻用户β准使能下行业务,α
2β
(t)=0,表示当前时刻用户β不使能下行业务,α
2β
(t)=2,表示当前时刻用户β预调用下行业务,不会被静默;sicu(t-1)=1或0分别表示前一时刻该用户上行业务静默或未被静默;sicd(t-1)=1或0分别表示前一时刻该用户下行业务静默或未被静默;requ(t)=1或0表示当前时刻该用户收到或未收到上行业务需求;reqd(t)=1或0表示当前时刻该用户收到或未收到下行业务需求。
[0035]
根据上行用户集合和下行用户集合定义再分配的子载波分配矩阵包括:
[0036]
根据上行用户集合和下行用户集合定义当前时刻上行用户业务状态矩阵eu和下行用户业务状态矩阵ed;上行用户业务状态矩阵eu和下行用户业务状态矩阵ed确定之后定义再分配子载波分配矩阵
[0037]
定义当前时刻上行用户业务状态矩阵eu和下行用户业务状态矩阵ed:
[0038][0039][0040]
其中定义为:
[0041][0042]
定义为:
[0043][0044]
其中,1≤j≤j,1≤k≤k;
[0045]
定义子载波分配矩阵定义子载波分配矩阵表示(j+k-s)个上下行使能用户的子载波分配状况,其中的子载波分配状况,其中有两个下标,第一个下标指用户,第二个下标指子载波,1≤z≤z;下标指子载波,1≤z≤z;满足:
[0046][0047][0048]
且
[0049]
子载波集合m为子载波个数;上行用户集合j为上行用户个数;下行用户集合k为下行用户个数;被静默的上下行用户集合s为被静默的上下行用户个数;
[0050]
s3、构建全双工大规模mimo网络模型的优化后的频谱效率目标函数:
[0051][0052][0053][0054][0055]
其中,r表示上下行用户总的频谱效率,g为综合矩阵,为天线和用户不匹配的元素置零的综合矩阵,为上行用户业务状态矩阵eu和下行用户业务状态矩阵ed确定后再分配的子载波分配矩阵,xu表示上行用户发送给基站的符号,xd表示基站发送给下行用户的符号,qu和qd是基站天线状态矩阵,分别表示基站用于上行接收和下行发射的天线,wk是第k个下行用户的预编码矩阵,满足wk∈w={w1,w2,...,wk},w为所有下行用户的预编码矩阵,即基站下行预编码矩阵,pj是第j个上行用户的发射功率,满足pj∈p={p1,p2,...,pj},p为所有上行用户的发射功率。
[0056]
优化后的频谱效率目标函数存在多个相互耦合的变量,本发明分析变量间的嵌套关系,有效缩减变量个数。
[0057]
s4、建立ddpg模型求解优化后的频谱效率目标函数:建立与全双工大规模mimo网络模型映射的ddpg模型,所述ddpg模型包括智能体、状态、动作和奖励,并设有ddpg网络,ddpg网络包括actor和critic两个结构不同的神经网络;
[0058]
所述智能体为全双工大规模mimo网络模型中的智能天线和上下行用户;
[0059]
所述状态为:上行用户的信干噪比和下行用户的信干噪比基站天线与第j个上行用户匹配情况和基站天线与第k个下行用户匹配情况及每个上下行用户的子载波分配分别记为状态分别记为状态
[0060]
所述动作为:基站下行预编码矩阵w,上行用户发射功率pj∈p,以上动作合记为动作a={w;pj∈p};
[0061]
所述奖励为:上行用户的频谱效率和下行用户的频谱效率记为记为
[0062]
其中:
[0063][0064][0065]
ddpg网络设有actor和critic两个结构不同的神经网络,其中各自的神经网络又包含一个与自身结构相同但参数不同的副本网络,自身网络记为target_net,副本网络记为eval_net,actor和critic共包含四个神经网络分别记为:critic_target_net:q
′
(s1,s2,s3,a|θq′
)、critic_eval_net:q(s1,s2,s3,a|θg)、actor_target_net:μ
′
(s1,s2,s3|θq′
)、actor_eval_net:μ(s1,s2,s3|θg);
[0066]
s5、优化ddpg模型中的状态和动作:基于公平原则求取上行用户发射功率的下限以及基站下行预编码矩阵的下限,得到缩减后的动作和状态空间;
[0067]
动作a中的元素wk和pj分别限制于:
[0068][0069]
p
min
≤pj≤p
max
,pj∈p
[0070]
缩减后的动作状态
[0071]
s6、运行ddpg模型输出最优动作和状态,实现mimo全双工功率分配。
[0072]
本发明以大规模mimo全双工系统为输入环境,设计深度强化学习算法,结合智能天线、用户状态、子载波分配三个关键要素,设计合理的系统频谱效率目标函数,目标函数变量包括基站天线状态矩阵、用户业务状态矩阵、基站下行预编码矩阵、用户上行功率集合、子载波分配矩阵。同时对目标函数变量进行转换,有效缩减变量个数,降低深度强化学习算法中动作、状态可选取的个数,有效缩短了算法学习时间。
[0073]
s61、为critic_eval_net:q(s1,s2,s3,a|θg)和actor_eval_net:μ(s1,s2,s3|θ
μ
)中的θg和θ
μ
随机赋初值;
[0074]
s62、分别把eval网络中的θg和θ
μ
赋值给target网络中的θq′
和θ
μ
′
;
[0075]
s63、初始化经验池r,经验池r中存储若干个{s
t
,a
t
,r
t
};
[0076]
s64、为动作赋初值,上下行用户采取等功率分配策略;
[0077]
s65、进行迭代,迭代包括外循环和内循环两层,外循环迭代重置状态,内循环迭代对状态步数进行遍历,直至达到外循环迭代最大次数,输出最优动作对状态步数进行遍历,直至达到外循环迭代最大次数,输出最优动作以及该动作所对应的状态及该动作所对应的状态实现mimo全双工功率分配。
[0078]
步骤s65中外循环和内循环过程包括:
[0079]
s651、进入外循环迭代,外循环迭代对状态赋当前值,其中初始状态记为s0,下标0代表状态步数,每个状态包括s1,s2,s3;
[0080]
s652、进入内循环迭代,内循环迭代每一次都从actor_eval_net中选择动作a
t
,将动作a
t
代入全双工环境,状态从s
t
迁移至s
t+1
并获得奖励r
t
,即:
[0081][0082][0083][0084]
s653、把当前状态s
t
、下一状态s
t+1
以及选择的动作a
t
和获得的奖励r
t
分别存放于经验池r中;
[0085]
s654、从经验池r中随机抽取若干组(s
t
,α
t
,r
t
,s
t+1
)来训练ddpg网络;
[0086]
s653、通过eval critic network计算动作α
t
下的curq:curq=q(s1,s2,s3,a|θg);
[0087]
s654、根据target actor network输出的动作α
t+1
,利用target critic network为eval critic network计算targetq,targetq的计算公式为:
[0088]
targetq=r
t
+gamma
·q′
(s1,s2,s3,μ
′
(s1,s2,s3|θ
μ
′
)|θq′
)
[0089]
其中gamma表示折扣因子,gamma∈[0,1];
[0090]
s655、根据获得的curq和targetq,计算损失函数的均方误差的梯度,均方误差的梯度计算公式为:
[0091]
loss=mean(diff(targetq-curq))
[0092]
s656、更新curq中的参数θg;
[0093]
s657、通过梯度的蒙特卡洛估计方法更新actor的参数θ
μ
;蒙特卡洛估计方法更新actor的参数θ
μ
的计算公式为:
[0094][0095]
s658、利用参数θg和θ
μ
采用滑动平均的方式分别来更新target critic network和target actor network的参数θq′
和θ
μ
′
;其计算公式为:
[0096]
θq′
←
ρθg+(1-ρ)θq′
[0097]
θ
μ
′
←
ρθ
μ
+(1-ρ)θ
μ
′
[0098]
其中ρ∈(0,1)是超参数;
[0099]
s659、判断是否达到内循环迭代最大次数,若否,则返回s652;若是,则返回s651;判断是否达到外循环迭代最大次数,若否,则返回s651;若是,则输出最优动作以及该动作所对应的状态以及该动作所对应的状态实现mimo全双工功率分配。
[0100]
本发明公开了一种基于智能天线的mimo全双工功率分配方法,采用用户全局唯一标识,实时对用户进行使能、静默管理,避免小区内可能出现某些用户在当前时刻造成显著的基站残余自干扰或者小区用户间干扰等异常情形,并结合各个智能天线的发送和接收等状态及子载波分配,设计出优化后的系统频谱效率目标函数,通过求解目标函数最优化问题,确保系统频谱效率最大,以便尽可能提升全双工系统自由度。同时在此基础上对目标函数中的耦合变量进行理论分析,对变量进行转化,有效缩减了变量个数。最终通过降低算法动作和状态选择空间来降低算法复杂度,同时缩短网络训练时间,从而实现高效的深度强化学习方案,适合在大规模mimo全双工无线通信系统上部署。
[0101]
实施例2:
[0102]
如附图1所示,本发明提出一种基于智能天线的mimo全双工功率分配方法包括如下步骤:
[0103]
过程1:建立全双工大规模mimo网络模型;
[0104]
如附图2所示,大规模mimo小区内有一个bs(base station,基站),配备有大量n根天线,工作在全双工模式。小区内有z个用户,按照用户类型分为上行用户、下行用户以及休眠用户,每个用户只配备一根天线,且用户工作在半双工模式。网络系统被分为m个相互正交的子载波,且子载波个数小于用户个数,用户间可以复用子载波。
[0105]
基站每根天线通过环形器模拟器件连接,实现上下行分离,因此每根天线都可以智能选择是用于发送/接收,或者发送和接收并存,及不发送也不接收的工作模式,较传统基站收发天线提高了分集增益,如附图3所示。
[0106]
过程2:定义智能天线、用户状态、子载波分配三要素;
[0107]
假设z个用户在当前时刻同时包括j个上行用户、k个下行用户和o个休眠用户。考虑到当前可能存在某些下行用户会显著增加基站残余自干扰现象,或者某些上行用户会显著对其他用户造成干扰,此类用户对系统性能的最佳贡献状态反而是自身接收或发送功率为零,即处于静默状态。
[0108]
考虑到信道在不同时刻的衰落特性和用户的移动特性等,这些因素都会加剧信道的时变特性,因此为照顾信道较快的时变性,通常将时隙分割为较短时间,使其小于时变信道的相干时间,这样在一个时隙内信道增益被认为是一个常数。事实上,对用户来讲常规上下行业务需求通常持续时间以几百毫秒为数量级单位,这对业务时延要求不特别高,吞吐量在一段时间内要求较大的用户来说,上一分割时隙的短暂静默状态对qos的影响将远低于一段时间内吞吐量不足所带来的负面影响。鉴于此,本发明提出了以业务为驱动的用户状态策略,即下一时隙上下行用户业务状态取决于实时上下行业务需求及前一时隙上下行业务静默等情况,因此在当前时隙对任意上下行用户来讲,存在上下行业务切换或者维持、停用等状态。因此为方便描述当前时隙上下行用户各自状态,为t时刻所在时隙的所有上下行用户定义一个全局唯一标识a={α1(t),α2(t),...,α
2z
(t)},其中,α
2z
(t)为第z个用户在t时刻的业务标识;同时为表述简洁,本发明将t和(t-1)时刻所在时隙分别定义为当前时刻和前一时刻。
[0109]
由于不同类型服务用户对大规模mimo全双工系统所造成的干扰性质不同,本发明将服务用户统一分为上行用户和下行用户两大类,考虑到上下行用户业务类型的时变特性,本发明以用户业务作为驱动,通过定义全局唯一标识,能够有效实时对用户进行使能、
静默管理。
[0110]
以当前时刻第β个用户为例,上行业务标识记为α
2β-1
(t),下行业务标识记为α
2β
(t),分别表示如下
[0111][0112][0113]
其中α
2β-1
(t)=1,表示当前时刻用户β准使能上行业务,α
2β-1
(t)=0,表示当前时刻用户β不使能上行业务,α
2β-1
(t)=2,表示当前时刻用户β预调用上行业务,不会被静默;同理α
2β
(t)=1,表示当前时刻用户β准使能下行业务,α
2β
(t)=0,表示当前时刻用户β不使能下行业务,α
2β
(t)=2,表示当前时刻用户β预调用下行业务,不会被静默。sicu(t-1)=1或0分别表示前一时刻该用户上行业务静默或未被静默;同理sicd(t-1)=1或0分别表示前一时刻该用户下行业务静默或未被静默。requ(t)=1或0表示当前时刻该用户收到或未收到上行业务需求;同理reqd(t)=1或0表示当前时刻该用户收到或未收到下行业务需求。本发明中,β取值1到z,若β取值为z,则表示第z个用户,若第z个用户代表上行用户,要满足α
2z-1
(t)=1,2和α
2z
(t)=0;若第z个用户代表下行用户,要满足α
2z
(t)=1,2和α
2z-1
(t)=0。
[0114]
综上,当前时刻上行用户满足综上,当前时刻上行用户满足下行用户满足
[0115]
本发明中,唯一标识a决定了当前时刻上行用户和下行用户的集合,分别满足本发明中,唯一标识a决定了当前时刻上行用户和下行用户的集合,分别满足和和也就是说集合和在每个时刻并不是确定的,需要满足该约束条件。在本发明后续步骤中,集合和的选取均在唯一标识a的基础上,因此,本发明采用用户全局唯一标识,实时对用户进行使能、静默管理,避免实际应用场景中,如小区内可能出现某些用户在当前时刻造成显著的基站残余自干扰或者小区用户间干扰等异常情形。
[0116]
为简化问题描述,本发明暂时先不考虑基站天线工作模式和上下行用户的使能/静默状态,以及用户子载波分配情况。
[0117]
则基站侧接收到的第j个上行用户的发送信号为:
[0118][0119]
其中表示第j个上行用户到基站的上行信道向量,表示第j个上行用户的发送符号,是指除第j个上行用户之外的其他所有上行用户j
′
对基站所造成的干扰,是基站经自干扰消除技术后的残余自干扰,h
si
是基站的残余自干扰矩阵,表示基站发送给第k个下行用户的符号,是基站侧接收第j个上行用户所产生的
高斯白噪声。pj是第j个上行用户的发射功率,满足pj∈p={p1,p2,...,pj}。wk是第k个下行用户的预编码矩阵,满足wk∈w={w1,w2,...,wk}。
[0120]
同理,第k个下行用户接收到基站的信号为:
[0121][0122]
其中表示基站到第k个下行用户的下行信道向量,是指除基站发给第k个下行用户之外的其他所有下行用户k
′
的信号对第k个下行用户的接收所造成的干扰,g
k,j
表示第j个上行用户到第k个下行用户的信道增益,表示所有上行用户的发射对第k个下行用户的接收所造成的干扰,是第k个下行用户产生的高斯白噪声。
[0123]
在上述问题模型基础上考虑基站天线工作模式和上下行用户的使能/静默状态的限制因素,因此第j个上行用户的发送信号和第k个下行用户接收到基站的信号分别改写为:
[0124][0125][0126]
其中qu和qd是基站天线状态矩阵,分别表示基站用于上行接收和下行发射的天线,满足
[0127]
定义如下:
[0128][0129]
定义如下:
[0130][0131]
前面已经定义了当前时刻上下行用户集合和然而事实上这些上下行用户中,除上下行业务标识记为2在当前时刻不会被静默外,其余标识记为1的均可能存在被静默的状况。因此分别定义当前时刻上下行用户业务状态矩阵eu和ed如下:
[0132][0133][0134]
其中定义如下:
[0135][0136]
定义如下:
[0137]
[0138]
又已知当前时刻上下行用户的静默状态会影响到下一时刻上下行用户状态,因此需要同时对当前时刻上下行用户的静默状态进行标记,如下:
[0139][0140][0141]
同时将当前时刻被静默的上下行用户个数标记为s,该参数和子载波分配相关。
[0142]
则第j个上行用户的上行信干噪比和第k个下行用户的下行信干噪比分别定义如下:
[0143][0144][0145]
其中i是单位矩阵,是基站侧接收第j个上行用户所产生的高斯白噪声方差,是第k个下行用户产生的高斯白噪声方差,有
[0146]
考虑到对使能的上下行用户进行子载波分配,子载波集合定义子载波分配矩阵b=[b1,b2,...,b
j+k-s
]
t
,表示(j+k-s)个上下行使能用户的子载波分配状况,其中bm=[b
1,m
,b
2,m
,...,b
z,m
],b
z,m
∈{0,1}定义如下:
[0147][0148]
已知子载波分配矩阵b是在用户业务状态矩阵eu和ed确定的情况下再分配,因此重定义子载波分配矩阵使满足:
[0149][0150]
且
[0151]
过程3:建立系统频谱效率目标函数优化问题,所述系统即为前文构建的全双工大规模mimo网络模型。
[0152]
综上第j个上行用户的上行频谱效率和第k个下行用户的下行频谱效率分别定义如下:
[0153][0154]
[0155]
其中
[0156][0157][0158][0159][0160]
其中φ和φ分别为上行用户j和下行用户k受到的干扰功率。
[0161]
则上下行用户总的频谱效率定义为:
[0162][0163]
因此最大化上下行用户总的频谱效率定义如下:
[0164][0165]
看出该最大化问题涉及多个变量的耦合问题,并且是非凸的,常规求解复杂度高。考虑到基站天线用于上行接收与上行用户匹配,同理基站天线用于下行发射则与下行用户匹配,则基站天线状态矩阵和用户业务状态矩阵可通过一个综合矩阵g来描述,如下
[0166][0167]
根据基站天线和用户的匹配原则知,令综合矩阵g中天线和用户不匹配的元素为零,得到矩阵如下
[0168][0169]
令
[0170][0171][0172]
有
[0173][0174]
因此最大化上下行用户总的频谱效率的目标函数重定义为
[0175][0176]
过程4:建立与全双工大规模mimo网络映射的ddpg模型
[0177]
过程3优化问题变量缩减,但该问题仍然在多项式时间内是一个np-hard问题。本发明以下采用ddpg(deep deterministic policy gradient,深度强化学习)求解过程3非凸问题。
[0178]
本发明ddpg模型由智能体、动作、状态和奖励构成。
[0179]
智能体:全双工基站的天线(即智能天线)和上下行用户;
[0180]
状态:上下行用户的信干噪比和基站天线与第j个上行用户匹配情况和基站天线与第k个下行用户匹配情况及每个用户的子载波分配分别记为状态分别记为状态s
t
={s1,s2,s3}。
[0181]
动作:基站下行预编码矩阵w,上行用户发射功率pj∈p,以上动作合记为动作a={w;pj∈p}。
[0182]
奖励:
[0183]
上下行用户的频谱效率,定义如下:
[0184]
[0185][0186]
记为
[0187]
本发明ddpg网络由actor和critic两个结构不同的神经网络构成,其中各自的神经网络又包含一个与自身结构相同但参数不同的副本网络,自身网络记为target_net,副本网络记为eval_net。因此actor和critic共包含四个神经网络分别记为:
[0188]
critic_target_net:q
′
(s1,s2,s3,a|θq′
);
[0189]
critic_eval_net:q(s1,s2,s3,a|θg);
[0190]
actor_target_net:μ
′
(s1,s2,s3|θ
μ
′
);
[0191]
actor_eval_net:μ(s1,s2,s3|θ
μ
);
[0192]
过程5:优化ddpg算法的动作和状态个数
[0193]
由于ddpg模型中的actor表现出前向传播特性,需要输出具体动作值,已知降低可选动作数量,则深度强化学习算法的时间复杂度也就随之降低。
[0194]
本发明为使上下行用户达到静默状态,通常要使用户的发射/接收功率从零开始搜索,即用户功率为零意味着该用户处于静默状态。然而为满足上下行用户qos吞吐量最低需求,在实际通信系统中从零开始搜索功率值并无太大意义,这将会引入大量的计算开销。为此本发明设置一个最低功率门限,使发射/接收功率限制于最低和最高门限之间,从而降低了不必要的动作空间。然而引入最低功率门限,相当于默认将全部用户置于工作状态,这和将某些用户置于静默状态相冲突。为解决这一矛盾,本发明通过过程2引入的上下行用户静默标识,确保上下行用户在缩减动作空间的同时,仍然能对上下行用户按需置于静默状态。
[0195]
假设全双工基站不存在残余自干扰,且各个上下行用户之间不存在用户间干扰。由于上下行用户随机分布于基站周围,不考虑各个用户间的干扰,则从统计上来看每个上下行用户的性能期望应相同,满足:
[0196][0197]
基于公平原则(即基于理想状态下不存在任何干扰,也就是全双工基站不存在残余自干扰,且各个上下行用户之间不存在用户间干扰),令
[0198][0199][0200]
求解得到pj=p
min
,wk=diag(0,
…
,0,w
min
,0,
…
0)
[0201]
由此可知动作a中的元素wk和pj分别限制于:
[0202][0203]
p
min
≤pj≤p
max
,pj∈p
[0204]
其中,上限p
max
由基站的硬件条件决定,上限p
max
由用户的硬件条件决定;wk是第k个下行用户的预编码矩阵,满足wk∈w={w1,w2,...,wk}。||wk||2用于表示下行用户发射功率,因此本发明设置了上下行功率下限,较之前动作取值范围,在一定程度上得到缩减。同
时本发明采用的子载波分配矩阵缩小了原状态个数,使能够分配子载波的用户的个数仅为(j+k-s)。
[0205]
则缩减后的动作状态
[0206]
综上本发明从动作和状态两个角度提高了算法学习效率。
[0207]
过程6:执行ddpg算法输出最优动作和状态
[0208]
ddpg算法流程如图4所示:
[0209]
步骤1:
[0210]
为critic_eval_net:q(s1,s2,s3,a|θg)和actor_eval_net:μ(s1,s2,s3|θ
μ
)中的θg和θ
μ
随机赋初值,初值的取值范围为[0,1]。
[0211]
步骤2:
[0212]
分别把eval网络中的θg和θ
μ
赋值给target网络中的θq′
和θ
μ
′
,有
[0213]
θq′
←
θg[0214]
θ
μ
′
←
θ
μ
[0215]
步骤3:
[0216]
初始化经验池r,经验池r中存储若干个{s
t
,a
t
,r
t
},即当前状态s
t
、选择的动作a
t
和获得的奖励r
t
,每个状态都包括三个元素,即s
t
={s
t,1
,s
t,2
,s
t,3
},本发明中简写为s
t
={s1,s2,s3}。
[0217]
步骤4:
[0218]
为动作赋初值,上下行用户采取等功率分配策略。
[0219]
步骤5:
[0220]
进行迭代,迭代包括外循环和内循环两层,外循环迭代重置状态,即步骤6至步骤16,内循环迭代对状态步数进行遍历,即步骤7至步骤16,其中状态步数即为时刻的叠加,即体现在t=t+1上。
[0221]
步骤6:
[0222]
外循环迭代对状态s0赋当前值。其中状态s0为初始状态,也就是初始第0步,
[0223]
步骤7:
[0224]
内循环迭代每一次都从actor_eval_net中选择动作a
t
,将动作a
t
代入全双工环境,状态从s
t
迁移至s
t+1
并获得奖励r
t
,有
[0225]
[0226][0227][0228]
步骤8:
[0229]
把当前状态s
t
、下一状态s
t+1
,以及选择的动作a
t
和获得的奖励r
t
分别存放于经验池r中。
[0230]
步骤9:
[0231]
从经验池r中随机抽取若干组(s
t
,a
t
,r
t
,s
t+1
)来训练ddpg网络。
[0232]
步骤10:
[0233]
通过eval critic network计算动作a
t
下的curq:
[0234]
curq=q(s1,s2,s3,a|θg)
[0235]
步骤11:
[0236]
根据target actor network输出的动作α
t+1
,利用target critic network为eval critic network计算targetq,如下:
[0237]
targetq=r
t
+gamma
·q′
(s1,s2,s3,μ
′
(s1,s2,s3|θ
μ
′
)|θq′
)
[0238]
其中gamma表示折扣因子,gamma∈[0,1]。
[0239]
步骤12:
[0240]
根据步骤10和步骤11分别获得的curq和targetq,计算损失函数的均方误差的梯度:
[0241]
loss=mean(diff(targetq-curq))
[0242]
步骤13:
[0243]
更新curq中的参数θg。
[0244]
步骤14:
[0245]
actor的参数θ
μ
通过梯度的蒙特卡洛估计来更新,如下
[0246][0247]
步骤15:
[0248]
利用参数θg和θ
μ
采用滑动平均的方式分别来更新target critic network和target actor network的参数θq′
和θ
μ
′
。
[0249]
θq′
←
ρθg+(1-ρ)θq′
[0250]
θ
μ
′
←
ρθ
μ
+(1-ρ)θ
μ
′
[0251]
其中ρ∈(0,1)是超参数。
[0252]
步骤16:
[0253]
未达到内循环迭代最大次数,即状态的最大步数t
max
;返回步骤7,否则返回步骤6;
若达到外循环迭代最大次数则输出最优动作以及该动作所对应的状态以及该动作所对应的状态
[0254]
本发明通过基站全双工智能天线选择及上下行用户静默标识进行功率分配,有效提升小区内上下行用户总的频谱效率。同时在深度强化学习基础上进一步降低动作和状态的选择个数,有效缩短了算法学习时间。因此本发明在满足通信系统用户qos前提下,降低了计算复杂度,适合在全双工大规模mimo无线通信系统上部署。
[0255]
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
技术特征:1.一种基于智能天线的mimo全双工功率分配方法,其特征在于,包括以下步骤:s1、建立全双工大规模mimo网络模型;所述全双工大规模mimo网络模型包括mimo网络、一个配备有n根天线的基站和z个与基站进行通信的用户,基站工作在全双工模式,每个用户配备一根天线,且用户工作在半双工模式;s2、定义全双工大规模mimo网络模型中智能天线、用户状态、子载波分配三要素;所述智能天线为基站每根天线智能选择四种工作模式之一,四种工作模式包括用于发送、用于接收、发送和接收并存以及不发送也不接收;所述用户状态定义为采用全局唯一标识为所有上下行用户定义当前时刻状态,构建上行用户集合和下行用户集合;所述子载波分配包括:根据上行用户集合和下行用户集合定义再分配的子载波分配矩阵所述再分配的子载波分配矩阵表示上下行使能用户的子载波分配状况;s3、构建全双工大规模mimo网络模型的优化后的频谱效率目标函数;s4、建立ddpg模型求解优化后的频谱效率目标函数:建立与全双工大规模mimo网络模型映射的ddpg模型,所述ddpg模型包括智能体、状态、动作和奖励,并设有ddpg网络,ddpg网络包括actor和critic两个结构不同的神经网络;s5、优化ddpg模型中的状态和动作:基于公平原则求取上行用户发射功率的下限以及基站下行预编码矩阵的下限,得到缩减后的动作和状态空间;s6、运行ddpg模型输出最优动作和状态,实现mimo全双工功率分配。2.根据权利要求1所述的一种基于智能天线的mimo全双工功率分配方法,其特征在于,所述步骤s2中上行用户集合和下行用户集合为:当前时刻上行用户满足当前时刻上行用户满足下行用户满足α
2β-1
(t)为当前时刻第β个用户的上行业务标识,α
2β
(t)为当前时刻第β个用户的下行业务标识;全局唯一标识a={α1(t),α2(t),...,α
2z
(t)},其中,α
2z
(t)为第z个用户在t时刻的业务标识;其中,中,α
2β-1
(t)=1,表示当前时刻用户β准使能上行业务,α
2β-1
(t)=0,表示当前时刻用户β不使能上行业务,α
2β-1
(t)=2,表示当前时刻用户β预调用上行业务,不会被静默;α
2β
(t)=1,表示当前时刻用户β准使能下行业务,α
2β
(t)=0,表示当前时刻用户β不使能下行业务,α
2β
(t)=2,表示当前时刻用户β预调用下行业务,不会被静默;sic
u
(t-1)=1或0分别表示前一时刻该用户上行业务静默或未被静默;sic
d
(t-1)=1或0分别表示前一时刻该用户下行业务静默或未被静默;req
u
(t)=1或0表示当前时刻该用户收到或未收到上行业务需求;req
d
(t)=1或0表示当前时刻该用户收到或未收到下行业务需求。3.根据权利要求2所述的一种基于智能天线的mimo全双工功率分配方法,其特征在于,
所述步骤s2中根据上行用户集合和下行用户集合定义再分配的子载波分配矩阵包括:根据上行用户集合和下行用户集合定义当前时刻上行用户业务状态矩阵e
u
和下行用户业务状态矩阵e
d
;上行用户业务状态矩阵e
u
和下行用户业务状态矩阵e
d
确定之后定义再分配的子载波分配矩阵当前时刻上行用户业务状态矩阵e
u
和下行用户业务状态矩阵e
d
为:为:其中定义为:定义为:定义为:其中,1≤j≤j,1≤k≤k;表示(j+k-s)个上下行使能用户的子载波分配状况,z个用户包括j个上行用户、k个下行用户和o个休眠用户,j+k+o=z;其中包括j个上行用户、k个下行用户和o个休眠用户,j+k+o=z;其中包括j个上行用户、k个下行用户和o个休眠用户,j+k+o=z;其中1≤z≤z;1≤m≤m;满足:满足:且子载波集合子载波集合m为子载波个数;上行用户集合j为上行用户个数;下行用户集合k为下行用户个数;被静默的上下行用户集合s为被静默的上下行用户个数。4.根据权利要求2所述的一种基于智能天线的mimo全双工功率分配方法,其特征在于,所述步骤s3中优化后的频谱效率目标函数为:所述步骤s3中优化后的频谱效率目标函数为:
其中,r表示上下行用户总的频谱效率,g为综合矩阵,为天线和用户不匹配的元素置零的综合矩阵,为上行用户业务状态矩阵e
u
和下行用户业务状态矩阵e
d
确定后再分配的子载波分配矩阵,x
u
表示上行用户发送给基站的符号,x
d
表示基站发送给下行用户的符号,q
u
和q
d
是基站天线状态矩阵,分别表示基站用于上行接收和下行发射的天线,w
k
是第k个下行用户的预编码矩阵,满足w
k
∈w={w1,w2,...,w
k
},w为所有下行用户的预编码矩阵,即基站下行预编码矩阵,p
j
是第j个上行用户的发射功率,满足p
j
∈p={p1,p2,...,p
j
},p为所有上行用户的发射功率;z个用户包括j个上行用户、k个下行用户和o个休眠用户,j+k+o=z;子载波集合m为子载波个数;上行用户集合j为上行用户个数;下行用户集合户个数;下行用户集合k为下行用户个数;被静默的上下行用户集合s为被静默的上下行用户个数。5.根据权利要求4所述的一种基于智能天线的mimo全双工功率分配方法,其特征在于,所述步骤s4中,所述智能体为全双工大规模mimo网络模型中的智能天线和上下行用户;所述状态为:上行用户的信干噪比和下行用户的信干噪比基站天线与第j个上行用户匹配情况和基站天线与第k个下行用户匹配情况及每个上下行用户的子载波分配分别记为状态分别记为状态s={s1,s2,s3};所述动作为:基站下行预编码矩阵w,上行用户发射功率p
j
∈p,记为动作a={w;p
j
∈p};所述奖励为:上行用户的频谱效率和下行用户的频谱效率其中:其中:记为6.根据权利要求5所述的一种基于智能天线的mimo全双工功率分配方法,其特征在于,所述步骤s4中ddpg网络设有actor和critic两个结构不同的神经网络,其中各自的神经网络又包含一个与自身结构相同但参数不同的副本网络,自身网络记为target_net,副本网络记为eval_net,actor和critic共包含四个神经网络分别记为:critic_target_net:q
′
(s1,s2,s3,a|θ
q
′
)、critic_eval_net:q(s1,s2,s3,a|θ
g
)、actor_target_net:μ
′
(s1,s2,s3|θ
q
′
)、actor_eval_net:μ(s1,s2,s3|θ
g
)。7.根据权利要求4所述的一种基于智能天线的mimo全双工功率分配方法,其特征在于,所述步骤s5中基于公平原则求取上行用户发射功率的下限以及基站下行预编码矩阵的下限,计算公式为:限,计算公式为:
求解得到p
j
=p
min
,w
k
=diag(0,
…
,0,w
min
,0,
…
0);缩减后的动作状态8.根据权利要求5所述的一种基于智能天线的mimo全双工功率分配方法,其特征在于,所述步骤s6包括:s61、为critic_eval_net:q(s1,s2,s3,a|θ
g
)和actor_evalnet:μ(s1,s2,s3|θ
μ
)中的θ
g
和θ
μ
随机赋初值;s62、分别把eval网络中的θ
g
和θ
μ
赋值给target网络中的θ
q
′
和θ
μ
′
;s63、初始化经验池r,经验池r中存储若干个{s
t
,a
t
,r
t
};s64、为动作赋初值,上下行用户采取等功率分配策略;s65、进行迭代,迭代包括外循环和内循环两层,外循环迭代重置状态,内循环迭代对状态步数进行遍历,直至达到外循环迭代最大次数,输出最优动作态步数进行遍历,直至达到外循环迭代最大次数,输出最优动作以及该动作所对应的状态动作所对应的状态实现mimo全双工功率分配。9.根据权利要求8所述的一种基于智能天线的mimo全双工功率分配方法,其特征在于,所述步骤s65中外循环和内循环过程包括:s651、进入外循环迭代,外循环迭代对状态s0赋当前值;s652、进入内循环迭代,内循环迭代每一次都从actor_eval_net中选择动作a
t
,将动作a
t
代入全双工环境,状态从s
t
迁移至s
t+1
并获得奖励r
t
;s653、把当前状态s
t
、下一状态s
t+1
以及选择的动作a
t
和获得的奖励r
t
分别存放于经验池r中;s654、从经验池r中随机抽取若干组(s
t
,a
t
,r
t
,s
t+1
)来训练ddpg网络;s653、通过eval critic network计算动作a
t
下的curq:curq=q(s1,s2,s3,a|θ
g
);s654、根据target actor network输出的动作a
t+1
,利用target critic network为eval critic network计算targetq,targetq的计算公式为:targetq=r
t
+gamma
·
q
′
(s1,s2,s3,μ
′
(s1,s2,s3|θ
μ
′
)|θ
q
′
)其中gamma表示折扣因子,gamma[0,1];s655、根据获得的curq和targetq,计算损失函数的均方误差的梯度,均方误差的梯度计算公式为:loss=mean(diff(targetq-curq))s656、更新curq中的参数θ
g
;s657、通过梯度的蒙特卡洛估计方法更新actor的参数θ
μ
;蒙特卡洛估计方法更新actor的参数θ
μ
的计算公式为:s658、利用参数θ
g
和θ
μ
采用滑动平均的方式分别来更新target critic network和
target actor network的参数θ
q
′
和θ
μ
′
;其计算公式为:θ
q
′
←
ρθ
g
+(1-ρ)θ
q
′
θ
μ
′
←
ρθ
μ
+(1-ρ)θ
μ
′
其中ρ∈(0,1)是超参数;s659、判断是否达到内循环迭代最大次数,若否,则返回s652;若是,则返回s651;判断是否达到外循环迭代最大次数,若否,则返回s651;若是,则输出最优动作以及该动作所对应的状态以及该动作所对应的状态实现mimo全双工功率分配。10.根据权利要求9所述的一种基于智能天线的mimo全双工功率分配方法,其特征在于,步骤s652中状态从s
t
迁移至s
t+1
并获得奖励r
t
,计算公式包括:,计算公式包括:,计算公式包括:其中,t和(t+1)时刻分别定义为当前时刻和下一时刻。
技术总结本发明公开了一种基于智能天线的MIMO全双工功率分配方法,包括建立全双工大规模MIMO网络模型,定义全双工大规模MIMO网络模型中智能天线、用户状态、子载波分配三要素,构建全双工大规模MIMO网络模型的优化后的频谱效率目标函数,建立DDPG模型求解优化后的频谱效率目标函数,优化DDPG模型中的状态和动作,运行DDPG模型输出最优动作和状态,实现MIMO全双工功率分配。本发明采用用户全局唯一标识,实时对用户进行使能、静默管理,避免某些用户在当前时隙造成显著的基站残余自干扰或者用户间干扰等异常情形,并结合各个智能天线的发送和接收等状态及子载波分配,设计出有效的系统频谱效率目标函数并求解,确保系统频谱效率最大,以便尽可能提升全双工系统自由度。以便尽可能提升全双工系统自由度。以便尽可能提升全双工系统自由度。
技术研发人员:潘坤贝 金圣峣 周斌
受保护的技术使用者:江苏集萃移动通信技术研究所有限公司
技术研发日:2022.07.19
技术公布日:2022/11/1