基于认知抗干扰模型的动态频谱多域抗干扰方法及系统

专利2024-05-13  78



1.本发明涉及无线通信抗干扰技术领域,更具体地,涉及一种基于认知抗干扰模型的动态频谱多域抗干扰方法及系统。


背景技术:

2.由于无线信道的开放性,我国的信息安全面临严重的安全威胁,其中无线电干扰被视为最直接有效的无线攻击方式之一。然而传统的通信抗干扰方法大多采用“预先设定、被动响应”的体制,且通常从单一资源域(如单一频率或者单一功率域)设计抗干扰方法,难以应用于具备认知能力的复杂干扰场景以及复杂网络中。因此,迫切需要研究对抗复杂恶劣频谱环境的智能多域通信抗干扰方法。
3.人工智能中深度强化学习方法(参考文献:mnih v,kavukcuoglu k,silver d,et al.human-level control through deep reinforcement learning[j].nature,2015,518(7540):529.)可以在动态未知、状态空间巨大的环境中挖掘环境状态的特征规律,获取接近最优的决策策略。通过深度强化学习方法,在恶意干扰以及其他通信用户用频规律先验信息未知的前提下,学习其信号在频谱上的跳变模式,将是一种可行的方案。然而,由于干扰能力的提升,对于具备认知和跟踪能力的干扰将导致深度强化学习算法难以学习其干扰规律,导致算法无法收敛。


技术实现要素:

[0004]
针对以上提到的现有技术中面临的技术问题,本发明创新性地提出了一种针对认知有意干扰和无意干扰同时存在的基于认知通信抗干扰模型的系统及动态频谱多域抗干扰方法。采用认知服务器辅助设备通信的框架,将频率与功率多域联合决策。利用深度神经网络强大的函数拟合能力对巨大状态空间进行特征提取和泛化,通过强化学习在动态未知的环境中获取最优抗干扰策略,从而可有效提升对抗恶意干扰和无意干扰的能力。
[0005]
为实现上述目的,按照本发明的第一个方面,提供了一种基于认知抗干扰模型的动态频谱多域抗干扰方法,包括步骤:
[0006]
以随机赋值的权重构建深度q神经网络,生成容量为预设容量值的经验池并通过随机探索填满;
[0007]
依据概率0≤ε≤1随机选择第一策略,或者,依据概率1-ε贪婪选择第二策略;
[0008]
感知当前频谱,执行第一策略或第二策略来接收信号,获得奖励值;
[0009]
更新频谱状态,将在一次决策时隙中的一个四元组经验存入经验池;
[0010]
从经验池中随机批量采样,通过损失函数的梯度方程更新深度q神经网络的权重。
[0011]
进一步地,所述贪婪选择第二策略为贪婪选择为的第二策略,具体的,深度q神经网络用于拟合q值函数,该函数的输入为当前获取的频谱环境状态,输出为在当前状态下对每个策略未来长期累积奖励值的估计量,即q值,拟合的q值函数的表达式为:
[0012][0013]
其中γ为折扣因子,为mellowmax算子,w为正的温度参数,s
t
为当前的频谱环境状态,a
t
为当前的策略,s
t+1
为下一时刻的频谱环境状态,a
t+1
为下一时刻的策略,r
t
为当前的奖励值。
[0014]
进一步地,所述将在一次决策时隙中的一个四元组经验存入经验池具体为:
[0015]
在一次决策时隙中的一个四元组经验包括当前的频谱环境状态s
t
、当前的策略a
t
、当前的奖励值r
t
和下一时刻的频谱环境状态s
t+1
,将t时刻获得的四元组(s
t
,a
t
,r
t
,s
t+1
)定义为一个经验;在每个决策时隙中将所获得的一个四元组经验存储到经验池中,若经验池存储的经验数量已经达到所述预设容量值,则将存储时间超过所述预设容量值的旧的经验删除而存储入新的经验。
[0016]
进一步地,所述从经验池中随机批量采样,通过损失函数的梯度方程更新深度q神经网络的权重具体包括:
[0017]
训练时,采用经验值回放机制,随机选取一定数量的经验组成一组训练数据;第k次迭代时,训练深度q神经网络的损失函数的表达式为:
[0018][0019]
其中θi表示第i次迭代的网络权重参数,yi为目标q值;根据mellowmax算子,目标q值为
[0020]
通过认知服务器与频谱环境重复的交互过程积累经验e,并通过最小化损失函数更新权重θ、训练深度q神经网络,损失函数的梯度方程为:
[0021][0022]
其中为梯度运算符,借助损失函数的梯度方程,利用梯度下降的方法更新整个深度q神经网络的权重。
[0023]
按照本发明的第二个方面,还提供了一种基于认知抗干扰模型的动态频谱多域抗干扰系统,该系统包括认知网络系统,所述认知网络系统包括:
[0024]
认知服务器,用于向多个终端设备提供以时隙的方式认知频谱环境和数据收发的服务;
[0025]
终端设备,用于接受所述认知服务器的服务,向认知服务器上传和下载数据;
[0026]
干扰机,用于对认知网络系统的通信造成有意干扰;
[0027]
主用户机,用于与认知网络系统共享频谱资源,并对认知网络系统的通信造成无意干扰。
[0028]
进一步地,终端设备n上传相应数据至所述认知服务器时在信道k的信干噪比β
n,k
的公式为:
[0029]
[0030]
其中,h
n,k
为终端设备n到认知服务器的信道系数,i
n,k
为终端设备n选择信道k时受到其他终端设备和主用户机的无意干扰,j
n,k
为终端设备n受到的有意干扰功率,σ为加性高斯白噪声的功率,pn为终端设备n的功率;
[0031]
通信速率c
n,k
的公式为:
[0032][0033]
其中,β
th
为认知服务器成功解调信号门限,b为信道带宽;
[0034]
所有信号同时存在时,在认知服务器接收端的功率谱密度方程s(f)的公式为:
[0035][0036]
其中,ua(f)为主用户机信号的功率谱密度方程,h
a,n
、fa分别为主用户机信号的信道系数和中心频率,为除去终端设备n的终端设备集合,fm为终端设备m选择的信道,h
j,n
为干扰信道系数,uj(f)为干扰的功率谱密度方程,n(f)为噪声的功率谱密度方程;
[0037]
将离散频谱采样值定义为其中δf为频谱分析的分辨率;通过感知并采样获得某一时刻的频谱状态观测结果o=[o1,o2,

,o
l
]并用于后续的频谱分析与用频决策。
[0038]
进一步地,有意干扰的信号的中心频率和带宽与认知网络系统的通信信号的中心频率和带宽保持相同,有意干扰用于尽可能使终端设备接收到的信干噪比低于解调信号门限。
[0039]
进一步地,主用户机的信号模型是将主用户机的频谱接入模型建模为马尔可夫状态转移模型,令t时隙主用户机信号的状态为其中,为状态集,为认知网络系统与主用户机共享的信道集;表示主用户机静默,表示主用户机正在使用相应的信道;主用户机信号的状态转移用状态转移概率矩阵来建模,该矩阵的行与列分别表示状态,对应的元素表示转移概率。
[0040]
进一步地,认知服务器以时隙的方式认知频谱环境具体为:
[0041]
每一个时隙均包括感知主用户机信号、发送探针信号、感知干扰机信号和学习决策四个阶段;
[0042]
感知主用户机信号阶段,认知服务器通过感知获取主用户机信号所在信道;
[0043]
发送探针信号阶段,认知服务器在感知完主用户机信号后选择子信道集以及功率ps发送短包探针信号,其中且fa为主用户机信号的中心频率;
[0044]
感知干扰机信号阶段,发送探针信号后,认知服务器马上切换到侦听状态,获得干扰机信号的信息,即干扰机信号在信道集上的功率;
[0045]
学习决策阶段,根据频谱环境反馈的效果学习干扰规律以及主用户机信号的出现规律,决策下一时刻的子信道集和功率ps。
[0046]
进一步地,认知服务器通过学习干扰规律以及主用户机信号的出现规律,输出决
策定义认知服务器的效能us为
[0047][0048]
其中,βs∈(0,1)为认知服务器的功率开销因子,为跟踪式干扰的决策,即在各信道上分配的功率;认知服务器通过优化输出决策使得效能最大,优化目标的表达式为:
[0049][0050][0051]
其中,为跟踪式干扰根据认知服务器的通信行为做出的最优功率分配决策,为终端设备的可用发送功率水平集。
[0052]
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
[0053]
(1)本发明提出的基于认知通信抗干扰模型的抗干扰系统充分考虑了认知无线网络中的认知跟踪有意干扰、主用户机无意干扰、网络工作时隙结构以及无线频谱环境的复杂性等问题,系统的模型构建更加完备,比传统的通信抗干扰模型更有实际意义。本发明提出的基于深度强化学习的动态频谱多域抗干扰方法,能够实现对系统中提出的模型的有效求解,求出认知无线网络的功率-频率联合用频策略,可有效地应对复杂的干扰环境,从而克服了传统通信抗干扰难以应对认知跟踪有意干扰和主用户机无意干扰同时存在复杂恶劣频谱环境的不足。
[0054]
(2)传统深度q学习的损失函数具有明显的周期性波动,这是因为传统深度q学习每隔一段迭代次数才更新一次。而本发明所提出的深度强化学习算法采用了更加平滑的mellowmax算子,每次迭代都对神经网络进行更新,使得对神经网络地更新更加精确和迅速。
附图说明
[0055]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0056]
图1为本发明实施例提供的认知服务器辅助的通信抗干扰系统的结构示意图;
[0057]
图2为本发明实施例提供的基于深度强化学习的动态频谱多域抗干扰算法的模型框架示意图;
[0058]
图3为本发明实施例提供的基于深度强化学习的动态频谱多域抗干扰通信时隙结构示意图;
[0059]
图4为本发明实施例提供的一种基于认知抗干扰模型的动态频谱多域抗干扰方法的流程示意图;
[0060]
图5为本发明具体实施例1提供的对比所提算法和传统深度q学习算法的神经网络训练损失函数随着迭代次数变化的仿真图;
[0061]
图6为本发明具体实施例2提供的神经网络输出的平均q值随着迭代次数变化的仿真图。
具体实施方式
[0062]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0063]
本技术的说明书、权利要求书或上述附图中的术语“第一”、“第二”或“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”或“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备并没有限定于已列出的步骤或单元,而是可选地还可以包括没有列出的步骤或单元,或可选地还可以包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
[0064]
本发明所提出的一种基于认知通信抗干扰模型的抗干扰系统以及一种基于深度强化学习的动态频谱多域抗干扰方法,旨在提供方案以解决认知有意(恶意)干扰和无意干扰同时存在的认知通信抗干扰问题。提出的基于深度强化学习的动态频谱多域抗干扰方法,将认知服务器感知得到的时频二维图作为算法的输入,采用深度神经网络提取复杂频谱的特征和规律,获取恶意(有意)干扰和无意干扰信号的用频规律;接着,通过相应的决策算法,更新认知无线网络的用频策略。
[0065]
本发明的目的在于提供一种基于认知通信抗干扰模型的抗干扰系统和一种基于深度强化学习的动态频谱多域抗干扰方法,该抗干扰模型能够很好地刻画面向认知有意干扰和无意干扰的认知通信抗干扰场景。实现本发明目的的技术解决方案具体如下所述。
[0066]
如图1所示,在一个实施例中,一种基于认知通信抗干扰模型的抗干扰系统,对该通信抗干扰模型做如下刻画:在一个认知无线网络系统中,一个认知服务器向多个终端设备提供以时隙的方式认知频谱环境和数据收发的服务,终端设备接受所述认知服务器的服务并可通过无线通信的方式向认知服务器上传以及下载数据。一个恶意干扰机通过发送无线电干扰攻击认知无线网络系统的通信。考虑该认知无线网络系统接入一个主用户机(主用户机用于与认知网络系统共享频谱资源)的授权频段,当该主用户机通信时会对网络系统造成无意干扰。假设该认知无线网络系统与主用户机共享的信道集为信道具有相同的带宽b。终端设备的可用发送功率水平集为信道的频率为[f
k-b,fk+b],其中fk为中心频率。功率满足其中u(f)为功率谱密度(power spectral density,psd)方程。在多终端设备与干扰存在的场景中,终端设备n需要选择一个空闲信道和功率以提高通信效率。以向上传相关数据至认知服务器为例,终端设备n在信道k的信干噪比(sinr,即signal to interference plus noise ratio,指的是系统中信号与干扰和噪声之和的比)如下式所示:
[0067][0068]
其中,h
n,k
为终端设备n到认知服务器的信道系数,i
n,k
为终端设备n选择信道k受到其他终端设备和主用户机的同频无意干扰,j
n,k
为终端设备n受到的恶意干扰功率,σ为加性高斯白噪声的功率,pn为终端设备n的功率。
[0069]
通信速率c
n,k
如下式所示:
[0070][0071]
其中,β
th
为认知服务器成功解调信号门限,b为信道带宽。
[0072]
为了便于后续的频谱分析与决策,考虑所有信号同时存在,在认知服务器接收端的psd方程s(f)如下式所示:
[0073][0074]
其中,ua(f)为主用户机信号的psd方程,h
a,n
、fa分别为主用户机信号的信道系数和中心频率,为除去终端设备n的终端设备集合(表示从集合中去除集合),fm为终端设备m选择的信道,h
j,n
为干扰信道系数,uj(f)为干扰的功率谱密度方程,n(f)为噪声的功率谱密度方程。
[0075]
离散频谱采样值定义为其中δf为频谱分析的分辨率。通过感知并采样获得某一时刻的频谱状态观测结果o=[o1,o2,

,o
l
],该结果可以用于后续的频谱分析与用频决策中。
[0076]
干扰的模式是在主用户机或者网络设备开始传输后跟踪信号,且有意干扰信号的中心频率和带宽与认知无线通信网络系统的通信信号的中心频率和带宽保持相同,以此来提高隐蔽性与成功率。对于多信道场景,令干扰分配到信道k上的功率为p
j,k
,假设干扰通过感知获取信道k的通信功率为干扰的目的是尽可能使终端设备接收到的sinr低于解调门限。对于多信道场景,有意干扰可以通过将功率分配到多个信道上来攻击多个终端设备的上传过程。
[0077]
主用户机信号模型是将主用户机的频谱接入模型建模为马尔可夫状态转移模型。令t时隙主用户机信号的状态为其中为状态集。表示主用户机静默,表示主用户机正在使用相应的信道。主用户机信号的状态转移可以用状态转移概率矩阵来建模,该矩阵的行与列分别表示状态,对应的元素表示转移概率。
[0078]
有意干扰以及主用户机无意干扰同时存在的动态未知且具有对抗性的频谱环境导致通信设备获取通信策略将面临能量受限、用频行为难协调等挑战,为此,如图3所示,进行了认知服务器“感知-试探-感知-学习”的环境认知、策略学习时隙一体化的设计,具体设计如下:
[0079]
认知服务器以时隙的方式认知频谱环境,1个时隙分为4个阶段:感知主用户机信
号阶段、发送探针信号阶段、感知干扰机信号阶段和学习决策阶段。感知主用户机信号阶段,认知服务器通过感知获取主用户机信号所在信道;发送探针信号阶段,为获得干扰信息,认知服务器在感知完主用户机信号后发送探针信号,用来引诱干扰攻击,为了不对主用户机造成干扰,认知服务器选择子信道集以及功率ps发送短包探针信号,其中且感知干扰机信号阶段,发送探针信号后,认知服务器马上切换到侦听状态,获得干扰机信号的信息,即干扰机在信道集上的功率;学习决策阶段,根据频谱环境反馈的效果学习干扰规律以及主用户机信号的出现规律,决策下一时刻的子信道集和功率ps。
[0080]
由于跟踪式认知干扰的跟随性,认知服务器与干扰之间的对抗交互具有先行和跟随的特点。对于认知服务器,为了辅助设备不被干扰,认知服务器通过学习干扰规律以及主用户信号的出现规律,输出决策定义认知服务器的效能us为:
[0081][0082]
其中βs∈(0,1)为认知服务器的功率开销因子,为跟踪式干扰的决策,即在各信道上分配的功率。认知服务器的目的是通过优化输出决策使得效能最大,优化目标的表达式为:
[0083][0084][0085]
其中,为跟踪式干扰根据认知服务器的通信行为做出的最优功率分配决策。
[0086]
如图4所示,在一个实施例中,一种基于深度强化学习的动态频谱多域抗干扰方法主要包括以下5个步骤:
[0087]
步骤1、初始化:以随机权重构建深度q神经网络,权重为φ随机赋值;生成容量为m的经验池并通过随机探索填满。
[0088]
如图2所示,该构建的深度q神经网络采用卷积神经网络框架,输入为时频二维图,通过池化层和两层卷积层降低输入数据的维度、提取频谱环境中的特征,两层全连接层用来逼近策略价值函数,然后通过随机贪婪算法决策有效的通信策略。
[0089]
步骤2、依据概率0≤ε≤1随机选择策略依据概率1-ε贪婪选择策略
[0090]
其中,步骤2中的贪婪选择策略具体如下:深度q神经网络是用来拟合策略价值函数即q值函数的,该函数的输入为当前获取的频谱环境状态,输出为在当前状态下对每个策略未来长期累积奖励值的估计量,即q值,拟合的q函数表示如下:
[0091][0092]
其中γ为折扣因子,为mellowmax算子,w为正
的温度参数。
[0093]
步骤3、认知服务器感知当前的频谱o
t
,执行动作来接收信号,获得奖励值rk。
[0094]
步骤4、更新频谱状态s
t+1
=[o
t+1
,o
t
,

,o
t-φ+2
]
t
,将经验(s
t
,a
t
,r
t
,s
t+1
)存入经验池中。
[0095]
步骤4中的将经验(s
t
,a
t
,r
t
,s
t+1
)存入经验池中具体如下:一个经验定义为在一次决策时隙中的一个四元组,包括当前的频谱环境状态s
t
、当前的策略a
t
、当前的奖励值r
t
和下一时刻的频谱环境状态s
t+
1,即将t时刻获得的四元组(s
t
,a
t
,r
t
,s
t+1
)定义为一个经验;在每个时隙将所获得的一个四元组经验存储到经验池中,若经验池存储的经验数量已经达到容量值m,则将存储时间超过m的经验删除而存储入新的经验。
[0096]
步骤5、从经验池中随机批量采样(sj,aj,rj,s
j+1
),令计算并更新权重φ
t
,结束算法。
[0097]
步骤5中的从经验池中随机批量采样(sj,aj,rj,s
j+1
),计算并更新权重φ
t
具体如下:训练时,采用经验值回放机制,随机选取一定数量的经验组成一组训练数据;第k次迭代时,训练深度q神经网络的损失函数表示如下:
[0098][0099]
其中θi表示第i次迭代的网络权重参数,yi为目标q值。根据mellowmax算子,目标q值为
[0100]
通过认知服务器与频谱环境重复的交互过程积累经验e,并通过最小化损失函数更新权重θ、训练深度q神经网络。损失函数的梯度可以表示为:
[0101][0102]
其中,为梯度运算符,借助上述损失函数的梯度公式,可以利用梯度下降的方法更新整个深度q神经网络的权重。
[0103]
具体实施例1
[0104]
在该具体实施例1中,系统仿真采用python语言,基于tensorflow的深度学习框架,参数设定不影响一般性。该实施例验证所提模型与算法的有效性,参数设置为:网络在14mhz频段内进行通信,认知服务器每1ms进行精度为δf=70khz的全频段感知,认知服务器保留历史时长为φ=200ms内的频谱数据,因此每时刻时频二维图的维度为200
×
200。假设14mhz的频段内被等分为7条信道(信道1到7),每条信道的带宽约为2mhz。令干扰信号的最大功率为15dbm,iot的功率集为认知服务器端通信的解调门限为β
th
=5db,噪声水平为﹣90dbm/hz。
[0105]
图5是本发明具体实施例1中对比所提算法和传统深度q学习算法的神经网络训练损失函数随着迭代次数变化的仿真图,其中上面波动大的是传统深度q学习算法,较为平滑的为本发明所提算法。从图中可以看出,传统深度q学习算法的损失函数具有明显的周期性波动,这是因为传统深度q学习每隔一段迭代次数才更新一次。而本发明所提的深度强化学
习算法采用了更加平滑的mellowmax算子,每次迭代都会进行神经网络的更新,使得神经网络的更新更加精确和迅速(图5中所示的损失函数的均值更小)。
[0106]
具体实施例2
[0107]
具体实施例2与具体实施例1的参数设置相同,区别仅在于研究所侧重的参数。在该具体实施例2中,系统仿真依然采用python语言,基于tensorflow的深度学习框架,参数设定不影响一般性。该实施例验证所提模型与算法的有效性,参数设置为:网络在14mhz频段内进行通信,认知服务器每1ms进行精度为δf=70khz的全频段感知,认知服务器保留历史时长为φ=200ms内的频谱数据,因此每时刻时频二维图的维度为200
×
200。假设14mhz的频段内被等分为7条信道(信道1到7),每条信道的带宽约为2mhz。令干扰信号的最大功率为15dbm,iot的功率集为认知服务器端通信的解调门限为β
th
=5db,噪声水平为﹣90dbm/hz。
[0108]
图6是本发明具体实施例2中随着迭代次数的增加,认知服务器和认知干扰机效用的变化趋势,干扰效用定义为认知无线网络通信的信干噪比的负值减去其功率损耗。在所提算法的探索和训练阶段,认知服务器逐渐积累了具有高奖励值的经验,随着神经网络的更新训练,其拟合的决策策略函数与最优策略函数越来越接近,其效用呈上升趋势。但干扰机的效用显著降低,这是因为干扰机在跟踪干扰认知无线网络的通信时仅考虑当前效用,而本发明所提算法具有长期优化能力,在逐渐学习到干扰的用频规律后,能够生成有效对抗干扰的策略。
[0109]
综上所述,本发明提出的基于认知通信抗干扰模型的抗干扰系统充分考虑了认知无线网络中的认知跟踪干扰、主用户机信号的存在,以及无线频谱环境的复杂性等问题,该抗干扰系统采用的模型比传统的通信抗干扰模型更有实际意义;提出的基于深度强化学习的动态频谱多域抗干扰方法,能够实现对提出的模型的有效求解,求出认知无线通信网络系统的功率-频率联合用频策略,可更有效地应对复杂的干扰环境。
[0110]
需要说明的是,附图中的流程图或框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。还要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0111]
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别的,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本公开的范围。
[0112]
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

技术特征:
1.一种基于认知抗干扰模型的动态频谱多域抗干扰方法,其特征在于,包括步骤:以随机赋值的权重构建深度q神经网络,生成容量为预设容量值的经验池并通过随机探索填满;依据概率0≤ε≤1随机选择第一策略,或者,依据概率1-ε贪婪选择第二策略;感知当前频谱,执行第一策略或第二策略来接收信号,获得奖励值;更新频谱状态,将在一次决策时隙中的一个四元组经验存入经验池;从经验池中随机批量采样,通过损失函数的梯度方程更新深度q神经网络的权重。2.如权利要求1所述的抗干扰方法,其特征在于,所述贪婪选择第二策略为贪婪选择为的第二策略,具体的,深度q神经网络用于拟合q值函数,该函数的输入为当前获取的频谱环境状态,输出为在当前状态下对每个策略未来长期累积奖励值的估计量,即q值,拟合的q值函数的表达式为:其中γ为折扣因子,为mellowmax算子,w为正的温度参数,s
t
为当前的频谱环境状态,a
t
为当前的策略,s
t+1
为下一时刻的频谱环境状态,a
t+1
为下一时刻的策略,r
t
为当前的奖励值。3.如权利要求1所述的抗干扰方法,其特征在于,所述将在一次决策时隙中的一个四元组经验存入经验池具体为:在一次决策时隙中的一个四元组经验包括当前的频谱环境状态s
t
、当前的策略a
t
、当前的奖励值r
t
和下一时刻的频谱环境状态s
t+1
,将t时刻获得的四元组(s
t
,a
t
,r
t
,s
t+1
)定义为一个经验;在每个决策时隙中将所获得的一个四元组经验存储到经验池中,若经验池存储的经验数量已经达到所述预设容量值,则将存储时间超过所述预设容量值的旧的经验删除而存储入新的经验。4.如权利要求1所述的抗干扰方法,其特征在于,所述从经验池中随机批量采样,通过损失函数的梯度方程更新深度q神经网络的权重具体包括:训练时,采用经验值回放机制,随机选取一定数量的经验组成一组训练数据;第k次迭代时,训练深度q神经网络的损失函数的表达式为:其中θ
i
表示第i次迭代的网络权重参数,y
i
为目标q值;根据mellowmax算子,目标q值为通过认知服务器与频谱环境重复的交互过程积累经验e,并通过最小化损失函数更新权重θ、训练深度q神经网络,损失函数的梯度方程为:其中,为梯度运算符,借助损失函数的梯度方程,利用梯度下降的方法更新整个深度q神经网络的权重。
5.一种基于认知抗干扰模型的动态频谱多域抗干扰系统,其特征在于,包括认知网络系统,所述认知网络系统包括:认知服务器,用于向多个终端设备提供以时隙的方式认知频谱环境和数据收发的服务;终端设备,用于接受所述认知服务器的服务,向认知服务器上传和下载数据;干扰机,用于对认知网络系统的通信造成有意干扰;主用户机,用于与认知网络系统共享频谱资源,并对认知网络系统的通信造成无意干扰。6.如权利要求5所述的抗干扰系统,其特征在于,终端设备n上传相应数据至所述认知服务器时在信道k的信干噪比β
n,k
的公式为:其中,h
n,k
为终端设备n到认知服务器的信道系数,i
n,k
为终端设备n选择信道k时受到其他终端设备和主用户机的无意干扰,j
n,k
为终端设备n受到的有意干扰功率,σ为加性高斯白噪声的功率,p
n
为终端设备n的功率;通信速率c
n,k
的公式为:其中,β
th
为认知服务器成功解调信号门限,b为信道带宽;所有信号同时存在时,在认知服务器接收端的功率谱密度方程s(f)的公式为:其中,u
a
(f)为主用户机信号的功率谱密度方程,h
a,n
、f
a
分别为主用户机信号的信道系数和中心频率,为除去终端设备n的终端设备集合,f
m
为终端设备m选择的信道,h
j,n
为干扰信道系数,u
j
(f)为干扰的功率谱密度方程,n(f)为噪声的功率谱密度方程;将离散频谱采样值定义为其中δf为频谱分析的分辨率;通过感知并采样获得某一时刻的频谱状态观测结果o=[o1,o2,

,o
l
]并用于后续的频谱分析与用频决策。7.如权利要求6所述的抗干扰系统,其特征在于,有意干扰的信号的中心频率和带宽与认知网络系统的通信信号的中心频率和带宽保持相同,有意干扰用于尽可能使终端设备接收到的信干噪比低于解调信号门限。8.如权利要求5所述的抗干扰系统,其特征在于,主用户机的信号模型是将主用户机的频谱接入模型建模为马尔可夫状态转移模型,令t时隙主用户机信号的状态为其中,为状态集,为认知网络系统与主用户机共享的信道集;表示主用户机静默,表示主用户机正在使用相应的信道;主用户机信号的状态转移用状态转
移概率矩阵来建模,该矩阵的行与列分别表示状态,对应的元素表示转移概率。9.如权利要求8所述的抗干扰系统,其特征在于,认知服务器以时隙的方式认知频谱环境具体为:每一个时隙均包括感知主用户机信号、发送探针信号、感知干扰机信号和学习决策四个阶段;感知主用户机信号阶段,认知服务器通过感知获取主用户机信号所在信道;发送探针信号阶段,认知服务器在感知完主用户机信号后选择子信道集以及功率p
s
发送短包探针信号,其中且f
a
为主用户机信号的中心频率;感知干扰机信号阶段,发送探针信号后,认知服务器马上切换到侦听状态,获得干扰机信号的信息,即干扰机信号在信道集上的功率;学习决策阶段,根据频谱环境反馈的效果学习干扰规律以及主用户机信号的出现规律,决策下一时刻的子信道集和功率p
s
。10.如权利要求9所述的抗干扰系统,其特征在于,认知服务器通过学习干扰规律以及主用户机信号的出现规律,输出决策定义认知服务器的效能u
s
为其中,β
s
∈(0,1)为认知服务器的功率开销因子,为跟踪式干扰的决策,即在各信道上分配的功率;认知服务器通过优化输出决策使得效能最大,优化目标的表达式为:达式为:其中,为跟踪式干扰根据认知服务器的通信行为做出的最优功率分配决策,为终端设备的可用发送功率水平集。

技术总结
本发明公开了一种基于认知模型的动态频谱多域抗干扰方法,包括:认知服务器感知获得表征当前频谱状态的时频二维图;利用深度神经网络提取时频二维图中的特征,通过深度强化学习算法更新神经网络参数、拟合得到对应的策略价值函数并估计每个策略的长期累积奖励值;根据估计的长期累积奖励值,认知服务器决策使长期累积奖励值最大的通信策略,根据该决策的奖励值更新神经网络参数,直至达到最大循环次数时结束。该方法采用认知服务器辅助设备通信的框架,将频率与功率多域联合决策。利用深度神经网络的函数拟合能力对巨大状态空间进行特征提取和泛化,通过强化学习在动态未知的环境中获取最优抗干扰策略,有效提升了对抗恶意和无意干扰的能力。无意干扰的能力。无意干扰的能力。


技术研发人员:汪西明 杜智勇 高泳洪 杨伊君 徐小涛 熊涛 卢迅
受保护的技术使用者:中国人民解放军国防科技大学
技术研发日:2022.07.11
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-8112.html

最新回复(0)