本发明涉及雷达波形优化,具体为低截获概率下联合抗干扰和跟踪的多维雷达资源调度方法。
背景技术:
1、由于目标运动的非合作性和目标源量测的不确定性,雷达机动目标跟踪复杂困难。随着电子对抗技术和电磁频谱战的发展,复杂电磁干扰环境下有源电子干扰(例如噪声压制干扰)严重影响雷达性能。除去被动接收抗干扰和改进跟踪滤波算法外,受到闭环学习自进化的认知雷达架构的启发,研究人员关心如何利用实时环境感知信息和多尺度先验知识(例如回波历史数据、目标和电子干扰特性),智能优化发射策略和射频资源配置来主动抗干扰,以提升雷达-干扰源共存场景下的机动目标跟踪性能。
2、雷达发射端的主动抗干扰的认知发射,是指利用雷达目标与电子干扰的先验知识、雷达回波历史数据以及战场环境实时认知信息,优化发射策略和射频资源配置,提升复杂电磁对抗环境下的反侦察和抗干扰效能,可划分为抗干扰波形设计和抗干扰资源参数调度。针对干扰样式的不同,可以将抗干扰波形设计划分为抗压制干扰、抗欺骗干扰、抗灵巧干扰。根据抗干扰策略的不同,又可以分为基于规避策略的抗干扰波形优化和基于陷波策略的抗干扰波形优化。基于动态对抗环境中形成的ooda(observation-orientation-decision-action,ooda)闭环,抗干扰射频资源参数调度通过多雷达信号域协同催生更加强大的抗干扰能力,也是研究重点,可以划分为波形参数智能调度、功率资源智能调度、频谱资源智能调度等,并通过使用博弈论、多臂赌博机、强化学习、元学习方法进行求解。
3、从数学上来讲,面向机动目标跟踪的资源管理可以被表述成一个约束优化问题,权衡目标跟踪性能和有限的系统资源之间的矛盾。大体可以分为两种资源管理方案,包括在一定资源约束下最大化目标跟踪性能,以及满足预定的目标跟踪性能需求的前提下最小化系统资源损耗。涉及到的系统资源要素包括时敏资源(包括频段、带宽、波形、发射功率、驻留时间、方向图等)和非时敏资源(包括组织链接网络架构、网络节点、航迹规划)。
4、然而,无论是现有的面向机动目标跟踪的资源管理方法还是面向抗干扰的资源调度方法都难以直接运用到受干扰限制场景下的机动目标跟踪场景,进而导致目标航迹丢失、目标状态估计性能降低的问题。
技术实现思路
1、本发明的目的是:针对现有调度方法难以直接运用到受干扰限制场景下的机动目标跟踪场景,进而导致目标航迹丢失、目标状态估计性能降低的问题,提出低截获概率下联合抗干扰和跟踪的多维雷达资源调度方法。
2、本发明为了解决上述技术问题采取的技术方案是:
3、低截获概率下联合抗干扰和跟踪的多维雷达资源调度方法,包括以下步骤:
4、随机初始化策略函数和状态值函数v(b,w),其中,β表示随机初始化的雷达频段占用动作,b表示随机初始化的雷达置信状态,表示随机初始化的策略函数参数,w表示随机初始化的状态值函数参数,随机初始化策略学习率和状态值函数学习率αw,其中,对时间步k依次执行以下步骤,k=1,...,n;
5、步骤一:获取雷达回波数据,并利用雷达回波数据构建时间步k-1的雷达置信状态bk-1,所述雷达置信状态包括目标状态和射频干扰状态;
6、步骤二:基于时间步k-1的雷达置信状态bk-1,采用时间步k-1的策略函数生成雷达子频段选择动作并对雷达子频段选择动作进行解算,得到最优雷达载频和最优雷达带宽
7、步骤三:利用雷达被截获概率阈值pth和雷达置信状态bk-1,分别计算在最大雷达驻留时间下的雷达辐射功率以及在最小雷达驻留时间下的雷达辐射功率其中,rk|k-1表示k-1时刻雷达和目标之间的预测距离;
8、步骤四:基于雷达辐射功率的上限和下限对比和的值,并将其中最小者记为满足射频资源约束条件下的雷达辐射功率
9、步骤五:在最大信干噪比准则下,比较与选取其中值最大的一组,即为最优雷达驻留时间和最优辐射功率
10、步骤六:基于雷达子频段占用动作生成实时频谱约束函数并将频谱约束函数作为波形参数优化的实时频谱约束条件,其中,wtype表示雷达波形的类型,λk表示高斯脉冲宽度,κk表示调频速率;
11、步骤七:基于时间步k-1的雷达置信状态bk-1构建mmse准则的条件预测贝叶斯风险下界
12、步骤八:基于资源约束生成资源约束函数rθ(λk,κk wtype);
13、步骤九:基于mmse准则下的条件预测贝叶斯风险资源约束函数rθ(λk,κk wtype)和频谱约束函数构建约束优化问题;
14、步骤十:求解步骤九中优化问题,得到最优高斯脉冲宽度和最优调频斜率
15、步骤十一:根据最优雷达载频最优雷达带宽最优雷达驻留时间最优辐射功率最优高斯脉冲宽度以及最优调频斜率得到回波信号,并获取回波信号中的频谱量测hk;
16、步骤十二:基于交互多模型-扩展卡尔曼滤波生成总体目标状态估计和总体目标状态估计误差协方差pk|k,并通过经典的能量检测方法将回波信号中的频谱量测hk转换成干扰状态估计
17、步骤十三:基于总体目标状态估计总体目标状态估计误差协方差pk|k和干扰状态估计生成雷达置信状态即雷达置信状态bk;
18、步骤十四:基于雷达置信状态bk-1、雷达置信状态bk和雷达子频段占用动作生成奖励函数
19、步骤十五:基于奖励函数和时间步k-1的状态值函数v(bk,wk-1),构建时序差分误差
20、步骤十六:基于时序差分误差和策略函数得到策略函数参数
21、步骤十七:基于时序差分误差和状态值函数v(bk-1,wk-1),得到状态值函数参数wk;
22、步骤十八:基于策略函数参数和状态值函数参数wk,构建略函数和状态值函数v(bk,wk),并以策略函数和状态值函数v(bk,wk),重复上述步骤,直至收敛,得到最优策略函数,并利用最优策略函数得到最优crmrm策略。
23、进一步的,所述最优雷达载频表示为:
24、
25、所述最优雷达带宽表示为:
26、
27、其中,表示二进制指示函数,fc表示雷达中心频率,δb表示一个子频段的频段宽度,表示雷达子频段占用动作βk的第i个元素,n表示射频频段被等间隔划分的子频段数量。
28、进一步的,所述雷达辐射功率表示为:
29、
30、所述雷达辐射功率表示为:
31、
32、所述雷达辐射功率表示为:
33、
34、其中,p'fa表示截获接收机的预设虚警概率,erfc(·)表示互补误差函数,ti表示截获接收机的搜索时间,k0表示玻尔兹曼常数,t0表示雷达有效噪声温度,bi表示截获接收机带宽,fi表示截获接收机的噪声因子,gt表示雷达发射天线增益,gr表示雷达接收天线增益,gip表示雷达接收机处理增益,λt表示雷达波长。
35、进一步的,所述最优雷达驻留时间和最优辐射功率表示为:
36、
37、所述频谱约束函数表示为:
38、
39、其中,表示频段占用动作βk对应的带宽,bθ(λk,κk|wtype)表示在线性调频波形下,高斯脉冲宽度λk和调频速率κk决定的信号带宽。
40、进一步的,所述贝叶斯风险下界表示为:
41、
42、其中,和分别表示时间步k-1的目标状态转换矩阵和时间步k-1的噪声协方差矩阵,m表示目标跟踪模型的数量,表示时间步k-1的目标混合状态误差协方差,表示为:
43、
44、其中,表示时间步k-1的混合状态估计,表示时间步k-1的混合模型概率,γmi表示从模型m到模型i的模型转换概率,和分别表示时间步k-1的目标跟踪模型j对应的目标状态估计和时间步k-1的目标状态协方差矩阵,μk-1|k-1(j)表示时间步k-1的跟踪模型j的模型有效概率,γji表示从模型j到模型i的模型转换概率,hk|k-1表示时间步k-1的雷达量测函数h(·)关于目标状态预测的雅可比矩阵,表示二阶导数计算符,表示时间步k-1的预测时间步k的的目标状态,表示为:
45、
46、其中,表示量测误差协方差矩阵,c表示光速,sinrk(βk,pt,k,td,k)为k时刻的信干噪比,表示为:
47、
48、其中,pt,k为雷达辐射功率,td,k为雷达驻留时间,为雷达和目标之间的径向距离,为射频干扰状态ck的第i个元素,为雷达子频段占用动作βk的第i个元素,tr表示雷达脉冲重复间隔,grp表示雷达接收机处理增益,σ表示目标的雷达截面积,l表示广义损失因子,pi表示干扰方程解算出来的来自同频压制式噪声干扰源的干扰信号功率;
49、所述资源约束函数rθ(λk,κk wtype)表示为;
50、
51、其中,和分别表示雷达波形类型wtype对应的高斯脉冲宽度λk的最小值和最大值;和分别表示雷达波形类型wtype对应的调频斜率的最小值和最大值。
52、进一步的,所述约束优化问题表示为:
53、
54、其中,表示雷达高斯脉冲宽度的最优值,表示雷达调频斜率的最优值。
55、进一步的,所述步骤十中,求解步骤九中优化问题通过改进人工蜂群算法进行,求解步骤九中优化问题具体步骤为:
56、步骤1:初始化雇佣蜂、跟随蜂、观察蜂的数量sn,在变量取值范围内随机生成初始蜜源,随机初始化过程表示为:
57、
58、其中,xi,d表示第i个蜜源xi的第j个维度值,xi={xi,1,xi,2,...,xi,d},i∈{1,2,...,sn},sn表示种群规模,d∈{1,2,...,d},d表示求解问题的维度,即待优化变量的个数,和分别表示xi,d取值的上下界,
59、步骤2:计算蜜源的适应度并更新蜜源位置,表示为:
60、
61、其中,xi表示当前蜜源位置,xk,表示随机选择的邻域蜜源位置,其中k∈{1,2,...,sn},k≠i,为[-1,1]内的随机数,vi,j表示雇佣蜂在每次循环中产生的新蜜源vi={vi,1,vi,2,...,vi,d},ri,j表示蜜源位置选择优化函数,表示为:
62、
63、其中,a,b为常数,fi表示第i个雇佣蜂对应的目标函数值,fk表示第k个雇佣蜂对应的目标函数值,目标函数f即为条件风险贝叶斯下界适应度函数fiti表示为:
64、
65、随后,计算新蜜源vi={vi,1,vi,2,...,vi,d}的适应度,比较新蜜源vi={vi,1,vi,2,...,vi,d}与旧蜜源xi={xi,1,xi,2,...,xi,d}的适应度,比较新蜜源和旧蜜源的适应度,保留适应度较大的蜜源作为新蜜源;
66、步骤3:基于雇佣蜂选择蜜源的适应度,观察蜂计算第i个蜜源的选择概率其中,fiti为第i个雇佣蜂对应的适应度函数,i∈{1,2,...,sn},fitq为第q个雇佣蜂对应的适应度函数,q∈{1,2,...,sn},观察蜂基于上述蜜源选择概率,利用轮盘赌算法对sn个雇佣蜂选择的蜜源vi,d加以优选得到优选的vi,d,令优选的vi,d等于xi,d,基于xi,d带入公式更新蜜源位置产生新蜜源vi,d,基于计算适应值,并比较新的vi,d和xi,d的适应值函数,判断新的vi,d是否优于xi,d,若新的vi,d优于xi,d,则用新的vi,d替换xi,d,反之则保留xi,d,从而得到sn个更新后的解向量vi={vi,1,vi,2,...,vi,d,...,vi,d};
67、步骤4:如果循环2次后雇佣蜂阶段和观察蜂阶段的解向量均为更新,且此时α未达到最大循环次数limit,则侦察蜂利用公式随机产生一个新的蜜源xi,d来取代长时间未更新的蜜源vi,d;
68、步骤5:判断结果是否收敛或达到最大循环次数limit,若是,则迭代结束输出最优解,即为最优高斯脉冲宽度和最优调频斜率否则令α=α+1转入雇佣蜂阶段继续迭代循环。
69、进一步的,所述基于交互多模型-扩展卡尔曼滤波生成总体目标状态估计和总体目标状态估计误差协方差pk|k,具体包括以下步骤:
70、步骤a:基于新息协方差卡尔曼增益和模型概率并根据经典的卡尔曼滤波算法计算每一个跟踪模型i对应的目标状态估计和目标状态估计误差协方差表示为:
71、
72、其中,zk为雷达关于目标径向位置和径向速度的量测值,表示雷达量测函数h(·)关于雷达目标的雅可比矩阵,表示时间步k-1的雷达的目标状态转换矩阵;
73、步骤b:计算每一个跟踪模型i对应的模型似然概率和条件模型概率表示为:
74、
75、步骤c:通过融合每个跟踪模型的目标状态估计和目标状态估计误差协方差基于条件模型概率生成总体目标状态估计和总体目标状态估计误差协方差pk|k,表示为:
76、
77、其中,e{xk|zk}表示雷达目标状态xk在已知雷达量测zk时的数学期望,e{·}表示求数学期望的运算符;
78、步骤d:通过经典的能量检测方法将频谱量测hk转换成干扰状态估计最终,基于总体目标状态估计总体目标状态估计误差协方差pk|k和干扰状态估计生成雷达置信状态
79、进一步的,所述奖励函数表示为:
80、
81、其中,α1和α2表示用户定义的权重因子。
82、进一步的,所述步骤十七的具体步骤为:
83、基于奖励函数和状态值函数v(bk,wk-1),构建时序差分误差表示为:
84、
85、其中,γ表示折现因子;
86、基于时序差分误差和策略函数更新得到策略函数参数表示为:
87、
88、其中,表示雷达频段占用策略更新的学习率,表示求雷达频段占用策略关于参数的梯度;
89、基于时序差分误差和状态值函数v(bk-1,wk-1),更新得到状态值函数参数wk,表示为:
90、
91、其中,αw表示状态值函数更新的学习率,表示求状态值函数v(bk-1,wk-1)关于参数w的梯度。
92、本发明的有益效果是:
93、在满足低截获概率条件下,所提crmrm策略可以联合优化多维雷达射频资源参数(包括雷达载频、带宽、驻留时间、辐射功率、高斯脉冲宽度和调频斜率),提升了机动目标跟踪性能,即解决了现有技术中目标航迹丢失、目标状态估计性能降低的问题。同时减轻其他带内噪声压制干扰源带来的噪声压制干扰。
94、传统面向特定单一任务的单信号域资源优化策略难以应对日益复杂的雷达探测环境,通过借助多阶段任务之间的可复用信息和耦合关系,所提crmrm策略是一种面向联合多任务的多维射频资源一体化调度技术通过考虑多维信号域协同优化提升联动多任务处理能力。
95、为求解底层的实时的非线性、高维、非凸、多变量多约束优化问题,所提crmrm方法是一种多尺度先验知识驱动的多阶段迭代优化算法,将原始的crmrm策略拆解为两个子策略并依次求解,从而对离散变量(即雷达子频段占用动作)和连续变量(即驻留时间、辐射功率、脉冲宽度、调频斜率)的求解过程进行解构。首先,基于实时训练所得的离线先验知识,时序差分演讲者评论家(tdac)算法通过基于时序差分误差的策略更新和值函数更新的不断交互可以很好应对频段占用子策略优化求解时的滞后奖励和未来多步效应。随后,在求解波形优化策略时为避免直接采用优化算法陷入局部最优解,基于所提的两个定理,本技术使用解析法联合优化雷达平均辐射功率和驻留时间,降低后续优化时的变量维度和计算复杂度。随后,通过蜂群间的迭代和相互作用,改进人工蜂群(iabc)算法平衡全局搜索和局部寻优最终收敛到最优脉冲宽度和调频斜率,同时满足波形参数约束和由雷达子频段占用动作生成的实时频谱约束。
1.低截获概率下联合抗干扰和跟踪的多维雷达资源调度方法,其特征在于包括以下步骤:
2.根据权利要求1所述的低截获概率下联合抗干扰和跟踪的多维雷达资源调度方法,其特征在于所述最优雷达载频表示为:
3.根据权利要求2所述的低截获概率下联合抗干扰和跟踪的多维雷达资源调度方法,其特征在于所述雷达辐射功率表示为:
4.根据权利要求3所述的低截获概率下联合抗干扰和跟踪的多维雷达资源调度方法,其特征在于所述最优雷达驻留时间和最优辐射功率表示为:
5.根据权利要求4所述的低截获概率下联合抗干扰和跟踪的多维雷达资源调度方法,其特征在于所述贝叶斯风险下界表示为:
6.根据权利要求5所述的低截获概率下联合抗干扰和跟踪的多维雷达资源调度方法,其特征在于所述约束优化问题表示为:
7.根据权利要求6所述的低截获概率下联合抗干扰和跟踪的多维雷达资源调度方法,其特征在于所述步骤十中,求解步骤九中优化问题通过改进人工蜂群算法进行,求解步骤九中优化问题具体步骤为:
8.根据权利要求7所述的低截获概率下联合抗干扰和跟踪的多维雷达资源调度方法,其特征在于所述基于交互多模型-扩展卡尔曼滤波生成总体目标状态估计和总体目标状态估计误差协方差pk|k,具体包括以下步骤:
9.根据权利要求8所述的低截获概率下联合抗干扰和跟踪的多维雷达资源调度方法,其特征在于所述奖励函数表示为:
10.根据权利要求9所述的低截获概率下联合抗干扰和跟踪的多维雷达资源调度方法,其特征在于所述步骤十七的具体步骤为: