本发明涉及雷达,尤其涉及一种干扰策略预测方法、装置及存储介质。
背景技术:
1、近年来,随着干扰机的软硬件与智能化水平不断提高,雷达面临的电磁环境愈发复杂。如果雷达只采用固定的抗干扰策略,只能应对某些特定类型的干扰,将会严重降低雷达的抗干扰性能。
2、为了提高雷达在复杂干扰环境下的适应能力与学习能力,雷达系统中引入了频率捷变(fa)技术,采用了在宽频谱上进行动态跳频的方法,例如,稀疏分解技术通常只专注于有限的干扰器类型,在各种干扰环境中的适用性受到限制。此外,各种在线学习技术也被整合到跳频策略的设计中,将抗干扰工作视为序列决策过程,例如,无模型的强化学习(rl)方法、双重网络dqn(d3qn),近端策略优化(ppo),以及情境thompson采样(ts)的bandit算法等被应用来优化抗干扰策略。然而,在线学习方法中需要大量的对抗样本数据进行模型训练,模型参数的训练效率较低,且当收集的对抗样本数据量较少时,会导致模型过拟合,影响干扰策略预测的准确性。
技术实现思路
1、本发明提供一种干扰策略预测方法、装置及存储介质,旨在解决上述技术问题中存在的至少一个问题。
2、本发明提供一种干扰策略预测方法,包括:
3、收集雷达与干扰机之间的历史交互数据;
4、基于所述历史交互数据,对待训练网络进行预训练,得到策略预测网络;
5、基于所述雷达与所述干扰机之间的实时交互数据,对所述策略预测网络中的适配器模块进行在线微调训练,并输出预测得到的干扰策略;
6、其中,所述适配器模块是在预训练结束后的策略预测网络中进行关联配置;在在线微调训练过程中所述策略预测网络的参数保持不变。
7、根据本发明提供的一种干扰策略预测方法,所述策略预测网络包括第一线性层和若干个级联的transformer层;其中,任一所述transformer层的输出作为下一层transformer层的输入;最后一层transformer层与所述第一线性层连接;
8、所述基于所述历史交互数据,对待训练网络进行预训练,得到策略预测网络,包括:
9、将所述历史交互数据输入至第一层transformer层进行特征转化处理,并将每一层transformer层输出的特征信息输入至下一层transformer层,直至得到最后一层transformer层输出的特征信息;
10、将最后一层transformer层输出的特征信息输入至所述第一线性层中进行干扰机动作的预测,得到策略预测结果;
11、基于所述策略预测结果,确定第一损失值;
12、基于所述第一损失值,对所述待训练网络的参数进行优化更新,得到所述策略预测网络。
13、根据本发明提供的一种干扰策略预测方法,任一所述transformer层包括第一层归一化层、注意力层、第一连接层、第二层归一化层、多层感知机和第二连接层:
14、所述第一层归一化层与所述注意力层连接;
15、所述注意力层与所述第一连接层连接,其中,所述第一连接层用于对所述注意力层输出的特征以及输入至所述第一层归一化层的特征进行连接;
16、所述第二层归一化层分别与所述第一连接层以及所述多层感知机连接;
17、所述多层感知机与所述第二连接层连接,其中,所述第二连接层用于对所述多层感知机输出的特征以及输入至所述第一连接层输出的特征进行连接。
18、根据本发明提供的一种干扰策略预测方法,所述将所述历史交互数据输入至第一层transformer层进行特征转化处理,包括:
19、将所述历史交互数据输入至所述第一层归一化层进行归一化处理,得到第一归一化特征信息;
20、将所述第一归一化特征信息输入至所述注意力层进行注意力学习,得到注意力特征信息;
21、将所述历史交互数据和所述注意力特征信息输入至所述第一连接层进行特征拼接,得到第一拼接特征信息;
22、将所述第一拼接特征信息输入至所述第二第二层归一化层进行归一化处理,得到第二归一化特征信息;
23、将所述第二归一化特征信息输入至多层感知机进行特征转换处理,得到目标特征信息;
24、将所述目标特征信息和所述第一拼接特征信息输入至所述第二连接层进行特征拼接,得到第二拼接特征信息,并将所述第二拼接特征信息作为所述第一层transformer层输出的特征信息。
25、根据本发明提供的一种干扰策略预测方法,所述多层感知机包括第二线性层、第一激活层和第三线性层;
26、其中,所述第二线性层分别与所述第二层归一化层以及所述第一激活层连接;
27、所述第一激活层和所述第三线性层连接;
28、所述第三线性层与所述第二连接层连接,其中,输入至所述第二线性层的特征对应的特征维度与所述第三线性层输出的特征的特征维度相同。
29、根据本发明提供的一种干扰策略预测方法,每一所述transformer层中的多层感知机和所述适配器模块连接;
30、所述适配器模块包括编码器、第二激活层、解码器和第三连接层:
31、所述编码器与所述第二激活层连接;
32、所述第二激活层和所述解码器连接;
33、所述解码器和所述第三连接层连接。
34、根据本发明提供的一种干扰策略预测方法,所述基于所述雷达与所述干扰机之间的实时交互数据,对所述策略预测网络中的适配器模块进行在线微调训练,包括:
35、将所述实时交互数据输入至包括有适配器模块的策略预测网络,得到干扰策略;
36、基于所述干扰策略,对所述适配器模块的参数进行在线优化,其中,所述策略预测网络的参数保持不变。
37、根据本发明提供的一种干扰策略预测方法,所述输出预测得到干扰策略之后,还包括:
38、基于所述干扰策略,在雷达预设的动作空间中确定雷达最优策略。
39、本发明还提供一种干扰策略预测装置,包括:
40、收集模块,用于收集雷达与干扰机之间的历史交互数据;
41、预训练模块,用于基于所述历史交互数据,对待训练网络进行预训练,得到策略预测网络;
42、在线微调模块,用于基于所述雷达与所述干扰机之间的实时交互数据,对所述策略预测网络中的适配器模块进行在线微调训练,并输出预测得到的干扰策略;
43、其中,所述适配器模块是在预训练结束后的策略预测网络中进行关联配置;在在线微调训练过程中所述策略预测网络的参数保持不变。
44、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述干扰策略预测方法。
45、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述干扰策略预测方法。
46、本发明提供的干扰策略预测方法、装置及存储介质,包括:收集雷达与干扰机之间的历史交互数据;基于所述历史交互数据,对待训练网络进行预训练,得到策略预测网络;基于所述雷达与所述干扰机之间的实时交互数据,对所述策略预测网络中的适配器模块进行在线微调训练,并输出预测得到的干扰策略;其中,所述适配器模块是在预训练结束后的策略预测网络中进行关联配置;在在线微调训练过程中所述策略预测网络的参数保持不变。本发明通过收集已有的历史交互数据,对主框架的策略预测网络进行预训练,使得策略预测网络能够初步学习到各种干扰策略,进而在实际作战环境中,对网络进行在线微调训练,通过历史交互数据的预训练和实时交互数据的在线训练,增加训练样本的数据量,从而提高模型预测的准确性。且在线微调训练过程中策略预测网络的参数保持不变,仅迭代训练适配器模块的少量参数,提高模型训练的效率。
1.一种干扰策略预测方法,其特征在于,包括:
2.根据权利要求1所述的干扰策略预测方法,其特征在于,所述策略预测网络包括第一线性层和若干个级联的transformer层;其中,任一所述transformer层的输出作为下一层transformer层的输入;最后一层transformer层与所述第一线性层连接;
3.根据权利要求2所述的干扰策略预测方法,其特征在于,任一所述transformer层包括第一层归一化层、注意力层、第一连接层、第二层归一化层、多层感知机和第二连接层:
4.根据权利要求3所述的干扰策略预测方法,其特征在于,所述将所述历史交互数据输入至第一层transformer层进行特征转化处理,包括:
5.根据权利要求3所述的干扰策略预测方法,其特征在于,所述多层感知机包括第二线性层、第一激活层和第三线性层;
6.根据权利要求3所述的干扰策略预测方法,其特征在于,每一所述transformer层中的多层感知机和所述适配器模块连接;
7.根据权利要求6所述的干扰策略预测方法,其特征在于,所述基于所述雷达与所述干扰机之间的实时交互数据,对所述策略预测网络中的适配器模块进行在线微调训练,包括:
8.根据权利要求1所述的干扰策略预测方法,其特征在于,所述输出预测得到干扰策略之后,还包括:
9.一种干扰策略预测装置,其特征在于,包括:
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述干扰策略预测方法。