基于VAE-WGAN的物联网恶意流量数据增强方法

专利2025-07-01  57


本发明属于网络流量数据增强领域,涉及基于vae-wgan的物联网恶意流量数据增强方法。


背景技术:

1、物联网(iot)通过将各种传感器、执行器和计算设备连接至互联网,扩展了人类感知和互动世界的方式。作为中国信息技术自主创新的重要领域,物联网在芯片设计、传感技术、短距离通信和大数据处理等关键技术方面取得了显著突破,同时在综合集成和应用上也获得了长足进步。然而,物联网的快速发展也带来了新的安全挑战。由于设备制造商和终端用户普遍缺乏安全意识,大多数智能设备成为攻击的目标。即使漏洞被发现,由于设备制造商未能优化更新策略,这些漏洞往往无法得到及时修复。自2016年以来,物联网恶意软件不断演变,变得越来越复杂。

2、为了保护物联网网络,当前研究人员正在开发专为物联网设计的网络入侵检测系统(nids)。评估nids对入侵的检测能力需要使用正常和恶意的网络流量作为训练数据。恶意网络流量用于评估攻击检测率,而正常网络流量则用于评估误报率。然而,目前公开可用的物联网恶意流量数据集非常有限。为了解决这一问题,一种方法是物理部署真实的物联网设备以生成真实的网络流量数据。然而,这需要包含数千台智能设备,成本高昂。此外,出于隐私保护的考虑,共享真实的网络流量数据可能也不可行。另一种解决方法是合成物联网网络流量以增强数据,利用真实和合成的网络流量训练机器学习模型,从而加快模型的收敛速度并提升其性能。

3、随着人工智能的发展,研究人员开始将深度学习与流量生成相结合,以实现数据增强。生成对抗网络(gan)作为一种深度生成神经网络,在学习复杂的数据分布(甚至到数据包级别)并在应用程序域内重现相同数据分布方面展现了巨大潜力。由于其多功能性和动态适用性,gan被广泛应用于数据生成、图像编辑等领域。随着应用场景的不断增加和发展,gan在网络流量生成和可扩展的混合架构方面显示出巨大的潜力。该架构能够在提供网络训练的同时,整合其他有监督和无监督的模型组件平台。

4、上述针对网络流量生成的研究虽然取得了一定成果,但仍存在各种不足。因此设计一种基于vae-wgan的物联网恶意流量数据增强方法对提升物联网入侵检测系统的性能具有重要意义。


技术实现思路

1、鉴于以上问题,本发明的目的在于提供一种基于vae-wgan物联网恶意流量数据增强方法。本发明重点考虑了真实的物联网恶意流量数据集稀少的情况,主要分为三个部分:数据模态转换部分、图像增强部分和数据生成部分。首先,数据模态转换主要利用最新的图像数据生成概念——gadf(格拉米安角求差场),将1d时间序列物联网恶意网络流量数据转换为2d图像。此外,图像增强阶段通过应用幂律表达式进行伽玛校正,对初始gasf图像进行处理,以突出重要的像素值分布,从而增强图像的质量和信息含量。最后,在数据生成阶段利用了mffeca模型对gadf图像进行再生,该模型是是一个结构高度复杂,各个组件相互依赖的生成系统,融合了vae和wgan的联合框架,并引入了软池化多尺度特征融合模块以及融合坐标注意力机制的残差模块。这些创新组件的综合应用不仅优化了模型性能,还协同作用以生成高质量的数据样本达到数据增强的作用,并赋予模型一定程度的泛化能力。

2、传统的应用在yolov5的多尺度特征融合模块spp,使用最大池化操作,池化的同时会丢失图像中的大多数信息,降低了整个网络的性能。为了尽可能减少池化操作过程中的信息的损失,本发明提出一种软池化多尺度特征融合模块,引入软池化的思想,同时利用级联3个5×5大小的池化层代替原有的不同池化大小的并行结构进行特征提取,最后将得到的特征图按通道维度进行堆叠(concat)达到多尺度特征融合的效果。

3、物联网流量类别之间的负载信息与字段位置强相关,并且流量类别的负载信息在不同情况下具有不同的特征。将网络流量转换为gadf图像数据后,其流量信息在水平和垂直方向有着不同的分布。因此本发明提出一种融合坐标注意力机制的残差模块,有效提取特征图水平方向和垂直方向的位置信息,使模型能够精确捕获位置信息以提高流量特征提取能力。

4、因此本发明提出一种结合mffeca生成模型,gadf图像转换以及gadf图像增强算法的物联网流量数据增强方法,该方法通过生成高质量的物联网恶意流量,最终有效地对物联网流量数据集进行增强,解决物联网领域攻击数据不足的问题。最后使用cnn分类器在扩充后的数据集上进行分类,用来评价物联网恶意合成流量生成的效果。

5、为达到上述目的,本发明提供如下技术方案:

6、一种基于vae-wgan的物联网恶意流量数据增强方法,该方法包括以下步骤:

7、步骤1)将一维(1d)时间序列轨迹转换为二维(2d)gadf图像;

8、步骤2)采用mffeca生成模型对gadf图像进行生成;

9、步骤3)使用二分类器对生成的数据集进行分类实验。

10、进一步,所述步骤1)具体为包括以下步骤:

11、步骤11)对数据进行预处理,从所有的恶意物联网流量pcap(packet capture)文件中提取选定的特征用来创建一维信号。由于物联网恶意流量原始流量长度是可变的,需要将流量长度保持在固定大小,即300个数据包。如果长度小于300个样本,则使用0填充;否则,截断前300个数据包。按照这样的机制用0填充信号或截断300个样本后,将所有数据集的这些1d信号标准化为[0,1],这是从2d图像重建1d信号所需的范围。

12、步骤12)gadf转换,按照gadf机制将预处理的1d信号转换为2d gadf图像,同时保留相关的网络流量特征。使用x=x1,x2,x3,…,xn(n=样本数)表示归一化一维流量。首先,将x转换为极坐标。转换公式为:

13、θi=arccos(xi),xi∈x

14、

15、其中,ti是第i个样本的时间戳,c是正则化半径的常数因子。然后,使用极坐标创建格拉米安矩阵(元素为极坐标系中时间序列角度总和的余弦的矩阵),格拉米安矩阵是gaf(极坐标中时间序列的表示系统)的基础。

16、创建gadf场消除对格拉米安矩阵中半径的依赖,在每个样本点之间采用三角和计算得出gadf图像,计算公式为:

17、

18、其中,i表示每个元素为1的行向量[1,1,…,1],x′是x的转置,i,j=1,2,3...n。

19、步骤13)gadf图像后处理,为了增强图像的对比度和突出重要特征,减少噪声影响,使用幂律表达式对初始gadf图像应用伽玛校正。在进行图像增强的同时突出重要的像素值分布。然后将gadf图像中的值重新缩放到[0,1],避免获得负值的幂。校正公式为:

20、gadf=a*gadfγ

21、其中,a是常数,γ是用于控制亮度的功率值。

22、进一步,所述步骤2)具体为包括以下步骤:

23、步骤21)基于vae-wgan的多尺度特征融合和改进的坐标注意力机制生成模型mffeca(vae-wgan-based generative model with multi-scale feature fusion andenhanced coordinate attention mechanism)主要由改进的beta-vae与wgan组合。传统的自动编码器由编码器和解码器组成。编码器压缩输入以获得其潜在表示,解码器的作用是从其潜在表示重建原始输入。而beta-vae是在传统vae的基础上,对损失函数进行了改进,在损失函数的第二项kl散度项加上一个超参数β。因此,训练过程的目的是最小化输入和输出之间的重建误差和kl散度,自动编码器的损失函数计算公式为:

24、vaeloss=mse+β*kld

25、=∑||fake_x-x||2-0.5*β*∑(1+log(varx)-meanx2-varx)

26、其中,mse代表重构误差,即重构图像fake_x和原图像x的均方误差;kld散度用于度量x的分布与标准正态分布之间的差异。

27、wgan判别网络(d网络)的损失函数计算公式为:

28、dloss=wdistance+gradient_penalty

29、=fake_x.mean()-x.mean()+λ·((||gred||2-1)2).mean()

30、判别器损失函数由两部分组成,其中wdistance代表假数据和真实数据在判别器中的平均输出之差;gradient_penalty代表对插值样本的梯度大小进行约束的梯度惩罚项;λ为超参数。

31、mffeca模型训练的最主要目的是完成对d网络和vae解码网络的更新。其过程为:首先评估真实图像,并以此来更新判别器网络;通过采样一组随机潜在变量,利用vae的解码器学习潜在变量最终生成虚假图像,这些虚假图像被用于计算真实图像和虚假图像之间的损失;最后更新vae的解码器。

32、步骤22)使用多尺度特征融合模块学习不同语义的特征信息,该模块首先引入软池化的思想。通过级联3个5×5大小的池化层进行特征提取,最后将得到的特征图按通道维度进行堆叠达到多尺度特征融合的效果。作为一种新型的池化方法,软池化可以在保持原有池化功能的基础上尽可能的避免下采样带来的信息损失。软池化通过自然指数e来对区域内具体的特征值计算权重参数,即softmax函数形式,此处基于自然指数e可以确保较大的激活值将对输出产生更大的影响。权重计算公式为:

33、

34、上式中,wi表示第i个区域的权重;pi,pj表示的当前区域的激活值大小;表示池化区域。

35、软池化通过wi来衡量池化区域激活值的重要性,同时由于软池化可微,而普通池化不具有这一特点,所以特征值在反向传播时都至少会有预设的最小梯度。最终的池化结果是由对应区域的权重信息加权得到,其计算公式为:

36、

37、其中,为最后软池化的输出结果。

38、由于软池化中权重系数wi被用作与相应激活值相结合的非线性变换,在特征图中激活值较高区域会更占优势。同时由于池化区域的所有激活值都对最终的输出有贡献,而较高的激活值又占主导地位。因此软池化可以克服最大池化和平均池化的不足,同时又可利用两者的有利属性,进而能够缓解一般池化方式带来的信息损失问题。

39、步骤23)使用自适应坐标注意力机制学习流量图水平方向和垂直方向的位置信息。传统的通道注意机制通过为不同重要性的通道分配权重来提高分类精度。但gadf流量图像的通道特征并不突出,相邻通道之间不存在强相关性。因此,通道注意力机制不适合流量图像分类。本发明参考坐标注意机制嵌入空间尺度,以获得水平方向x和垂直方向y的空间特征信息,使得我们的模型能够精确捕获位置信息以提高流量特征提取能力。为了自适应的选择不同方向的特征,我们引入了加权因子对坐标注意力机制进行改进,提出自适应坐标注意力机制。首先,我们分解全局平均池化,生成x和y上的一维感知注意力特征:

40、

41、

42、其中c是通道数,h和w分别是输入特征的高度和宽度,z是输出,xc是第c个通道的二维特征集,i和j表示上的坐标输出特征,w和h为第c通道的卷积核权重。

43、其次,本发明将x和y的一维特征连接起来,并将它们发送给变换函数f1,生成包含水平和垂直空间信息的中间特征f:

44、

45、其中,[,]是拼接操作,f∈rc/r×(h+w),是非线性激活函数,r是控制模块大小的超参数。

46、第三,本发明将f分解成两个单独的张量fh∈rc/r×h和fw∈rc/r×w,然后使用卷积变换函数fh和fw将fh和fw变换为具有相同输入特征通道数张量gh和gw:

47、gh=σ(fh(fh))gh=δ(fh(fh))

48、gw=σ(fw(fw))gw=δ(fw(fw))

49、其中,δ为sigmoid函数。

50、最后,我们将输入特征乘以水平权重和垂直权重,得到坐标注意力输出的特征:

51、

52、步骤24)使用融合注意力机制的残差模块进行训练。由于本发明模型结构复杂,整个编码器,解码器,判别器部分的网络结构都采用残差模块进行连接,使用残差模块来减轻深度神经网络中的梯度消失问题。此外,注意力机制能进行有效的信息筛选和加权处理,动态调整各部分信息的权重,着眼于输入数据关键部分,强化模型对重要特征的捕获,提高模型的灵活性和适应性。将上述提到的自适应坐标注意力机制嵌入编码器的残差模块中,以提高模型的特征提取能力。

53、进一步,所述步骤3)具体为包括以下步骤:

54、步骤31)使用二元分类作为异常检测任务,从原始gadf图像集和合成gadf图像集中随机挑选类别。将它们标记为正常和恶意,每个类别分别采用不定量真实样本进行训练,同时模仿实际的不平衡数据集。仅对原始数据进行欠采样,然后添加更多合成数据以消除正常类别和恶意类别之间的不平衡。用平衡后的数据集上的分类结果,检验上述生成数据方法的有效性。

55、有益效果:

56、1.使用gadf(格拉米安角求差场)方法将1d时间序列网络流量数据转换为2d图像,一维信号中样本点之间的时间相关性能够轻松编码到一个图像中,从而保持信号的连续性和完整性。

57、2.采用mffeca生成模型对gadf图像进行生成,将改进的自动编码器与wasserstein gan(wgan)相结合来生成恶意物联网流量数据。该模型能够生成与原始流量相似的合成流量数据,达到对物联网恶意流量数据的增强效果。

58、3.扩充了用于训练入侵检测模型的物联网恶意网络流量数据集,物联网恶意网流量识别任务的准确率能够有效提高,突出了本发明的实用性。


技术特征:

1.基于vae-wgan的物联网恶意流量数据增强方法,其特征在于:该方法包括以下步骤:

2.根据权利要求1所述的基于vae-wgan的物联网恶意流量数据增强方法,其特征在于:所述步骤s1中,gadf转换包括以下步骤:

3.根据权利要求1所述的基于vae-wgan的物联网恶意流量数据增强方法,其特征在于:所述步骤s2中,对gasf图像进行生成包括以下步骤:

4.根据权利要求1所述的基于vae-wgan的物联网恶意流量数据增强方法,其特征在于:所述步骤s3中,对生成的数据集进行分类实验包括以下步骤:


技术总结
本发明属于网络流量数据增强领域,涉及基于生成对抗网络的物联网恶意流量数据增强方法。该方法包括以下步骤:S1)将一维(1D)时间序列轨迹转换为二维(2D)GADF图像;S2)采用MFFECA生成模型对GADF图像进行生成;S3)使用二分类器对生成的数据集进行分类实验.本发明提出一种结合MFFECA生成模型,GADF图像转换以及GADF图像增强算法的物联网流量数据增强方法,该方法通过生成高质量的物联网恶意流量,最终有效地对物联网流量数据集进行增强,解决物联网领域攻击数据不足的问题。最后使用CNN分类器在扩充后的数据集上进行分类,用来评价物联网恶意合成流量生成的效果。

技术研发人员:熊炫睿,何梦婷,胡丹,李天宇,樊晓林,黄海洪,张玉树
受保护的技术使用者:重庆邮电大学
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-15518.html

最新回复(0)