基于混合特征选择的集成决策树入侵检测系统及检测方法与流程

专利2024-11-09  45



1.本发明涉及入侵检测的技术领域,更具体地,涉及一种基于混合特征选择的集成决策树入侵检测系统及检测方法。


背景技术:

2.智能电网旨在通过打造智能检测电网信息平台,利用最先进的数据挖掘技术,实现人工与数据分析、电网监控及故障报警之间的互动,逐步达到智能化。近年来,智能电网技术正引领新一轮的电网变革,开始贯穿于整个互联网平台,而电网的数据安全变得尤其重要。因此,有诸多的学者提出各种数据保护策略。
3.尽管研究人员在此研究领域已经取得了一些成果,但由于传统的数据处理方法并不能很好地解决数据的不确定性和冗余性,而且以往的特征选择方法效率低且处理后的数据辨识度低,对后续入侵检测模型建立与预测上有很大的影响,所以部分研究人员尝试引入基于k-means聚类方法分类样本数据和filter-wrapper特征选择方法进一步提升入侵检测模型的预测性能,但现有异常数据预处理提取和入侵检测模型包含如下几方面缺点:
4.(1)数据的不确定性
5.入侵检测是一种通过收集和分析被保护系统的数据信息,从而发现入侵的技术,然而入侵检测系统所收集的数据信息往往存在严重的不确定性,入侵检测中的异常样本和正常样本往往无法事先识别,传统的入侵检测算法往往需要事先对需要检测的样本进行建模训练,如现有技术中公开的一种入侵检测方法,即是对获取的第一特征数据集进行处理后,再利用第二特征数据集对入侵检测模型记性训练,然后利用训练好的入侵检测模型进行入侵检测。
6.(2)数据的海量性
7.入侵检测系统面临的一个重要问题是需要检测的数据十分庞大,因此许多检测都来不及处理。因此,检测速度已成为入侵检测系统实时性要求的一个重要指标,如何在保证检测正确性的前提下开发出检测速度快的轻量级入侵检测系统,成为现阶段的研究热点。
8.(3)数据的失衡性
9.入侵检测中存在的高度的样本失衡性,即异常样本远远少于正常样本的数量,而分类算法在处理这些样本时往往会倾向于正常样本,导致在异常样本上的鉴别效果变差。因此,如何解决样本的失衡性也是入侵检测的一大研究热点。
10.(4)决策树的不稳定性
11.决策树因其预测精度高、运转速度快,尤其是其构建的分类规则简单易懂而被广泛用于入侵检测系统中。然而,有研究表明决策树是一种不稳定的算法,即预测数据的微小波动就会导致预测效果的显著变差。而入侵数据又是极其不稳定的数据样本,因此决策树在处理此类问题时面临巨大的挑战。


技术实现要素:

12.为解决现有入侵检测方法检测速度慢、不稳定而且预测效果欠佳的问题,本发明提出一种基于混合特征选择的集成决策树入侵检测系统及检测方法,确保了检测数据的完整性,入侵检测方法方便实用,稳定性强,对入侵行为的预测更为准确。
13.为了达到上述技术效果,本发明的技术方案如下:
14.一种基于混合特征选择的集成决策树入侵检测系统,所述入侵检测系统包括电网信息数据库、数据聚类模块以及数据分析模块,所述电网信息数据库存储入侵数据包,所述数据聚类模块调用电网信息数据库的入侵数据并进行类别标注预处理,数据聚类模块将类别标注预处理后的数据送至数据分析模块进行入侵检测分析。
15.优选地,所述数据分析模块包括数据采样模块、混合特征选择模块和集成决策树分析预测模块,数据采样模块、混合特征选择模块和集成决策树分析预测模块之间通过数据总线进行通信连接,所述数据采样模块用于对数据聚类模块类别标注预处理后的数据进行平衡处理,所述混合特征选择模块用于对数据采样模块平衡处理后的数据进行混合特征选择,删除数据的冗余特征;所述集成决策树分析预测模块用于对删除冗余特征的数据进行入侵预测分析,并将预测分析的结果传输至智能电网处理中心。
16.在本技术方案中,对原始数据进行聚类标注,对于标注后的数据,通过基于混合特征选择的集成决策树进行数据分析,将分析后的结果反馈给入侵检测系统,以便于系统可以准确的判断是否有入侵行为,实现智能化的精确检测。
17.优选地,数据聚类模块利用k-means聚类算法对入侵数据进行聚类分析,生成一个聚类类标,根据聚类类标对入侵数据中的异常数据和正常数据进行划分,得到类别标注。
18.优选地,所述数据采样模块利用少数类样本合成数据平衡法对类别标注预处理后的入侵数据进行增强和压缩处理。
19.优选地,混合特征选模块利用信息增益比法对数据采样模块平滑处理后的数据进行混合特征选择,删除数据的冗余特征;所述集成决策树分析预测模块采用集成学习算法对删除冗余特征的数据进行入侵预测分析。
20.本技术还提出一种基于混合特征选择的集成决策树入侵检测方法,所述方法包括以下步骤:
21.s1.采用k-means聚类算法对入侵数据进行聚类分析,得到类别标注;
22.s2.通过少数类样本合成数据平衡法对s1类别标注的数据进行平衡处理,从而降低数据的不平衡性;
23.s3.对经过少数类样本合成数据平衡法处理后的数据进行混合特征选择,删除数据中的冗余特征;
24.s4.对删除了冗余特征的数据进行集成决策树入侵分析预测,并将分析预测结果反馈给智能电网处理中心。
25.优选地,设入侵数据集表示为s={s1,s2,

,sn},从入侵数据集中选择k个对象,每个对象代表一个聚类的均值或中心,记第i个聚类中的对象个数为m,1≤i≤k,并记第i个聚类中对象组成的集和为i,令i=1,设c为迭代次数,c=1;
26.步骤s1所述采用k-means聚类算法对入侵数据进行聚类分析,得到类别标注的具体过程为:
27.s11.计算入侵数据集中第i个聚类的中心为z
ic
,计算表达式为:
[0028][0029]
p表示某个对象,若i=k,执行步骤s12,否则,令i=i+1,重复执行步骤s11,直至i=k;
[0030]
s12.计算入侵数据集中检测数据的第一准则函数的值,表达式为:
[0031][0032]
s13.若将对象p分配到第i个类别中;如果i《k,令i的值加1;令为第i个聚类中的对象个数,且为第i个聚类中对象组成的集合,执行步骤s14;
[0033]
步骤14.计算入侵数据集中检测数据的第二准则函数的值:
[0034][0035]
执行步骤s15;
[0036]
步骤15.如果停止计算,ζ表示精度;否则,令i=1,将c的值增加1,返回步骤11,直至入侵数据集中的所有检测数据均被分配一个类别标注,根据所分配的类标对异常数据和正常数据进行划分。
[0037]
在此,通过k-means聚类算法对来源未知的数据进行分类标注,增强了数据的确定性。
[0038]
优选地,通过少数类样本合成数据平衡法对s1类别标注的数据进行平衡处理的过程为:
[0039]
s21.令计算次数cnt=0,合成数据样本总数计数值nid为0,以入侵数据样本s[i][]作为少数类样本数据的样本中心,在少数类中寻找数据样本s[i][]的k个最近邻样本,将其索引存入k[][]中;
[0040]
s22.将nid的值加1,随机生成一个1到k之间的整数m,遍历数据的每一维特征j,计算数据样本s[i][]与其第m个最近邻样本的距离,确定偏离程度;
[0041]
s23.随机生成一个0到1之间的实数gap,以实数gap作为合成权重随机数,以入侵数据样本s[i][]作为基础样本,使用实数gap乘以距离,最终把计算结果加入到先前那个样本,得到新合成数据及其第j维特征的值;
[0042]
s24.令cnt的值加1,若cnt<n,n表示迭代设置上限,返回步骤s22,否则,结束对s[i][]的操作。
[0043]
在此,利用少数类样本合成数据平衡法对数据的少数类样本进行合成,计算少数类样本以及它们的某个最近邻的差值,然后再使用0~1之间的一个随机数乘以这个差值,最终把这个值加入到先前那个样本上,提升了对异常样本的检测准确性,少数类样本合成技术主要使用一种线性插值的方式增加异常样本的数目,可以避免数据的不平衡性,从而提高对异常样本的预测能力,提升入侵检测效果。
[0044]
优选地,在步骤s3中,设特征规模为f,随机生成f个个体的初始集合f=(f1,f2,

,fn
)
t
,给定一个数据选定范围,采用线性插值函数生成特征中个体wi的一个实数向量w1,w2,

,将ws作为遗传算法的一个基因;
[0045]
对经过少数类样本合成数据平衡法处理后的数据进行混合特征选择,删除数据中的冗余特征的过程为:
[0046]
s31:采用信息增益比方法对特征集合进行特征排序,生成排序特征集合f={f1》f2》

》fn};对每个特征分别统计与该特征相似度大于某个阈值的其它特征的个数,将该特征及与其相似度大于指定阈值的其它特征归为一组;
[0047]
s32:确实特征的评价函数;将s31得到的特征集合依次分组,引入c4.5决策树,利用分组后的特征集合对c4.5决策树进行训练,以c4.5决策树的分类性能作为特征集合f中个体fi的适应度评价函数;
[0048]
s32:采用轮盘赌法选择算子,即基于适应度比例的选择策略对每一代种群中的染色体进行选择;选择概率为:
[0049][0050]
s33:由于个体采用实数编码,交叉操作方法采用实数交叉,第k个基因fk和第l个基因fl在j位的交叉操作分别为
[0051]fkj
=f
kj
(1-b)+f
lj
b f
lj
=f
lj
(1-b)+f
kjb[0052]
其中,b为[0,1]间的随机数;
[0053]
s34.变异操作;选取第i个个体的第j个基因进行变异操作,过程满足公式:
[0054][0055]
其中,f
max
和f
min
分别为基因f
ij
取值的上下界,r为[0,1]间的随机数,g为当前迭代次数,gmax为最大进化代数;
[0056]
s35:更新个体适应度评价函数的值,比较评价函数是否达到最优值;若是,返回执行s31,寻找最优特征子集;否则,则终止寻优。
[0057]
在此,混合特征选择方法是过滤式和封装式结合使用,选择最优的特征子集,首先使用过滤式特征选择方法对特征子集进行排序;然后使用封装式方法进行递增策略的筛选方法,利用基于信息增益的过滤式特征选择方法对特征进行分组排序,然后再使用基于遗传算法的封装式特征选择方法对特征进行递增式筛选,删除了数据中的冗余的特征以及提升了后续学习算法的效率,其关键在于计算速度快、分类规则简单易懂,尤其是经过集成后的决策树具有更好的稳定性。
[0058]
优选地,对删除了冗余特征的数据进行集成决策树入侵分析预测的过程为:
[0059]
s41.设入侵数据集表示为s={s1,s2,

,sn},从s中进行n次有放回随机采样,获取n个训练集s=(s1,s2,

,sn);在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中。
[0060]
s42.设数据集si的类别属性向量为(a1,a2,

,am),假设类别属性am具有k个不同取值,则根据am的不同取值,将数据集si划分为(s1,s2,

,sk),共k个子集,得入侵数据集s对分类的平均信息量:
[0061][0062]
其中,p(c
pq
)|c
pq
|/|s|;
[0063]
s43.利用ai对数据集si进行划分,信息增益量g(si,ai)等于使用ai对s进行划分前后,不确定性下降的程度,表达式为:
[0064]
g(si,ai)=h(si)-h(s/ai)
[0065]
s44.基于属性ai对s进行划分的信息增益率,得到信息增益量与分割信息量之比,表达式为:
[0066][0067]
其中,分割信息量
[0068]
s44:重复s41~s43步骤n次,构建n个c4.5决策树;
[0069]
s45:通过投票的方式输出分析预测结果,满足:
[0070][0071]
在此,步骤s4是将步骤s3处理后的数据集应用于集成决策树分类器,其中决策树是一种基于信息增益比的的分类算法,其关键在于计算速度快、分类规则简单易懂,尤其是经过集成后的决策树具有更好的稳定性采用c4.5决策树算法对数据进行初步建模,然后再使用bagging方法对建模后的基分类器进行组合预测,通过对决策树进行集成学习,有效地避免了决策树算法的不稳定性,提升了入侵检测的准确性。
[0072]
与现有技术相比,本发明技术方案的有益效果是:
[0073]
本发明提出一种基于混合特征选择的集成决策树入侵检测系统及检测方法,其中,入侵检测系统包括电网信息数据库、数据聚类模块以及数据分析模块,电网信息数据库存储入侵数据包,数据聚类模块调用电网信息数据库的入侵数据并进行类别标注预处理,增强了数据的确定性,数据聚类模块将类别标注预处理后的数据送至数据分析模块进行入侵检测分析,通过少数类样本合成技术进行平滑处理,从而降低数据的不平衡性,使后期的入侵检测更为准确,通过混合式特征选择方法对数据进行特征筛选,删除了数据中的冗余的特征以及提升了后续学习算法的效率,最后通过对决策树进行集成学习,有效地避免了决策树算法的不稳定性,提升了入侵检测的准确性。整体上,经过对入侵数据进行类别标注、平滑处理、特征筛选和准确分析预测,达到入侵数据的完整性,使得对入侵数据的判断更为准确。
附图说明
[0074]
图1表示本发明实施例1中提出的基于混合特征选择的集成决策树入侵检测系统的整体示意图;
[0075]
图2表示本发明实施例2中提出的基于混合特征选择的集成决策树入侵检测的流程示意图;
[0076]
图3表示本发明实施例3中提出的利用少数类样本合成数据平衡法时数据重抽样
的specificity accuracy指标结果图;
[0077]
图4表示本发明实施例3中提出的利用少数类样本合成数据平衡法时数据重抽样的sensitivity accuracy指标结果图;
[0078]
图5表示本发明实施例3中提出利用少数类样本合成数据平衡法时数据重抽样的mcc指标结果图。
具体实施方式
[0079]
附图仅用于示例性说明,不能理解为对本专利的限制;
[0080]
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
[0081]
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
[0082]
下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0083]
附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;
[0084]
实施例1
[0085]
如图1所示,本实施例提出一种基于混合特征选择的集成决策树入侵检测系统,参见图1,该入侵检测系统包括电网信息数据库1、数据聚类模块2以及数据分析模块3,电网信息数据库1存储入侵数据包,数据聚类模块2调用电网信息数据库1的入侵数据并进行类别标注预处理,数据聚类模块2将类别标注预处理后的数据送至数据分析模块3进行入侵检测分析。
[0086]
数据分析模块3包括数据采样模块31、混合特征选择模块32和集成决策树分析预测模块33,数据采样模块31、混合特征选择模块32和集成决策树分析预测模块33之间通过数据总线进行通信连接,数据采样模块31用于对数据聚类模块31类别标注预处理后的数据进行平衡处理,混合特征选择模块32用于对数据采样模块31平滑处理后的数据进行混合特征选择,删除数据的冗余特征,所述混合特征选择模块利用基于信息增益的过滤式特征选择方法对特征进行分组排序,然后再使用基于遗传算法的封装式特征选择方法对特征进行递增式筛选,集成决策树分析预测模块33用于对删除冗余特征的数据进行入侵预测分析,并将预测分析的结果传输至智能电网处理中心。
[0087]
整体上,该入侵检测系统对原始数据进行聚类标注,对于标注后的数据,通过基于混合特征选择的集成决策树进行数据分析,将分析后的结果反馈给入侵检测系统,以便于系统可以准确的判断是否有入侵行为,实现智能化的精确检测。
[0088]
在本实施例中,数据聚类模块2利用k-means聚类算法对入侵数据进行聚类分析,生成一个聚类类标,根据聚类类标对入侵数据中的异常数据和正常数据进行划分,得到类别标注。
[0089]
数据采样模块31利用少数类样本合成数据平衡法对类别标注预处理后的入侵数据进行增强和压缩处理。混合特征选模块32利用信息增益比法对数据采样模块平滑处理后的数据进行混合特征选择,删除数据的冗余特征;集成决策树分析预测模块33采用集成学习算法对删除冗余特征的数据进行入侵预测分析。
[0090]
实施例2
[0091]
如图2所示,本实施例提出一种基于混合特征选择的集成决策树入侵检测方法,参
见图2所述方法包括以下步骤:
[0092]
s1.采用k-means聚类算法对入侵数据进行聚类分析,得到类别标注;
[0093]
s2.通过少数类样本合成数据平衡法对s1类别标注的数据进行平衡处理,从而降低数据的不平衡性;
[0094]
s3.对经过少数类样本合成数据平衡法处理后的数据进行混合特征选择,删除数据中的冗余特征;
[0095]
s4.对删除了冗余特征的数据进行集成决策树入侵分析预测,并将分析预测结果反馈给智能电网处理中心。
[0096]
在本实施例中,设入侵数据集表示为s={s1,s2,

,sn},从入侵数据集中选择k个对象,每个对象代表一个聚类的均值或中心,记第i个聚类中的对象个数为m,1≤i≤k,并记第i个聚类中对象组成的集和为i,令i=1,设c为迭代次数,令c=1;
[0097]
步骤s1所述采用k-means聚类算法对入侵数据进行聚类分析,得到类别标注的具体过程为:
[0098]
s11.计算入侵数据集中第i个聚类的中心为计算表达式为:
[0099][0100]
p表示某个对象,若i=k,执行步骤s12,否则,令i=i+1,重复执行步骤s11,直至i=k;
[0101]
s12.计算入侵数据集中检测数据的第一准则函数的值,表达式为:
[0102][0103]
s13.若将对象p分配到第i个类别中;如果i《k,令i的值加1;令为第i个聚类中的对象个数,且为第i个聚类中对象组成的集合,执行步骤s14;
[0104]
步骤14.计算入侵数据集中检测数据的第二准则函数的值:
[0105][0106]
执行步骤s15;
[0107]
步骤15.如果停止计算,ζ表示精度;否则,令i=1,将c的值增加1,返回步骤11,直至入侵数据集中的所有检测数据均被分配一个类别标注,根据所分配的类标对异常数据和正常数据进行划分。通过k-means聚类算法对来源未知的数据进行分类标注,增强了数据的确定性。
[0108]
在步骤s2中,利用少数类样本合成技术目的在于提升系统对异常样本的检测准确性,少数类样本合成技术主要使用一种线性插值的方式增加异常样本的数目,从而提升系统对异常样本的预测能力。
[0109]
在本实施例中,通过少数类样本合成数据平衡法对s1类别标注的数据进行平衡处理的过程为:
[0110]
s21.令计算次数cnt=0,合成数据样本总数计数值nid为0,以入侵数据样本s[i]
[]作为少数类样本数据的样本中心,在少数类中寻找数据样本s[i][]的k个最近邻样本,将其索引存入k[][]中;
[0111]
s22.将nid的值加1,随机生成一个1到k之间的整数m,遍历数据的每一维特征j,计算数据样本s[i][]与其第m个最近邻样本的距离,确定偏离程度;
[0112]
s23.随机生成一个0到1之间的实数gap,以实数gap作为合成权重随机数,以入侵数据样本s[i][]作为基础样本,使用实数gap乘以距离,最终把计算结果加入到先前那个样本,得到新合成数据及其第j维特征的值;
[0113]
s24.令cnt的值加1,若cnt<n,n表示迭代设置上限,返回步骤s22,否则,结束对s[i][]的操作。
[0114]
利用少数类样本合成数据平衡法对数据的少数类样本进行合成,计算少数类样本以及它们的某个最近邻的差值,然后再使用0~1之间的一个随机数乘以这个差值,最终把这个值加入到先前那个样本上,提升了对异常样本的检测准确性,少数类样本合成技术主要使用一种线性插值的方式增加异常样本的数目,可以避免数据的不平衡性,从而提高对异常样本的预测能力,提升入侵检测效果。
[0115]
在步骤s3中,设特征规模为f,随机生成f个个体的初始集合f=(f1,f2,

,fn)
t
,给定一个数据选定范围,采用线性插值函数生成特征中个体wi的一个实数向量w1,w2,

,将ws作为遗传算法的一个基因;
[0116]
对经过少数类样本合成数据平衡法处理后的数据进行混合特征选择,删除数据中的冗余特征的过程为:
[0117]
s31:采用信息增益比方法对特征集合进行特征排序,生成排序特征集合f={f1》f2》

》fn};对每个特征分别统计与该特征相似度大于某个阈值的其它特征的个数,将该特征及与其相似度大于指定阈值的其它特征归为一组;
[0118]
s32:确实特征的评价函数;将s31得到的特征集合依次分组,引入c4.5决策树,利用分组后的特征集合对c4.5决策树进行训练,以c4.5决策树的分类性能作为特征集合f中个体fi的适应度评价函数;
[0119]
s32:采用轮盘赌法选择算子,即基于适应度比例的选择策略对每一代种群中的染色体进行选择;选择概率为:
[0120][0121]
s33:由于个体采用实数编码,交叉操作方法采用实数交叉,第k个基因fk和第l个基因fl在j位的交叉操作分别为
[0122]fkj
=f
kj
(1-b)+f
lj
b f
lj
=f
lj
(1-b)+f
kjb[0123]
其中,b为[0,1]间的随机数;
[0124]
s34.变异操作;选取第i个个体的第j个基因进行变异操作,过程满足公式:
[0125][0126]
其中,f
max
和f
min
分别为基因f
ij
取值的上下界,r为[0,1]间的随机数,g为当前迭代次数,gmax为最大进化代数;
[0127]
s35:更新个体适应度评价函数的值,比较评价函数是否达到最优值;若是,返回执
行s31,寻找最优特征子集;否则,则终止寻优。
[0128]
在此,混合特征选择方法是过滤式和封装式结合使用,选择最优的特征子集,首先使用过滤式特征选择方法对特征子集进行排序;然后使用封装式方法进行递增策略的筛选方法,利用基于信息增益的过滤式特征选择方法对特征进行分组排序,然后再使用基于遗传算法的封装式特征选择方法对特征进行递增式筛选,删除了数据中的冗余的特征以及提升了后续学习算法的效率。
[0129]
对删除了冗余特征的数据进行集成决策树入侵分析预测的过程为:
[0130]
s41.设入侵数据集表示为s={s1,s2,

,sn},从s中进行n次有放回随机采样,获取n个训练集s=(s1,s2,

,sn);在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中。
[0131]
s42.设数据集si的类别属性向量为(a1,a2,

,am),假设类别属性am具有k个不同取值,则根据am的不同取值,将数据集si划分为(s1,s2,

,sk),共k个子集,得入侵数据集s对分类的平均信息量:
[0132][0133]
其中,p(c
pq
)|c
pq
|/|s|;
[0134]
s43.利用ai对数据集si进行划分,信息增益量g(si,ai)等于使用ai对s进行划分前后,不确定性下降的程度,表达式为:
[0135]
g(si,ai)=h(si)-h(s/ai)
[0136]
s44.基于属性ai对s进行划分的信息增益率,得到信息增益量与分割信息量之比,表达式为:
[0137][0138]
其中,分割信息量
[0139]
s44:重复s41~s43步骤n次,构建n个c4.5决策树;
[0140]
s45:通过投票的方式输出分析预测结果,满足:
[0141][0142]
在此,步骤s4是将步骤s3处理后的数据集应用于集成决策树分类器,其中决策树是一种基于信息增益比的的分类算法,其关键在于计算速度快、分类规则简单易懂,尤其是经过集成后的决策树具有更好的稳定性采用c4.5决策树算法对数据进行初步建模,然后再使用bagging方法对建模后的基分类器进行组合预测,通过对决策树进行集成学习,有效地避免了决策树算法的不稳定性,提升了入侵检测的准确性。
[0143]
实施例3
[0144]
本实施例以实际数据进行验证说明,采用uci机器学习标准评测数据集,选择了其中6个数据集进行实验,并选择wdbc数据集作为诊断预测数据,数据集的具体信息如表1所示:
[0145]
表1
[0146]
datasetsample sizeattributeclassmagic19020102spambase4601572eight2534722diabetes76882ionosphere351342sonar208602wdbc569302
[0147]
采用10层交叉(10-fold cross validation)的方法进行验证,分别记录其accuracy、sensitivity accuracy、specificity accuracy以及mcc,最后求得平均值,即可得出分类算法的性能。为了验证本文提出的算法,实验分为三部分。首先,使用smote方法对数据集进行重抽样,将数据的不平衡性和实例数降低;其次,通过混合特征选择方法将处理好的数据进行特征筛选;最后,对比本技术提出的方法与几个传统的算法比较,并与学者提出的方法进行比较,并将其应用入侵检测预测中。
[0148]
首先对数据集进行smote抽样,增加少数类的样本数,同时降低数据集的不平衡性,具体实验结果如表2所示:
[0149]
表2
[0150][0151][0152]
由表2可知,经过处理后的数据集,数据的灵敏度有了明显的提高。通过调整r因子,使用enn算法对数据进行多次迭代抽样,选择抽样效果最佳的迭代因子r,为了验证抽样后的数据是否还具有其原有特征,在这里我们使用朴素贝叶斯算法的分类性能作为评价指标。根据灵敏度、特异性以及mcc选择最合适的r因子,经过抽样后的三种指标结果如下图3-图5所示。
[0153]
图3-5显示了6个uci数据集经过少数类样本合成技术方法重抽样后三种不同评价
指标的结果,mcc趋于平稳,表明数据已经趋近平衡,根据不平衡数据的少数类更为重要的原则,本技术选择将少数类的准确率作为主要指标,根据三种指标的综合结果,选择最合适的采样数据。另外,原始数据集与经过少数类样本合成技术(r≠0)处理后的对比如表3所示:
[0154]
表3
[0155][0156]
由表3所知,经少数类样本合成技术算法处理后,可以得出如下结论:
[0157]
经过处理后的数据集的mcc都有明显的提高,特别是对于eight,diabetes和sonar数据集,有效的解决了数据集的不平衡性。朴素贝叶斯算法模型构建的时间相对缩短,预测精度也有所提高,通过少数类样本合成技术算法处理后的数据不仅提高了朴素贝叶斯的性能,而且对后续集成决策树算法的工作效率也有极大的改善。
[0158]
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

技术特征:
1.一种基于混合特征选择的集成决策树入侵检测系统,其特征在于,所述入侵检测系统包括电网信息数据库、数据聚类模块以及数据分析模块,所述电网信息数据库存储入侵数据包,所述数据聚类模块调用电网信息数据库的入侵数据并进行类别标注预处理,数据聚类模块将类别标注预处理后的数据送至数据分析模块进行入侵检测分析。2.根据权利要求1所述的基于混合特征选择的集成决策树入侵检测系统,其特征在于,所述数据分析模块包括数据采样模块、混合特征选择模块和集成决策树分析预测模块,数据采样模块、混合特征选择模块和集成决策树分析预测模块之间通过数据总线进行通信连接,所述数据采样模块用于对数据聚类模块类别标注预处理后的数据进行平衡处理,所述混合特征选择模块用于对数据采样模块平衡处理后的数据进行混合特征选择,删除数据的冗余特征;所述集成决策树分析预测模块用于对删除冗余特征的数据进行入侵预测分析,并将预测分析的结果传输至智能电网处理中心。3.根据权利要求2所述的基于混合特征选择的集成决策树入侵检测系统,其特征在于,数据聚类模块利用k-means聚类算法对入侵数据进行聚类分析,生成一个聚类类标,根据聚类类标对入侵数据中的异常数据和正常数据进行划分,得到类别标注。4.根据权利要求2所述的基于混合特征选择的集成决策树入侵检测系统,其特征在于,所述数据采样模块利用少数类样本合成数据平衡法对类别标注预处理后的入侵数据进行增强和压缩处理。5.根据权利要求2所述的基于混合特征选择的集成决策树入侵检测系统,其特征在于,混合特征选模块利用信息增益比法对数据采样模块平滑处理后的数据进行混合特征选择,删除数据的冗余特征;所述集成决策树分析预测模块采用集成学习算法对删除冗余特征的数据进行入侵预测分析。6.一种基于混合特征选择的集成决策树入侵检测方法,其特征在于,所述方法包括以下步骤:s1.采用k-means聚类算法对入侵数据进行聚类分析,得到类别标注;s2.通过少数类样本合成数据平衡法对s1类别标注的数据进行平衡处理,从而降低数据的不平衡性;s3.对经过少数类样本合成数据平衡法处理后的数据进行混合特征选择,删除数据中的冗余特征;s4.对删除了冗余特征的数据进行集成决策树入侵分析预测,并将分析预测结果反馈给智能电网处理中心。7.根据权利要求6所述的基于混合特征选择的集成决策树入侵检测方法,其特征在于,设入侵数据集表示为s={s1,s2,

,s
n
},从入侵数据集中选择k个对象,每个对象代表一个聚类的均值或中心,记第i个聚类中的对象个数为m,1≤i≤k,并记第i个聚类中对象组成的集和为i,令i=1,设c为迭代次数,令c=1;步骤s1所述采用k-means聚类算法对入侵数据进行聚类分析,得到类别标注的具体过程为:s11.计算入侵数据集中第i个聚类的中心为计算表达式为:
p表示某个对象,若i=k,执行步骤s12,否则,令i=i+1,重复执行步骤s11,直至i=k;s12.计算入侵数据集中检测数据的第一准则函数的值,表达式为:s13.若将对象p分配到第i个类别中;如果i<k,令i的值加1;令为第i个聚类中的对象个数,且为第i个聚类中对象组成的集合,执行步骤s14;步骤14.计算入侵数据集中检测数据的第二准则函数的值:执行步骤s15;步骤15.如果停止计算,ζ表示精度;否则,令i=1,将c的值增加1,返回步骤11,直至入侵数据集中的所有检测数据均被分配一个类别标注。8.根据权利要求6所述的基于混合特征选择的集成决策树入侵检测方法,其特征在于,通过少数类样本合成数据平衡法对s1类别标注的数据进行平衡处理的过程为:s21.令计算次数cnt=0,合成数据样本总数计数值nid为0,以入侵数据样本s[i][]作为少数类样本数据的样本中心,在少数类中寻找数据样本s[i][]的k个最近邻样本,将其索引存入k[][]中;s22.将nid的值加1,随机生成一个1到k之间的整数m,遍历数据的每一维特征j,计算数据样本s[i][]与其第m个最近邻样本的距离;s23.随机生成一个0到1之间的实数gap,以实数gap作为合成权重随机数,以入侵数据样本s[i][]作为基础样本,使用实数gap乘以距离,最终把计算结果加入到先前那个样本,得到新合成数据及其第j维特征的值;s24.令cnt的值加1,若cnt<n,n表示迭代设置上限,返回步骤s22,否则,结束对s[i][]的操作。9.根据权利要求6所述的基于混合特征选择的集成决策树入侵检测方法,其特征在于,在步骤s3中,设特征规模为f,随机生成f个个体的初始集合f=(f1,f2,

,f
n
)
t
,给定一个数据选定范围,采用线性插值函数生成特征中个体wi的一个实数向量w1,w2,

,将ws作为遗传算法的一个基因;对经过少数类样本合成数据平衡法处理后的数据进行混合特征选择,删除数据中的冗余特征的过程为:s31:采用信息增益比方法对特征集合进行特征排序,生成排序特征集合f={f1>f2>

>fn};对每个特征分别统计与该特征相似度大于某个阈值的其它特征的个数,将该特征及与其相似度大于指定阈值的其它特征归为一组;s32:确实特征的评价函数;将s31得到的特征集合依次分组,引入c4.5决策树,利用分
组后的特征集合对c4.5决策树进行训练,以c4.5决策树的分类性能作为特征集合f中个体fi的适应度评价函数;s32:采用轮盘赌法选择算子,即基于适应度比例的选择策略对每一代种群中的染色体进行选择;选择概率为:s33:由于个体采用实数编码,交叉操作方法采用实数交叉,第k个基因fk和第l个基因fl在j位的交叉操作分别为f
kj
=f
kj
(1-b)+f
lj
bf
lj
=f
lj
(1-b)+f
kj
b其中,b为[0,1]间的随机数;s34.变异操作;选取第i个个体的第j个基因进行变异操作,过程满足公式:其中,f
max
和f
min
分别为基因f
ij
取值的上下界,r为[0,1]间的随机数,g为当前迭代次数,gmax为最大进化代数;s35:更新个体适应度评价函数的值,比较评价函数是否达到最优值;若是,返回执行s31,寻找最优特征子集;否则,则终止寻优。10.根据权利要求6所述的基于混合特征选择的集成决策树入侵检测方法,其特征在于,对删除了冗余特征的数据进行集成决策树入侵分析预测的过程为:s41.设入侵数据集表示为s={s1,s2,

,s
n
},从s中进行n次有放回随机采样,获取n个训练集s=(s1,s2,

,s
n
);s42.设数据集s
i
的类别属性向量为(a1,a2,

,a
m
),假设类别属性a
m
具有k个不同取值,则根据a
m
的不同取值,将数据集s
i
划分为(s1,s2,

,s
k
),共k个子集,得入侵数据集s对分类的平均信息量:其中,p(c
pq
)|c
pq
|/|s|;s43.利用a
i
对数据集s
i
进行划分,信息增益量g(s
i
,a
i
)等于使用a
i
对s进行划分前后,不确定性下降的程度,表达式为:g(s
i
,a
i
)=h(s
i
)-h(s/a
i
)s44.基于属性a
i
对s进行划分的信息增益率,得到信息增益量与分割信息量之比,表达式为:其中,分割信息量s44:重复s41~s43步骤n次,构建n个c4.5决策树;s45:通过投票的方式输出分析预测结果,满足:

技术总结
本发明提出一种基于混合特征选择的集成决策树入侵检测系统及检测方法,涉及入侵检测的技术领域,入侵检测系统包括电网信息数据库、数据聚类模块以及数据分析模块,电网信息数据库存储入侵数据包,数据聚类模块调用电网信息数据库的入侵数据并进行类别标注预处理,增强了数据的确定性,数据聚类模块将类别标注预处理后的数据送至数据分析模块进行入侵检测分析,通过少数类样本合成技术进行平滑处理,从而降低数据的不平衡性,使后期的入侵检测更为准确,通过混合式特征选择方法对数据进行特征筛选,删除了数据中的冗余的特征以及提升了后续学习的效率,最后通过对决策树进行集成学习,有效避免了决策树算法的不稳定性,提升了入侵检测的准确性。升了入侵检测的准确性。升了入侵检测的准确性。


技术研发人员:梁寿愚 刘映尚 胡荣 周华锋 方文崇 江伟 周志烽 朱文 李映辰 马光 李晗 程国鑫
受保护的技术使用者:中国南方电网有限责任公司
技术研发日:2022.06.20
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-10189.html

最新回复(0)