1.本发明属于工业互联网安全领域,涉及一种基于改进随机森林的工业互联网安全态势评估方法。
背景技术:2.在工业化与信息化深度融合及“互联网+”等战略下,支撑智能制造等新经济发展的工业互联网得到了快速成长而且发展潜力巨大。以互联网为载体、新技术融合为典型特征的第四次工业革命把数据、人以及机器连接起来,是一个全球化的开放网络。随着工业互联网广泛应用于工业、能源、航空、交通、水利、国防及市政等领域,工业互联网已成为世界各国关键基础设施的重要组成部分,它在极大扩展网络空间的边界和功能的同时,也打破了工业控制系统传统的封闭和强调高可靠性的格局,尤其是在传感网与物联网接入后,工业互联网络连接设备数量正在不断地增加,以及网络攻击正在数量和巧妙程度上的不断演变,导致了网络威胁的扩大,使得基础设施容易受到恶意攻击。
3.网络安全态势感知技术的研究为工业互联网安全问题提供一个更广、更宽、更新的解决思路,提高人们对网络系统安全性的认知与响应能力,缓解了安全问题带来的危害。传统的安全态势评估技术对于互联网的应用较为广泛,而没有针对工业互联网环境下的安全态势评估技术。
技术实现要素:4.有鉴于此,本发明的目的在于解决传统网络安全态势评估方法不能较好地直接应用于工业互联网的问题,提出一种评估准确率高、稳定性好的工业互联网安全态势评估方法。
5.为达到上述目的,本发明提供如下技术方案:
6.一种基于改进随机森林的工业互联网安全态势评估方法,包括以下步骤:
7.s1:收集工业互联网流量数据中的安全数据信息和安全资产信息并进行处理,建立工业互联网安全流量数据库;
8.s2:对数据库中的安全数据进行预处理,得到工业互联网安全态势数据集;
9.s3:采用留出法将工业互联网安全态势数据集中的数据构造出训练样本集和测试样本数据集;
10.s4:将训练样本集输入梯度提升决策树进行训练,确定工业互联网中不同攻击特征的重要性分数,再利用递归特征消除法提取其关键特征,构建随机森林攻击检测模型,利用训练样本集对随机森林攻击检测模型进行分类训练并保留其最优参数;
11.s5:利用训练好的随机森林攻击检测模型对样本测试集进行攻击检测,根据不同攻击的量化指标计算网络安全态势值,评估网络的安全状况。
12.进一步,步骤s2具体包括以下步骤:
13.s21:通过数据清洗操作和随机采样操作,剔除工业互联网流量数据中的冗余数
据,保留重要信息;
14.s22:数值化:采用顺序编码的方式将数据集中的符号型特征转换为数值型特征;
15.s23:归一化:按照以下公式将数据归一化到[0,1]区间:
[0016][0017]
式中,和xi分别表示归一化处理前后的特征值,i表示样本数,x
max
和x
min
分别表示特征列的最大值和最小值。
[0018]
进一步,步骤s3中,采用留出法将工业互联网安全流量样本数据集的80%数据确定为训练样本数据集,20%确定为测试样本数据集,构建训练样本集d=(xi,yi)和测试样本集t=(xi,yi)。
[0019]
进一步,步骤s4中,将训练样本数据集中样本的特征数量作为原始特征,利用梯度提升决策树得到其每一个特征的重要性评分,再根据递归特征消除法筛选其关键特征,最后,利用此时处理后的数据对随机森林攻击检测模型进行分类训练并保留其最优参数,构建出基于改进随机森林的攻击检测模型。
[0020]
进一步,步骤s4具体包括以下步骤:
[0021]
s41:筛选关键特征:梯度提升决策树模型表示为:
[0022][0023]
式中,f(x)表示梯度提升决策树模型,x为输入样本,m表示分类回归树的数量,αm为对应回归树的权重,hm(x)表示分类回归树;
[0024]
在梯度提升决策树模型中,通过基尼指数计算出每个特征的重要性,再累加计算结果得出特征重要性评分,经过所有决策树所得的特征重要性分数之和越高,则说明该特征越重要,对预测结果影响越大;利用梯度提升决策树得到每个特征的特征重要性评分计算公式如下:
[0025][0026]
式中,表示特征i的重要性分数,n表示模型中有n棵决策树,表示特征i在第j棵树的重要性;
[0027]
然后利用递归特征消除法,选取关键特征;
[0028]
s42:攻击类型检测:采用随机森林算法进行攻击类型检测,随机森林算法由多棵决策树共同参与学习和训练,其所有决策树都基于有放回随机抽样方法生成;将生成的多棵决策树组合,利用投票法的思想,统计每棵决策树的预测结果,由得票数最多的类别作为最终分类结果;利用处理后的数据对随机森林攻击检测模型进行分类训练,并保留其最优参数。
[0029]
进一步,步骤s5具体包括以下步骤:
[0030]
s51:将测试样本数据集输入保留最优参数的随机森林攻击检测模型,得出其具体的攻击分类;
[0031]
s52:量化攻击影响值:根据网络流量所具有的机密性、完整性和可用性三个指标,同时参考通用漏洞评分系统进行攻击划分,其计算公式如下:
[0032][0033]
式中,aii表示第i类攻击的影响值,ci、ii和ai分别表示第i类攻击的机密性、完整性和可用性;
[0034]
s53:量化攻击严重程度:攻击严重程度量化标准依据网络数据丢包率、数据流量变化率和网络数据吞吐量进行量化,其计算公式如下:
[0035]
si=mi*10
τ
[0036]
式中,si表示第i类攻击对网络的严重程度,mi表示一段时间内第i类攻击出现的次数,τ为攻击严重程度因子,其计算公式为:
[0037]
τ=w
l
*u(lj)+wr*u(rj)+w
t
*u(tj)
[0038]
式中,w
l
、wr和w
t
为三个属性的权重,其中w
l
+wr+w
t
=1,u(x)=1/x为求倒函数,lj、rj和tj分别表示网络数据丢包率、数据流量变化率和网络数据吞吐量;
[0039]
s54:安全态势值计算:结合攻击影响值和严重程度计算公式如下:
[0040][0041]
式中,sv为网络的安全态势值,n为网络攻击类型的数量,aii为攻击的影响值,si为攻击严重程度,n为样本总数;
[0042]
s55:安全态势评估:根据攻击检测情况,结合态势值计算公式,得出网络的安全态势值,结合网络安全态势评估等级,评估当前网络的安全状况。
[0043]
本发明的有益效果在于:与传统的网络安全态势评估方法相比,采用数据清洗操作解决了工业互联网安全流量数据中的噪声数据过多的问题,然后采用随机采样技术,解决了工业互联网安全流量数据量过大的问题,接着结合梯度提升决策树和递归特征消除法筛选关键特征,解决了工业互联网流量数据维度高的问题,最后利用随机森林算法的训练速度快、泛化能力强、训练精度高等优点评估网络安全态势值。因此本发明解决了工业互联网安全态势评估精度低、稳定性差得问题。
[0044]
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0045]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
[0046]
图1为本发明所述的基于改进随机森林的工业互联网安全态势评估算法流程图。
具体实施方式
[0047]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离
本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0048]
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0049]
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
[0050]
请参阅图1,一种基于改进随机森林的工业互联网安全态势评估算法流程图,适用于工业互联网环境下的网络安全态势评估,具体步骤如下:
[0051]
步骤1:数据准备:根据工业企业网络安全数据信息以及资产价值信息构建工业互联网安全数据库;
[0052]
步骤2:数据预处理:对数据库中的所有数据进行加权平均,然后进行数据清洗操作和随机采样操作,接着对所有数据进行数值化和归一化操作,最后得到工业互联网安全流量样本数据集;
[0053]
步骤3:构建训练样本集和测试样本集:采用留出法将工业互联网安全流量样本数据集的80%数据确定为训练样本数据集,20%确定为测试样本数据集,构建训练样本集d=(xi,yi)和测试样本集t=(xi,yi);
[0054]
步骤4:模型构建:将训练样本集输入梯度提升决策树进行训练,确定工业互联网中不同攻击特征的重要性分数,再利用递归特征消除法提取其关键特征,构建基于改进随机森林的攻击检测模型,利用训练样本集对攻击检测模型进行分类训练,并保留其最优参数。
[0055]
步骤5:态势评估:利用训练好的随机森林攻击检测模型对样本测试集进行攻击检测,根据不同攻击的量化指标计算网络安全态势值,评估网络的安全状况。
[0056]
可选地,在步骤2数据处理过程中,包括以下步骤:
[0057]
步骤21:通过数据清洗操作和随机采样操作,剔除工业互联网流量数据中的冗余数据,保留重要信息,提高特征提取效果;
[0058]
步骤22:数值化:采用顺序编码的方式将数据集中的符号型特征转换为数值型特征;
[0059]
步骤23:归一化处理:按照以下公式将数据归一化到[0,1]区间:
[0060][0061]
式中,和xi分别表示归一化处理前后的特征值,i表示样本数,x
max
和x
min
分别表示特征列的最大值和最小值。
[0062]
在步骤4中,参考图1所示,根据步骤3得到的训练样本集d,训练得到随机森林的最优模型,具体包括以下步骤:
[0063]
步骤41:筛选关键特征:梯度提升决策树是一种以决策树为基学习器的集成分类算法,其数学模型可表示为:
[0064][0065]
式中,f(x)表示梯度提升决策树模型,x为输入样本,m表示分类回归树的数量,αm为对应回归树的权重,hm(x)表示分类回归树。
[0066]
在梯度提升决策树模型中,通过基尼指数计算出每个特征的重要性,在累加计算结果得出特征重要性评分,经过所有决策树所得的特征重要性分数之和越高,则说明该特征越重要,对预测结果影响越大。利用梯度提升决策树得到每个特征的特征重要性评分计算公式如下:
[0067][0068]
式中,表示特征i的重要性分数,n表示模型中有n棵决策树,表示特征i在第j棵树的重要性。
[0069]
然后利用递归特征消除法,选取关键特征。
[0070]
步骤42:攻击类型检测:采用随机森林算法进行攻击类型检测,随机森林是由多棵决策树共同参与学习和训练的集成学习算法,其所有决策树都是基于有放回随机抽样方法生成。将生成的多棵决策树组合,利用投票法的思想,统计每棵决策树的预测结果,由得票数最多的类别作为最终分类结果。利用此时已经处理后的数据对随机森林攻击检测模型进行分类训练,并保留其最优参数。
[0071]
在步骤5中:将步骤3得到的测试样本集t输入攻击检测模型,根据检测结果,量化不同攻击对网络的影响严重程度,通过计算网络态势值对网络的安全状况进行有效评估,具体包括以下步骤:
[0072]
步骤51:将s3中得到的测试样本数据集输入保留最优参数的攻击检测模型,得出其具体的攻击分类;
[0073]
步骤52:量化攻击影响值:根据网络流量所具有的机密性、完整性和可用性三个指标,同时参考通用漏洞评分系统进行攻击划分,其计算公式如下:
[0074][0075]
式中,aii表示第i类攻击的影响值,ci、ii和ai分别表示第i类攻击的机密性、完整性和可用性。
[0076]
步骤53:量化攻击严重程度:攻击严重程度量化标准依据网络数据丢包率、数据流量变化率和网络数据吞吐量进行量化,其计算公式如下:
[0077]
si=mi*10
τ
[0078]
式中,si表示第i类攻击对网络的严重程度,mi表示一段时间内第i类攻击出现的次数,τ为攻击严重程度因子,其计算公式为:
[0079]
τ=w
l
*u(lj)+wr*u(rj)+w
t
*u(tj)
[0080]
式中,w
l
、wr和w
t
为三个属性的权重,其中w
l
+wr+w
t
=1,u(x)=1/x为求倒函数,lj、rj和tj分别表示网络数据丢包率、数据流量变化率和网络数据吞吐量。
[0081]
步骤54:安全态势值计算:结合攻击影响值和严重程度计算公式如下:
[0082][0083]
式中,sv为网络的安全态势值,n为网络攻击类型的数量,aii为攻击的影响值,si为攻击严重程度,n为样本总数。
[0084]
步骤55:安全态势评估:根据攻击检测情况,结合态势值计算公式,得出网络的安全态势值,参照《国家突发公共事件应急预案》并且结合网络安全态势评估等级,评估当前网络的安全状况。
[0085]
本发明适用于工业互联网的安全态势评估,使用本发明所公开的工业互联网安全态势评估方法,由于融合了多种算法,分先后按顺序进行,先对数据集进行数据清洗、异常值处理、数值化和归一化操作,有利于提高评估准确率。由于随机森林在处理高维数据时稍显冗余,容易忽略掉一部分类别的强相关特征使得模型泛化能力差,采用梯度提升决策树和递归特征消除法能够有效避免随机森林因为维度高而导致的问题,最后采用随机森林评估工业互联网安全的安全状况,可达到评估准确率高、稳定性好的效果。
[0086]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
技术特征:1.一种基于改进随机森林的工业互联网安全态势评估方法,其特征在于:包括以下步骤:s1:收集工业互联网流量数据中的安全数据信息和安全资产信息并进行处理,建立工业互联网安全流量数据库;s2:对数据库中的安全数据进行预处理,得到工业互联网安全态势数据集;s3:采用留出法将工业互联网安全态势数据集中的数据构造出训练样本集和测试样本数据集;s4:将训练样本集输入梯度提升决策树进行训练,确定工业互联网中不同攻击特征的重要性分数,再利用递归特征消除法提取其关键特征,构建随机森林攻击检测模型,利用训练样本集对随机森林攻击检测模型进行分类训练并保留其最优参数;s5:利用训练好的随机森林攻击检测模型对样本测试集进行攻击检测,根据不同攻击的量化指标计算网络安全态势值,评估网络的安全状况。2.根据权利要求1所述的基于改进随机森林的工业互联网安全态势评估方法,其特征在于:步骤s2具体包括以下步骤:s21:通过数据清洗操作和随机采样操作,剔除工业互联网流量数据中的冗余数据,保留重要信息;s22:数值化:采用顺序编码的方式将数据集中的符号型特征转换为数值型特征;s23:归一化:按照以下公式将数据归一化到[0,1]区间:式中,和x
i
分别表示归一化处理前后的特征值,i表示样本数,x
max
和x
min
分别表示特征列的最大值和最小值。3.根据权利要求1所述的基于改进随机森林的工业互联网安全态势评估方法,其特征在于:步骤s3中,采用留出法将工业互联网安全流量样本数据集的80%数据确定为训练样本数据集,20%确定为测试样本数据集,构建训练样本集d=(x
i
,y
i
)和测试样本集t=(x
i
,y
i
)。4.根据权利要求1所述的基于改进随机森林的工业互联网安全态势评估方法,其特征在于:步骤s4中,将训练样本数据集中样本的特征数量作为原始特征,利用梯度提升决策树得到其每一个特征的重要性评分,再根据递归特征消除法筛选其关键特征,最后,利用此时处理后的数据对随机森林攻击检测模型进行分类训练并保留其最优参数,构建出基于改进随机森林的攻击检测模型。5.根据权利要求4所述的基于改进随机森林的工业互联网安全态势评估方法,其特征在于:步骤s4具体包括以下步骤:s41:筛选关键特征:梯度提升决策树模型表示为:式中,f(x)表示梯度提升决策树模型,x为输入样本,m表示分类回归树的数量,α
m
为对应回归树的权重,h
m
(x)表示分类回归树;在梯度提升决策树模型中,通过基尼指数计算出每个特征的重要性,再累加计算结果
得出特征重要性评分,经过所有决策树所得的特征重要性分数之和越高,则说明该特征越重要,对预测结果影响越大;利用梯度提升决策树得到每个特征的特征重要性评分计算公式如下:式中,表示特征i的重要性分数,n表示模型中有n棵决策树,表示特征i在第j棵树的重要性;然后利用递归特征消除法,选取关键特征;s42:攻击类型检测:采用随机森林算法进行攻击类型检测,随机森林算法由多棵决策树共同参与学习和训练,其所有决策树都基于有放回随机抽样方法生成;将生成的多棵决策树组合,利用投票法的思想,统计每棵决策树的预测结果,由得票数最多的类别作为最终分类结果;利用处理后的数据对随机森林攻击检测模型进行分类训练,并保留其最优参数。6.根据权利要求1所述的基于改进随机森林的工业互联网安全态势评估方法,其特征在于:步骤s5具体包括以下步骤:s51:将测试样本数据集输入保留最优参数的随机森林攻击检测模型,得出其具体的攻击分类;s52:量化攻击影响值:根据网络流量所具有的机密性、完整性和可用性三个指标,同时参考通用漏洞评分系统进行攻击划分,其计算公式如下:式中,ai
i
表示第i类攻击的影响值,c
i
、i
i
和a
i
分别表示第i类攻击的机密性、完整性和可用性;s53:量化攻击严重程度:攻击严重程度量化标准依据网络数据丢包率、数据流量变化率和网络数据吞吐量进行量化,其计算公式如下:s
i
=m
i
*10
τ
式中,s
i
表示第i类攻击对网络的严重程度,m
i
表示一段时间内第i类攻击出现的次数,τ为攻击严重程度因子,其计算公式为:τ=w
l
*u(l
j
)+w
r
*u(r
j
)+w
t
*u(t
j
)式中,w
l
、w
r
和w
t
为三个属性的权重,其中w
l
+w
r
+w
t
=1,u(x)=1/x为求倒函数,l
j
、r
j
和t
j
分别表示网络数据丢包率、数据流量变化率和网络数据吞吐量;s54:安全态势值计算:结合攻击影响值和严重程度计算公式如下:式中,sv为网络的安全态势值,n为网络攻击类型的数量,ai
i
为攻击的影响值,s
i
为攻击严重程度,n为样本总数;s55:安全态势评估:根据攻击检测情况,结合态势值计算公式,得出网络的安全态势值,结合网络安全态势评估等级,评估当前网络的安全状况。
技术总结本发明涉及一种基于改进随机森林的工业互联网安全态势评估方法,属于工业互联网安全技术领域,包括以下步骤:S1:收集安全数据和资产信息,建立工业互联网安全流量数据库;S2:得到数据集;S3:构造训练样本集和测试样本集;S4:将训练样本集输入梯度提升决策树进行训练,确定工业互联网中不同攻击特征的重要性分数,利用递归特征消除法提取其关键特征,构建随机森林攻击检测模型,利用训练样本集进行分类训练并保留其最优参数;S5:利用随机森林攻击检测模型对样本测试集进行攻击检测,根据不同攻击的量化指标计算网络安全态势值,评估网络的安全状况。本发明可用于评估工业互联网的安全状况,为工业互联网安全提供保障。为工业互联网安全提供保障。为工业互联网安全提供保障。
技术研发人员:胡向东 万润楠 胡经纬 白银 张琴 唐玲玲
受保护的技术使用者:重庆邮电大学
技术研发日:2022.07.22
技术公布日:2022/11/1