一种基于神经网络加强的违规操作实时检测装置的制作方法

专利2023-05-28  113



1.本发明涉及神经网络领域,具体是指一种基于神经网络加强的违规操作实时检测装置。


背景技术:

2.现有技术dtmc的主要问题出现在三个方面:数据特征提取、数据模型拟合、阈值设置。
3.(1)数据特征提取方面:dtmc算法通过分窗和概率归并的方式从原始数据确定状态,将原始的shell命令序列转换表征为状态序列。这种方式会丢失数据中大量的关键信息,导致后续基于状态序列的模型可获取的数据关键信息大大减少,导致大量的误报和错报。
4.(2)模型拟合方面:dtmc是一阶马尔可夫链模型,表征能力有限,并不能很好的学习到原始数据中的关键特性。
5.(3)阈值设置方面:现有技术使用出现概率的方式来计算一串shell命令的异常分数,需要人工给每一个训练的模型指定合理的阈值,耗时耗力且无法指定一个很好的阈值,导致漏报误报。
6.基于上述多个原因,一种基于神经网络加强的违规操作实时检测装置成为整个社会亟待解决的技术问题。


技术实现要素:

7.为解决上述技术问题,本发明提供的技术方案为:一种基于神经网络加强的违规操作实时检测装置,包括以下几个阶段,
8.(1)数据预处理阶段,在模型处理阶段,可以自定义使用数据的窗长和状态的数量,使用命令模板来表征原始shell命令;
9.(2)模型训练阶段,shell命令是由操作人员输入的序列数据,且命令之间存在较强的依赖关系,即操作人员当前输入什么shell命令是受其已经输入的shell数据影响,基于这个数据特征,我们将异常检测问题转换为预测问题,即给定一定长度的shell命令序列即命令模板序列,预测下一个shell命令或命令体是什么的问题,如果实际的命令不在预测的前k个命令中则触发异常,接着构建预测模型;
10.(3)模型检测阶段,首先用数据处理阶段提到的方法将原始的检测shell命令序列转换为命令模板序列,然后载入训练好的预测模型并输入命令模板序列来预测下一个命令体的概率分布,如果真实的下一个命令体不在预测的按照概率排序的topk个中则触发异常,在此阶段我们使用top-k算法来判断检测的命令序列串是否为高危操作。
11.进一步地,其中一条shell命令有命令体、参数、变量三个部分组成(rm-rf./result,其中rm是命令体,-rf是参数,./result是变量);命令模式即将命令中的变量部分替换为通配符《*》(e.g.rm-rf《*》);我们使用层次聚类的方式来自动取命令模板;然后以
nlp领域的one-hot embedding编码方式将命令模板转换为数值特征向量。
12.进一步地,所述步骤(2)中构建预测模型,其为使用神经网络模型中的lstm和cnn两种模型结果来构建这样的预测模型。预测模型的输入是一定长度的命令模板序列,输出是下一个命令体是什么的概率分布;基于预测模型的输入输出我们可以很容易的从原始数据构建出符合要求的训练数据,然后使用训练数据拟合预测模型。
13.发明与现有技术相比的优点在于:
14.1)数据特征提取能力大大提升,做到几乎无损的数据转换,我们使用命令模板作为shell命令的特征表示,并使用one-hot embedding的方式转换为数值特征向量的特征提取方法只丢失了原始数据中变量部分的信息,而这部分信息在异常检测场景中并不是关键信息。(注:因为shell命令是非结构化的文本数据所以一定需要做特数据转换,转换为机器学习模型可以处理的数值特征。
15.2)将异常检测问题转换为预测问题,提升了异常检测的可解释性。
16.3)使得模型对数据种类和数据长度的容忍度提升,提高了关键信息的利用率,使得结果更加准确。准确性和泛化性能高,结合lstm和cnn模型来构建预测模型,并使用top-k的方式来检测异常,极大的提升了异常的召回率和检测告警的精确性。
17.4)提升易用性,top-k算法的k值设定具有就较强的泛化性,使用默认的k值(10)既能达到很好的效果,不需要太多人工的参与。
附图说明
18.图1为本发明一种基于神经网络加强的违规操作实时检测装置的模块示意图。
具体实施方式
19.下面结合附图对本发明做进一步的详细说明。
20.结合附图,对本发明进行详细介绍。
21.本发明在具体实施时提供了一种基于神经网络加强的违规操作实时检测装置,包括以下几个阶段,
22.(1)数据预处理阶段,在模型处理阶段,可以自定义使用数据的窗长和状态的数量,使用命令模板来表征原始shell命令;数据处理阶段主要更改了数据表现的结构和形式,方便模型构建模块中的神经网络更好的处理数据。其中,自定义使得模型能更好的体现用户的行为链并更好适应复杂情况。
23.(2)模型训练阶段,shell命令是由操作人员输入的序列数据,且命令之间存在较强的依赖关系,即操作人员当前输入什么shell命令是受其已经输入的shell数据影响,基于这个数据特征,我们将异常检测问题转换为预测问题,即给定一定长度的shell命令序列即命令模板序列,预测下一个shell命令或命令体是什么的问题,如果实际的命令不在预测的前k个命令中则触发异常,接着构建预测模型;
24.(3)模型检测阶段,首先用数据处理阶段提到的方法将原始的检测shell命令序列转换为命令模板序列,然后载入训练好的预测模型并输入命令模板序列来预测下一个命令体的概率分布,如果真实的下一个命令体不在预测的按照概率排序的topk个中则触发异常,在此阶段我们使用top-k算法来判断检测的命令序列串是否为高危操作。
25.作为本发明的进一步阐述,其中一条shell命令有命令体、参数、变量三个部分组成(rm-rf./result,其中rm是命令体,-rf是参数,./result是变量);命令模式即将命令中的变量部分替换为通配符《*》(e.g.rm-rf《*》);我们使用层次聚类的方式来自动取命令模板;然后以nlp领域的one-hot embedding编码方式将命令模板转换为数值特征向量。
26.作为本发明的进一步阐述,所述步骤(2)中构建预测模型,其为使用神经网络模型中的lstm和cnn两种模型结果来构建这样的预测模型。预测模型的输入是一定长度的命令模板序列,输出是下一个命令体是什么的概率分布;基于预测模型的输入输出我们可以很容易的从原始数据构建出符合要求的训练数据,然后使用训练数据拟合预测模型。
27.其中,使用cnn搭配lstm模型的原因如下:
28.此模型通过序列串为基础,通过双重维度来训练模型,lstm注重序列串内各个命令之间的依赖关系,cnn则关注序列串整体之间的相似度。
29.lstm:此模型突破了时间限制,使得模型能够容忍较长的窗长,能够记住较长的历史信息,学习较长的依赖关系。我们模型的目的是来预测用户的后续命令行是否为高危命令,大部分高危命令都会对临近的命令具有一定的依赖关系,lstm使得模型允许前面出现过的信息持续存在,所以对我们预测很有帮助。
30.cnn:提高模型的空间适配能力。整体上来说,因为窗长的增加,用户的行为逻辑整体性得到提高,所以我们可以从整体上和以前(非临近的数据)看改组命令是否包含违规操作。
31.其中,本发明的关键点如下:
32.(1)使用神经网络模型,突破了dtmc表征能力不足的瓶颈。
33.(2)使用lstm和cnn结合的神经网络模型处理数据,使得对数据长度和数据种类的容忍的增加,使得模型能更准确的处理复杂的数据,并提高了准确率。
34.(3)使用top-k算法来作为判断函数,方便了对阈值的选取,减少了错报和误报的几率。
35.以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

技术特征:
1.一种基于神经网络加强的违规操作实时检测装置,其特征在于:包括以下几个阶段,(1)数据预处理阶段,在模型处理阶段,可以自定义使用数据的窗长和状态的数量,使用命令模板来表征原始shell命令;(2)模型训练阶段,shell命令是由操作人员输入的序列数据,且命令之间存在较强的依赖关系,即操作人员当前输入什么shell命令是受其已经输入的shell数据影响,基于这个数据特征,我们将异常检测问题转换为预测问题,即给定一定长度的shell命令序列即命令模板序列,预测下一个shell命令或命令体是什么的问题,如果实际的命令不在预测的前k个命令中则触发异常,接着构建预测模型;(3)模型检测阶段,首先用数据处理阶段提到的方法将原始的检测shell命令序列转换为命令模板序列,然后载入训练好的预测模型并输入命令模板序列来预测下一个命令体的概率分布,如果真实的下一个命令体不在预测的按照概率排序的topk个中则触发异常,在此阶段我们使用top-k算法来判断检测的命令序列串是否为高危操作。2.根据权利要求1所述的一种基于神经网络加强的违规操作实时检测装置,其特征在于:其中一条shell命令有命令体、参数、变量三个部分组成(rm-rf./result,其中rm是命令体,-rf是参数,./result是变量);命令模式即将命令中的变量部分替换为通配符<*>(e.g.rm-rf<*>);我们使用层次聚类的方式来自动取命令模板;然后以nlp领域的one-hot embedding编码方式将命令模板转换为数值特征向量。3.根据权利要求1所述的一种基于神经网络加强的违规操作实时检测装置,其特征在于:所述步骤(2)中构建预测模型,其为使用神经网络模型中的lstm和cnn两种模型结果来构建这样的预测模型。预测模型的输入是一定长度的命令模板序列,输出是下一个命令体是什么的概率分布;基于预测模型的输入输出我们可以很容易的从原始数据构建出符合要求的训练数据,然后使用训练数据拟合预测模型。

技术总结
本发明公开了一种基于神经网络加强的违规操作实时检测装置,包括以下几个阶段,数据预处理阶段,模型训练阶段,模型检测阶段。本发明其数据特征提取能力大大提升,做到几乎无损的数据转换,我们使用命令模板作为shell命令的特征表示,并使用One-hot Embedding的方式转换为数值特征向量的特征提取方法只丢失了原始数据中变量部分的信息,而这部分信息在异常检测场景中并不是关键信息。(注:因为shell命令是非结构化的文本数据所以一定需要做特数据转换,转换为机器学习模型可以处理的数值特征。特征。特征。


技术研发人员:熊亚军 马萌 沈国鹏 苗贺 朱品燕
受保护的技术使用者:北京云集智造科技有限公司
技术研发日:2022.07.13
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-2899.html

最新回复(0)