1.本技术涉及信息安全技术领域,尤其涉及一种检测异常数据的方法、装置及电子设备。
背景技术:2.随着5g(5th generation mobile communication technology,第五代移动通信技术)技术的发展,5gc(5g core,5g核心网)的网络安全问题不可避免成为重要研究领域之一。
3.目前,针对5g核心网的安全检测主要是采用正则规则的分析归类方式,即利用正则规则对5g核心网上的流量数据进行分析归类,以检测出异常的流量数据。一方面,这种基于正则规则的检测需要由专业人员定义规则,其规则也依赖于专业人员的定期维护更新,然而随着5gc发展将产生大量不适用于既定规则的流量数据,基于此,该方式存在检测准确率低的问题;另一方面,该方式在实际应用中需要按照既定规则逐一匹配,因此在面对大量流量数据时,还存在检测效率低的问题。
技术实现要素:4.本技术提供一种检测异常数据的方法、装置及电子设备,用以解决现有技术在检测大量流量数据时检测效率低的问题。
5.第一方面,本技术提供了一种检测异常数据的方法,所述方法包括:
6.调用特征分类模型对待检测数据进行特征分类,得到所述待检测数据的第一特征;和/或
7.基于特征提取方式对所述待检测数据中的至少一部分进行特征提取,得到所述待检测数据中的至少一部分的第二特征;
8.调用安全检测模型,对所述第一特征和/或所述第二特征进行检测,得到所述第一特征和/或所述第二特征各自对应的异常指数;
9.将所述待检测数据中具有大于预设阈值的异常指数的数据作为异常数据。
10.通过上述方法,可以解决现有技术在检测大量流量数据时检测效率低的问题,实现对大流量数据的实时自动检测,有效提高检测效率,尤其适用于5gc数据的安全检测。
11.在一种可能的设计中,所述特征分类模型基于如下操作得到:
12.基于当前的特征分类模型对训练数据进行特征分类,得到特征分类结果的第一指标和第二指标;其中,所述第一指标为所述特征分类结果的不准确概率,所述第二指标为所述特征分类结果的准确概率;
13.判断所述第一指标是否处于至少一个预设区间内;
14.若否,则获取所述第一指标对应的训练数据的分析结果,并基于所述分析结果以及所述训练数据,对所述当前的特征分类模型进行更新;
15.若是,则获取所述第二指标对应的训练数据作为候选训练数据;其中,所述候选训
练数据对应所述至少一个预设区间;
16.直到所述当前的特征分类模型的评价指标满足预设评价指标要求,基于所述候选训练数据更新所述当前的特征分类模型,得到最终的特征分类模型。
17.通过上述方法,在特征分类模型的训练更新过程中,设置两个训练结束的前置条件,即第一指标落在预设区间内,且特征分类模型的评价指标满足预设条件,这样训练出的特征分类模型,能够有助于提高提取出第一特征的效率以及准确度。
18.在一种可能的设计中,所述获取所述第一指标对应的训练数据的分析结果,包括:
19.向外部数据分析资源发送所述第一指标对应的训练数据作为查询数据;
20.从所述外部数据分析资源接收所述查询数据的分析结果。
21.通过上述方法,在特征分类模型的训练更新过程中,提出一种主动学习策略,即基于外部发送的分析结果来进行更新。
22.更为详细的,在特征分类模型的模型训练过程中,只要当前的预测结果不满足训练要求,那么便获取预测错误的样本数据的分析结果,然后基于分析结果以及原本的样本数据再进行模型训练,即不断优化样本数据的标注信息。通过这种主动学习策略,可以基于少量样本数据训练出较为准确的特征分类模型。在实际应用中,该策略能够适用于少样本数据训练特征分类模型的场景,不仅节约标注待检测数据生成样本数据的时间,而且提高最终训练出的特征分类模型的特征分类准确度。
23.在一种可能的设计中,所述直到所述当前的特征分类模型的评价指标满足预设评价指标要求,基于所述候选训练数据更新所述当前的特征分类模型,得到最终的特征分类模型,包括:
24.直到所述当前的特征分类模型的评价指标满足预设评价指标要求,判断所述至少一个预设区间中的各个预设区间是否都对应有候选训练数据;
25.若是,则对所述各个预设区间各自对应的候选训练数据进行加权融合,得到融合训练数据;
26.基于所述融合训练数据,对所述当前的特征分类模型进行更新,得到最终的特征分类模型。
27.通过上述方法,最终的特征分类模型将基于各个预设区间对应的候选训练数据加权融合得到,然后调用该特征分类模型对待检测数据进行特征分类,得到待检测数据的第一特征,能够有效提高得到第一特征的效率,提高第一特征的准确率。
28.在一种可能的设计中,所述安全检测模型基于如下操作得到:
29.获取训练数据的多维特征;其中,所述多维特征包括时序特征、流量特征、关键字特征、5g协议特征、5g领域特征;
30.调用当前的安全检测模型,对所述多维特征进行加权融合,得到融合特征;
31.基于所述融合特征对所述当前的安全检测模型进行更新,得到最终的安全检测模型。
32.可选的,还可以构建标准的规则模板,对上述异常数据作进一步的检索匹配,得到最终的异常数据,以此来提高检测的准确度。
33.可选的,在安全检测模型的训练过程中引入早停法策略,即每完成一次迭代训练,就计算当前的安全检测模型的模型评价指标,若连续迭代n次模型评判指标都没有明显增
加,则结束模型训练过程,基于此,防止模型训练陷入过拟合。
34.通过上述方法,最终训练得到的安全检测模型,是考虑到5g领域特征等的有效特征,并且该安全检测模型是基于融合有效特征的融合特征得到,因此通过上述方法训练出的安全检测模型能够有助于提高最终检测异常数据的准确性。
35.在一种可能的设计中,在所述将所述待检测数据中具有大于预设阈值的异常指数的数据作为异常数据之后,还包括:
36.基于所述第一特征和/或所述第二特征各自对应的异常指数所属的异常类别,确定所述异常数据的异常类别;
37.基于所述异常数据以及所述异常数据的异常类别,生成所述待检测数据的安全报告。
38.通过上述方法,通过特征对应异常指数确定异常数据的异常类别,基于此,生成包含异常数据以及异常类别的安全报告。
39.在一种可能的设计中,在所述将所述待检测数据中具有大于预设阈值的异常指数的数据作为异常数据之后,还包括:
40.将所述异常数据保存在数据库中;
41.响应于接收到用于显示所述异常数据的显示指令,从所述数据库中提取所述异常数据,并将所述异常数据发送至显示端。
42.通过上述方法,实现对检测出的异常数据的存储和可视化。
43.第二方面,本技术提供了一种检测异常数据的装置,所述装置包括:
44.特征分类模块,调用特征分类模型对待检测数据进行特征分类,得到所述待检测数据的第一特征;和/或
45.特征提取模块,基于特征提取方式对所述待检测数据中的至少一部分进行特征提取,得到所述待检测数据中的至少一部分的第二特征;
46.安全检测模块,调用安全检测模型,对所述第一特征和/或所述第二特征进行检测,得到所述第一特征和/或所述第二特征各自对应的异常指数;
47.确定异常数据模块,将所述待检测数据中具有大于预设阈值的异常指数的数据作为异常数据。
48.在一种可能的设计中,所述特征分类模型基于如下操作得到,所述装置,还用于:
49.基于当前的特征分类模型对训练数据进行特征分类,得到特征分类结果的第一指标和第二指标;其中,所述第一指标为所述特征分类结果的不准确概率,所述第二指标为所述特征分类结果的准确概率;
50.判断所述第一指标是否处于至少一个预设区间内;
51.若否,则获取所述第一指标对应的训练数据的分析结果,并基于所述分析结果以及所述训练数据,对所述当前的特征分类模型进行更新;
52.若是,则获取所述第二指标对应的训练数据作为候选训练数据;其中,所述候选训练数据对应所述至少一个预设区间;
53.直到所述当前的特征分类模型的评价指标满足预设评价指标要求,基于所述候选训练数据更新所述当前的特征分类模型,得到最终的特征分类模型。
54.在一种可能的设计中,所述获取所述第一指标对应的训练数据的分析结果,所述
装置,还用于:
55.向外部数据分析资源发送所述第一指标对应的训练数据作为查询数据;
56.从所述外部数据分析资源接收所述查询数据的分析结果。
57.在一种可能的设计中,所述装置,还用于:
58.直到所述当前的特征分类模型的评价指标满足预设评价指标要求,判断所述至少一个预设区间中的各个预设区间是否都对应有候选训练数据;
59.若是,则对所述各个预设区间各自对应的候选训练数据进行加权融合,得到融合训练数据;
60.基于所述融合训练数据,对所述当前的特征分类模型进行更新,得到最终的特征分类模型。
61.在一种可能的设计中,所述直到所述当前的特征分类模型的评价指标满足预设评价指标要求,基于所述候选训练数据更新所述当前的特征分类模型,得到最终的特征分类模型,所述装置,还用于:
62.获取训练数据的多维特征;其中,所述多维特征包括时序特征、流量特征、关键字特征、5g协议特征、5g领域特征;
63.调用当前的安全检测模型,对所述多维特征进行加权融合,得到融合特征;
64.基于所述融合特征对所述当前的安全检测模型进行更新,得到最终的安全检测模型。
65.在一种可能的设计中,在所述将所述待检测数据中具有大于预设阈值的异常指数的数据作为异常数据之后,所述确定异常数据模块,还用于:
66.基于所述第一特征和/或所述第二特征各自对应的异常指数所属的异常类别,确定所述异常数据的异常类别;
67.基于所述异常数据以及所述异常数据的异常类别,生成所述待检测数据的安全报告。
68.在一种可能的设计中,在所述将所述待检测数据中具有大于预设阈值的异常指数的数据作为异常数据之后,所述确定异常数据模块,还用于:
69.将所述异常数据保存在数据库中;
70.响应于接收到用于显示所述异常数据的显示指令,从所述数据库中提取所述异常数据,并将所述异常数据发送至显示端。
71.第三方面,本技术提供了一种电子设备,所述电子设备包括:
72.存储器,用于存放计算机程序;
73.处理器,用于执行所述存储器上所存放的计算机程序时,实现上述的一种检测异常数据的方法步骤。
74.第四方面,本技术提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种检测异常数据的方法步骤。
75.上述第二方面至第四方面中的各个方面以及各个方面可能达到的技术效果请参照上述针对第一方面或第一方面中的各种可能方案可以达到的技术效果说明,这里不再重复赘述。
附图说明
76.图1为本技术提供的一种检测异常数据的方法的第一示意图;
77.图2为本技术提供的一种检测异常数据的方法的流程图;
78.图3为本技术提供的一种特征分类模型的训练方法的流程图;
79.图4为本技术提供的一种采用主动学习的策略训练特征分类模型的第一示意图;
80.图5为本技术提供的一种特征分类模型的训练过程的示意图;
81.图6为本技术提供的一种主动学习策略的示意图;
82.图7为本技术提供的一种采用主动学习的策略训练特征分类模型的第二示意图;
83.图8为本技术提供的一种安全检测模型的训练方法的流程图;
84.图9为本技术提供的一种训练安全检测模型的示意图;
85.图10为本技术提供的一种安全报告可视化的示意图;
86.图11为本技术提供的一种检测异常数据的方法的第二示意图;
87.图12为本技术提供的一种传输交集数据的装置的示意图;
88.图13为本技术提供的一种电子设备的结构的示意图。
具体实施方式
89.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述。方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。
90.在本技术的描述中“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。a与b连接,可以表示:a与b直接连接和a与b通过c连接这两种情况。另外,在本技术的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
91.本技术实施例提供了一种检测异常数据的方法、装置及电子设备,解决现有技术在检测大量流量数据时检测效率低的问题。
92.值得说明的是,本技术实施例提供的技术方案可以适用于5gc的安全检测。
93.如图1所示,根据本技术实施例提供的方法,调用特征分类模型对待检测数据进行特征分类,得到待检测数据的第一特征,可选的,基于特征提取方式对待检测数据中的至少一部分进行特征提取,得到待检测数据中的至少一部分的第二特征,然后调用安全检测模型,对第一特征和/或第二特征进行检测,得到第一特征和/或第二特征各自对应的异常指数,再将待检测数据中具有大于预设阈值的异常指数的数据作为异常数据,基于该异常数据得到检测结果。通过上述方法,可以实现对5gc大流量数据的实时自动检测,有效提高检测效率。
94.详细来说,上述第一特征和/或第二特征各自对应的异常指数可以包括:第一特征对应的异常指数、第二特征对应的特征指数、第一特征和第二特征经融合后对应的异常指数;上述预设阈值可以是根据实际情况设定的值,上述预设阈值也可以是基于安全检测模型的训练过程得到的值。
95.进一步,本技术实施例包含的技术特征可以任意结合使用,本领域技术人员应当
明白,从实际应用情况出发,经本技术实施例中技术特征进行合理结合得到的技术方案,同样可以解决相同的技术问题或达到相同的技术效果。
96.下面结合附图对本技术实施例所提供的方法作出进一步详细说明。
97.参阅图2所示,本技术实施例提供了一种检测异常数据的方法,具体流程如下:
98.步骤201:调用特征分类模型对待检测数据进行特征分类,得到所述待检测数据的第一特征;
99.在本技术实施例中,特征分类模型将用于预测待检测数据的第一特征,基于此,特征分类模型的特征分类准确度,将直接影响最终得到的第一特征的准确度。为了提高特征分类模型的特征分类准确度,在这里提出一种特征分类模型的训练方法,下面结合附图作进一步详细说明。
100.如图3所示,为一种特征分类模型的训练方法,具体流程如下:
101.步骤301:基于当前的特征分类模型对训练数据进行特征分类,得到特征分类结果的第一指标和第二指标;
102.其中,第一指标为特征分类结果的不准确概率,第二指标为特征分类结果的准确概率。
103.步骤302:判断所述第一指标是否处于至少一个预设区间内;
104.在本技术实施例中,若否,则执行步骤303;若是,则执行步骤304。
105.步骤303:获取所述第一指标对应的训练数据的分析结果,并基于所述分析结果以及所述训练数据,对所述当前的特征分类模型进行更新;
106.步骤304:获取所述第二指标对应的训练数据作为候选训练数据;
107.其中,候选训练数据对应至少一个预设区间,预设区间可以根据实际应用情况来设定。
108.步骤305:直到所述当前的特征分类模型的评价指标满足预设评价指标要求,基于所述候选训练数据更新所述当前的特征分类模型,得到最终的特征分类模型。
109.基于上述方法训练出的特征分类模型,能够有助于提高提取出第一特征的效率以及准确度。
110.在一些可能的实施方式中,可以采用主动学习的策略训练特征分类模型,具体参见图4所示。
111.在图4中,首先从待检测数据中选取部分待检测数据,然后基于标注方式对部分待检测数据进行标注,该标注方式可以是一些人工的标注方式,也可以是一些基于标注软件的标注方式,并将标注的待检测数据作为样本数据保存在样本数据库中。然后,从样本数据库提取至少一部分样本数据作特征分类模型的模型训练,在训练完成后,得到特征分类模型的预测结果。通过比对预测结果和样本数据的标注信息,可以得到预测不准确的第一指标、以及预测准确的第二指标,若第一指标没有落入预设区间内,则认为当前预测结果不满足训练要求,将预测错误的样本数据作为查询数据发送至外部数据分析资源,然后从外部数据分析资源接收该查询数据的分析结果,并将分析结果加入样本数据库中,再基于分析结果以及样本数据库的其他样本数据重复执行模型训练的过程。直到第一指标落入预设区间内,并且当前特征分类模型的评价指标满足预设评价指标要求,那么认为当前的预测结果满足训练要求,完成模型训练,得到最终的特征分类模型。
112.进一步的,在得到最终的特征分类模型后,将待检测数据输入特征分类模型进行特征分类,可以得到待检测数据的第一特征。
113.值得说明的是,为了进一步提高最终的特征分类模型的特征分类准确度,上述预设区间还可以设置为多个,下面以设置3个预设区间为例,具体参见图5所示。
114.在图5中,样本数据库中的样本数据为经过标注的数据,基于样本数据库进行模型训练,得到训练结果的第一指标,该第一指标为预测错误的概率,如果第一指标不在任一预设区间内,则采用主动学习的策略重新训练模型,如果第一指标在预设区间内,则输出预测正确的数据作为候选数据集。
115.具体来说,预设区间可以根据实际情况设定,在这里,设置第一预设区间为第二预设区间为第三预设区间为其中,c为标注的数据,a、b、c、d、e、f为0到1之间的常数,a、b、c、d、e、f的初始值为工程经验参数。
116.在图5中,如果第一指标在第一预设区间内,那么输出候选数据集u1;如果第一指标在第二预设区间内,那么输出候选数据集u2;如果第一指标在第三预设区间内,那么输出候选数据集u3。在得到候选数据集u1、u2、u3后,对u1、u2、u3进行加权融合,得到最终的候选数据集:au1+bu2+cu3。然后,基于最终的候选数据集au1+bu2+cu来训练模型,进而得到最终的特征分类模型。
117.综上所述,在特征分类模型的模型训练过程中,只要当前的预测结果不满足训练要求,那么便获取预测错误的样本数据的分析结果,然后基于分析结果以及原本的样本数据再进行模型训练,即不断优化样本数据的标注信息。通过这种主动学习策略,可以基于少量样本数据训练出较为准确的特征分类模型。在实际应用中,该策略能够适用于少样本数据训练特征分类模型的场景,不仅节约标注待检测数据生成样本数据的时间,而且提高最终训练出的特征分类模型的特征分类准确度。
118.可选的,上述特征分类模型具体可以是一种som(self-organizing maps,自组织映射)神经网络模型,上述特征分类模型的训练过程可以理解为采用主动学习策略对som神经网络模型的训练过程。
119.如图6所示,对原始数据集w中的部分样本数据进行人工标注,得到标注数据集t,然后基于标注数据集t训练模型,训练得到som神经网络模型,再通过对som神经网络模型进行训练聚合,得到训练的数据集w-t,对训练的数据集w-t作样本选择,从外部数据分析资源获取选择样本的分析结果,再将分析结果加入标注数据集t,然后,基于添加信息的标注数据集t再次训练som神经网络模型。
120.下面以som神经网络模型为例,对上述特征分类模型的训练过程作如下的示例性说明,具体参见图7所示。
121.在图7中,标注原始数据集w中的至少一部分数据为标注样本t,调用当前的som神经网络模型对标注样本t进行特征分类,得到预测不准确的第一指标,并判断第一指标是否落入预设区间内,例如,若第一指标落入(1/c-a,1/c-b),则som(1/c-a,1/c-b)的判定结果为是,输出预测准确的标注样本a。基于相同的思想,得到标注样本a、标注样本b和标注样本
c,然后判断当前的som神经网络模型是否满足评价指标要求,该评价指标要求基于实际情况确定,评价指标可以是精准度、召回率、精确度等。
122.进一步的,若判断不满足评价指标要求,则调用当前的som神经网络模型对标注样本a、标注样本b或标注样本c进行特征分类,直到判断满足评价指标要求,输出每一次都预测准确的输出样本u1、输出样本u2和输出样本u3。然后,输出样本u1、u2和u3进行加权融合,得到au1+bu2+cu3,再调用当前的som神经网络模型对进行特征分类,得到预测不准确的第一指标,并判断第一指标是否落入任一预设区间内,例如,若第一指标落入(1/c-a,1/c-b)、[(1/c-a,1/c)u(1/c-b,1/d)]或[(0,1/e)u(1/f,1)]内,则som((1/c-a,1/c-b),[(1/c-a,1/c)u(1/c-b,1/d)],[(0,1/e)u(1/f,1)])的判定结果为是,输出预测准确的标注样本d。然后判断当前的som神经网络模型是否满足评价指标要求:若否,则调用当前的som神经网络模型对标注样本d进行特征分类,直到判断满足评价指标要求,输出每一次都预测准确的输出样本u,该输出样本u包括样本数据的特征分类结果。至此,完成模型训练的过程,并将当前的som神经网络模型作为最终的特征分类模型。
[0123]
基于本技术实施例提供的一种第一指标的主动学习策略,再结合som神经网络模型进行模型训练,得到最终的特征分类模型,该特征分类模型能够预测出更为准确的特征信息。
[0124]
综上所述,通过上述方法训练得到特征分类模型,然后调用特征分类模型对待检测数据进行特征分类,得到待检测数据的第一特征,能够有效提高得到第一特征的效率,提高第一特征的准确率。
[0125]
步骤202:基于特征提取方式对所述待检测数据中的至少一部分进行特征提取,得到所述待检测数据中的至少一部分的第二特征;
[0126]
为了提高在实际应用场景中提取特征的效率,本技术实施例还可以在使用特征分类模型的基础上,采用人工的特征提取方式来对一些特殊的特征进行提取。
[0127]
举例来说,在5gc的应用场景中,将涉及一些5g的相关信息,如5g协议信息、5g领域信息等。以5g领域信息为例,5g领域涉及工业领域、车辆网与自动驾驶、能源领域、教育领域、医疗领域、文旅领域、智慧城市领域、信息消费领域、金融领域等。这些5g领域信息不一定是结构化的信息,且5g领域信息的更新迭代较快,虽然特征分类模型也可以识别出这些5g领域信息,但发明人在当前实际应用中发现,若在使用特征分类模型的基础上,再结合人工提取的方式,还可以进一步加快提取特征的效率。
[0128]
因此,通过上述特征提取方式提取待检测数据中的至少一部分的第二特征,可以进一步提高提取特征的效率。
[0129]
步骤203:调用安全检测模型,对所述第一特征和/或所述第二特征进行检测,得到所述第一特征和/或所述第二特征各自对应的异常指数;
[0130]
在本技术实施例中,安全检测模型将用于检测待检测数据中的异常数据,具体的,安全检测模型主要是预测待检测数据的第一特征和/或第二特征各自对应的异常指数,然后基于异常指数来检测异常数据。
[0131]
可选的,还可以构建标准的规则模板,对上述异常数据作进一步的检索匹配,得到最终的异常数据,以此来提高检测的准确度。
[0132]
进一步的,为了提高检测异常数据的准确性,在本技术实施例中,还提出一种安全
检测模型的训练方法,下面结合附图作进一步详细说明。
[0133]
如图8所示,为一种安全检测模型的训练方法,具体流程如下:
[0134]
步骤801:获取训练数据的多维特征;
[0135]
在本技术实施例中,若应用于5gc领域,则训练数据可以包括5gc的原始数据以及标注数据,该多维特征可以包括原始数据的时序特征、流量特征、关键字特征、5g协议特征、5g领域特征。
[0136]
步骤802:调用当前的安全检测模型,对所述多维特征进行加权融合,得到融合特征;
[0137]
步骤803:基于所述融合特征对所述当前的安全检测模型进行更新,得到最终的安全检测模型。
[0138]
基于上述方法训练出的安全检测模型,考虑到5g领域特征等的有效特征,并且该安全检测模型是基于融合有效特征的融合特征得到,因此通过上述方法训练出的安全检测模型能够有助于提高最终检测异常数据的准确性。
[0139]
更为详细的,上述安全检测模型的训练过程可以参见图9所示。
[0140]
在图9中,相关特征为通过特征提取方式提取到的特征,分类特征为基于特征分类模型预测出的特征。具体的,相关特征可以包括时序特征、流量特征、关键字特征、领域特征、协议特征。
[0141]
如图9所示,基于相关特征和分类特征进行模型训练,在模型训练的过程中,还将对时序特征、流量特征、关键字特征、领域特征、协议特征以及分类特征进行特征融合,然后基于融合的特征得到预测结果,再判断预测结果是否满足训练要求:若否,则迭代进行模型训练;若是,则得到最终的安全检测模型。
[0142]
在一些实施方式中,上述安全检测模型可以是条件随机场模型(conditional random field,crf)、blstm-crf模型(bidirectional long short term memory-conditional random field,序列标注-实体识别模型)、hmm(hidden markov model,隐马尔可夫模型)、memm(maximum entropy markov model,最大熵马尔可夫模型)、svm等。
[0143]
在一些实施方式中,还在模型训练的过程中引入earlystoping(早停法)策略,即每完成一次迭代训练,就计算当前的安全检测模型的模型评价指标,若连续迭代n次模型评判指标都没有明显增加,则结束模型训练过程。
[0144]
值得说明的是,模型评价指标可以包括准确率、召回率以及f1值,下面结合检测5gc日志的场景来简要阐述模型评价指标的应用场景。
[0145]
适用于准确率的场景包括:当确定所有的核心网日志为告警日志的时候,需要判断出对应的告警类型时,可使用准确率作为评判指标。
[0146]
适用于召回率的场景包括:当告警日志中伴随着流量日志即非告警日志的时候,此时需要尽可能多的去识别告警类型,处于网络安全的考虑,可使用召回率作为评判指标。
[0147]
适用于f1值的场景包括:f1值是综合考虑所有的情景,尽可能在提高识别准确率的情况下最大限度识别更多的告警,可应用于日常的流量监控判断。
[0148]
更为详细的,f1值可以基于准确率和召回率计算得到,具体参见如下公式所示。
[0149]
[0150]
如上公式所示,其中,p为准确率;recall为召回率。具体的,准确率和召回率可以基于如下公式计算得到。
[0151][0152][0153]
进一步的,判定连续迭代n次f1值都没有明显增加的依据为:f1值的增加粒度不超过预设阈值。其中,n可以根据实际工程经验设置,一般n设置为10;增加粒度表征本次迭代相比上次迭代的f1值之差;预设阈值可以根据实际工程经验设置,通常预设阈值设置为0.01%。
[0154]
在本技术实施例中,通过引入earlystoping策略,可以防止模型训练陷入过拟合状态。
[0155]
值得说明的是,本领域技术人员当知,earlystoping策略为本技术实施例所提供的一种可能的实施方式。上述训练过程还可以采用其他策略,例如,adam策略、rmsprop策略、batchnormalization策略、dropout策略等。
[0156]
综上所述,通过上述方法训练得到安全检测模型,然后调用安全检测模型对第一特征和/或第二特征进行检测,得到第一特征和/或第二特征各自对应的异常指数,能够有效提高异常指数的准确率。
[0157]
步骤204:将所述待检测数据中具有大于预设阈值的异常指数的数据作为异常数据。
[0158]
在本技术实施例中,异常指数可以用于表征第一特征和/或第二特征对应异常类别的概率,异常指数越高则表明其对应数据为异常类别的概率越高。在这里,将具有大于预设阈值的异常指数的数据作为异常数据。下面以单个特征为例,作如下具体说明。
[0159]
针对单个特征来说,若这个特征对应第一异常类别的概率为p1、对应第一异常类别的概率为p2、第一异常类别的概率为p3,则分别比较p1、p2、p3与预设阈值之间的大小。如果得到比较结果:p1和p2大于预设阈值,那么可以认为这个特征对应的数据为异常数据,并且该异常数据的异常类别为第一异常类别和第二异常类别。如果得到比较结果中没有大于预设阈值的概率,那么可以认为这个特征对应的数据为安全数据。
[0160]
在一些实施方式中,针对单个特征来说,若这个特征对应第一异常类别的概率为p1、对应第一异常类别的概率为p2、第一异常类别的概率为p3,p2>p1>p3,则选取p2,并比较p2与预设阈值之间的大小关系。如果p2大于预设阈值,那么可以认为这个特征对应的数据为异常数据,并且该异常数据的异常类别为第二异常类别。
[0161]
进一步的,在确定出异常数据以及异常数据的异常类别后,还可以基于异常数据以及异常数据的异常类别,生成待检测数据的安全报告。
[0162]
示例性的,安全报告可以包括如下内容:
[0163]
public static final int res_api_invalid_url=2url非法;
[0164]
public static final int res_api_invalid_url_param_type=6非法请求;
[0165]
其中,“public static final int res_api_invalid_url=2”、“public static final int res_api_invalid_url_param_type=6”为异常数据,“url非法”、“非法请求”为
异常类别。
[0166]
进一步的,还可以将安全报告保存在数据库中,并在接收到用于显示安全报告的显示指令后,从数据库中提取出安全报告,并将安全报告发送至显示端显示。
[0167]
如图10所示,在显示端,安全报告的可视化显示可以包括异常数据和异常类别。
[0168]
在一些实施方式中,响应于接收到用于显示异常数据的显示指令,从数据库中提取出异常数据,并将异常数据发送至显示端显示。
[0169]
综上所述,参阅图11所示,本技术实施例一方面采用主动学习策略来训练特征分类模型,可以适用于少样本数据训练特征分类模型的场景,不仅节约标注待检测数据生成样本数据的时间,而且提高最终训练出的特征分类模型的特征分类准确度;另一方面采用特征融合的方式训练安全检测模型,有助于提高安全检测模型检测异常数据的准确性。
[0170]
基于同一发明构思,本技术还提供了一种检测异常数据的装置,用以提高检测异常数据的效率,解决现有技术在检测大量流量数据时检测效率低的问题,参见图12,该装置包括:
[0171]
特征分类模块1201,调用特征分类模型对待检测数据进行特征分类,得到所述待检测数据的第一特征;和/或
[0172]
特征提取模块1202,基于特征提取方式对所述待检测数据中的至少一部分进行特征提取,得到所述待检测数据中的至少一部分的第二特征;
[0173]
安全检测模块1203,调用安全检测模型,对所述第一特征和/或所述第二特征进行检测,得到所述第一特征和/或所述第二特征各自对应的异常指数;
[0174]
确定异常数据模块1204,将所述待检测数据中具有大于预设阈值的异常指数的数据作为异常数据。
[0175]
在一种可能的设计中,所述特征分类模型基于如下操作得到,所述装置,还用于:
[0176]
基于当前的特征分类模型对训练数据进行特征分类,得到特征分类结果的第一指标和第二指标;其中,所述第一指标为所述特征分类结果的不准确概率,所述第二指标为所述特征分类结果的准确概率;
[0177]
判断所述第一指标是否处于至少一个预设区间内;
[0178]
若否,则获取所述第一指标对应的训练数据的分析结果,并基于所述分析结果以及所述训练数据,对所述当前的特征分类模型进行更新;
[0179]
若是,则获取所述第二指标对应的训练数据作为候选训练数据;其中,所述候选训练数据对应所述至少一个预设区间;
[0180]
直到所述当前的特征分类模型的评价指标满足预设评价指标要求,基于所述候选训练数据更新所述当前的特征分类模型,得到最终的特征分类模型。
[0181]
在一种可能的设计中,所述获取所述第一指标对应的训练数据的分析结果,所述装置,还用于:
[0182]
向外部数据分析资源发送所述第一指标对应的训练数据作为查询数据;
[0183]
从所述外部数据分析资源接收所述查询数据的分析结果。
[0184]
在一种可能的设计中,所述装置,还用于:
[0185]
直到所述当前的特征分类模型的评价指标满足预设评价指标要求,判断所述至少一个预设区间中的各个预设区间是否都对应有候选训练数据;
[0186]
若是,则对所述各个预设区间各自对应的候选训练数据进行加权融合,得到融合训练数据;
[0187]
基于所述融合训练数据,对所述当前的特征分类模型进行更新,得到最终的特征分类模型。
[0188]
在一种可能的设计中,所述直到所述当前的特征分类模型的评价指标满足预设评价指标要求,基于所述候选训练数据更新所述当前的特征分类模型,得到最终的特征分类模型,所述装置,还用于:
[0189]
获取训练数据的多维特征;其中,所述多维特征包括时序特征、流量特征、关键字特征、5g协议特征、5g领域特征;
[0190]
调用当前的安全检测模型,对所述多维特征进行加权融合,得到融合特征;
[0191]
基于所述融合特征对所述当前的安全检测模型进行更新,得到最终的安全检测模型。
[0192]
在一种可能的设计中,在所述将所述待检测数据中具有大于预设阈值的异常指数的数据作为异常数据之后,所述确定异常数据模块1204,还用于:
[0193]
基于所述第一特征和/或所述第二特征各自对应的异常指数所属的异常类别,确定所述异常数据的异常类别;
[0194]
基于所述异常数据以及所述异常数据的异常类别,生成所述待检测数据的安全报告。
[0195]
在一种可能的设计中,在所述将所述待检测数据中具有大于预设阈值的异常指数的数据作为异常数据之后,所述确定异常数据模块1204,还用于:
[0196]
将所述异常数据保存在数据库中;
[0197]
响应于接收到用于显示所述异常数据的显示指令,从所述数据库中提取所述异常数据,并将所述异常数据发送至显示端。
[0198]
基于上述装置,一方面采用主动学习策略来训练特征分类模型,可以适用于少样本数据训练特征分类模型的场景,不仅节约标注待检测数据生成样本数据的时间,而且提高最终训练出的特征分类模型的特征分类准确度;另一方面采用特征融合的方式训练安全检测模型,有助于提高安全检测模型检测异常数据的准确性。
[0199]
基于同一发明构思,本技术实施例中还提供了一种电子设备,所述电子设备可以实现前述一种检测异常数据的装置的功能,参考图13,所述电子设备包括:
[0200]
至少一个处理器1301,以及与至少一个处理器1301连接的存储器1302,本技术实施例中不限定处理器1301与存储器1302之间的具体连接介质,图13中是以处理器1301和存储器1302之间通过总线1300连接为例。总线1300在图13中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1300可以分为地址总线、数据总线、控制总线等,为便于表示,图13中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。或者,处理器1301也可以称为控制器,对于名称不做限制。
[0201]
在本技术实施例中,存储器1302存储有可被至少一个处理器1301执行的指令,至少一个处理器1301通过执行存储器1302存储的指令,可以执行前文论述的检测异常数据方法。处理器1301可以实现图12所示的装置中各个模块的功能。
[0202]
其中,处理器1301是该装置/系统的控制中心,可以利用各种接口和线路连接整个
该控制设备的各个部分,通过运行或执行存储在存储器1302内的指令以及调用存储在存储器1302内的数据,该装置/系统的各种功能和处理数据,从而对该装置/系统进行整体监控。
[0203]
在一种可能的设计中,处理器1301可包括一个或多个处理单元,处理器1301可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1301中。在一些实施例中,处理器1301和存储器1302可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
[0204]
处理器1301可以是通用处理器,例如中央处理器(cpu)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的检测异常数据方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0205]
存储器1302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1302可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory,ram)、静态随机访问存储器(static random access memory,sram)、可编程只读存储器(programmable read only memory,prom)、只读存储器(read only memory,rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁性存储器、磁盘、光盘等等。存储器1302是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本技术实施例中的存储器1302还可以是电路或者其它任意能够实现存储功能的装置/系统,用于存储程序指令和/或数据。
[0206]
通过对处理器1301进行设计编程,可以将前述实施例中介绍的检测异常数据方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行图2所示的实施例的检测异常数据方法的步骤。如何对处理器1301进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
[0207]
基于同一发明构思,本技术实施例还提供一种存储介质,该存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行前文论述检测异常数据方法。
[0208]
在一些可能的实施方式中,本技术提供的检测异常数据方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在装置上运行时,程序代码用于使该控制设备执行本说明书上述描述的根据本技术各种示例性实施方式的检测异常数据方法中的步骤。
[0209]
本领域内的技术人员应明白,本技术的实施例可提供为方法、装置/系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0210]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程
图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0211]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0212]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0213]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
技术特征:1.一种检测异常数据的方法,其特征在于,所述方法包括:调用特征分类模型对待检测数据进行特征分类,得到所述待检测数据的第一特征;和/或基于特征提取方式对所述待检测数据中的至少一部分进行特征提取,得到所述待检测数据中的至少一部分的第二特征;调用安全检测模型,对所述第一特征和/或所述第二特征进行检测,得到所述第一特征和/或所述第二特征各自对应的异常指数;将所述待检测数据中具有大于预设阈值的异常指数的数据作为异常数据。2.如权利要求1所述的方法,其特征在于,所述特征分类模型基于如下操作得到:基于当前的特征分类模型对训练数据进行特征分类,得到特征分类结果的第一指标和第二指标;其中,所述第一指标为所述特征分类结果的不准确概率,所述第二指标为所述特征分类结果的准确概率;判断所述第一指标是否处于至少一个预设区间内;若否,则获取所述第一指标对应的训练数据的分析结果,并基于所述分析结果以及所述训练数据,对所述当前的特征分类模型进行更新;若是,则获取所述第二指标对应的训练数据作为候选训练数据;其中,所述候选训练数据对应所述至少一个预设区间;直到所述当前的特征分类模型的评价指标满足预设评价指标要求,基于所述候选训练数据更新所述当前的特征分类模型,得到最终的特征分类模型。3.如权利要求2所述的方法,其特征在于,所述获取所述第一指标对应的训练数据的分析结果,包括:向外部数据分析资源发送所述第一指标对应的训练数据作为查询数据;从所述外部数据分析资源接收所述查询数据的分析结果。4.如权利要求2所述的方法,其特征在于,所述直到所述当前的特征分类模型的评价指标满足预设评价指标要求,基于所述候选训练数据更新所述当前的特征分类模型,得到最终的特征分类模型,包括:直到所述当前的特征分类模型的评价指标满足预设评价指标要求,判断所述至少一个预设区间中的各个预设区间是否都对应有候选训练数据;若是,则对所述各个预设区间各自对应的候选训练数据进行加权融合,得到融合训练数据;基于所述融合训练数据,对所述当前的特征分类模型进行更新,得到最终的特征分类模型。5.如权利要求1-4任一项所述的方法,其特征在于,所述安全检测模型基于如下操作得到:获取训练数据的多维特征;其中,所述多维特征包括时序特征、流量特征、关键字特征、5g协议特征、5g领域特征;调用当前的安全检测模型,对所述多维特征进行加权融合,得到融合特征;基于所述融合特征对所述当前的安全检测模型进行更新,得到最终的安全检测模型。6.如权利要求1所述的方法,其特征在于,在所述将所述待检测数据中具有大于预设阈
值的异常指数的数据作为异常数据之后,还包括:基于所述第一特征和/或所述第二特征各自对应的异常指数所属的异常类别,确定所述异常数据的异常类别;基于所述异常数据以及所述异常数据的异常类别,生成所述待检测数据的安全报告。7.如权利要求1所述的方法,其特征在于,在所述将所述待检测数据中具有大于预设阈值的异常指数的数据作为异常数据之后,还包括:将所述异常数据保存在数据库中;响应于接收到用于显示所述异常数据的显示指令,从所述数据库中提取所述异常数据,并将所述异常数据发送至显示端。8.一种检测异常数据的装置,其特征在于,所述装置包括:特征分类模块,调用特征分类模型对待检测数据进行特征分类,得到所述待检测数据的第一特征;和/或特征提取模块,基于特征提取方式对所述待检测数据中的至少一部分进行特征提取,得到所述待检测数据中的至少一部分的第二特征;安全检测模块,调用安全检测模型,对所述第一特征和/或所述第二特征进行检测,得到所述第一特征和/或所述第二特征各自对应的异常指数;确定异常数据模块,将所述待检测数据中具有大于预设阈值的异常指数的数据作为异常数据。9.一种电子设备,其特征在于,包括:存储器,用于存放计算机程序;处理器,用于执行所述存储器上所存放的计算机程序时,实现权利要求1-7中任一项所述的方法步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法步骤。
技术总结本申请涉及一种检测异常数据的方法、装置及电子设备,用于解决现有技术在检测大量流量数据时检测效率低的问题。该方法包括,调用特征分类模型对待检测数据进行特征分类,得到待检测数据的第一特征,可选的,基于特征提取方式对待检测数据中的至少一部分进行特征提取,得到待检测数据中的至少一部分的第二特征,然后调用安全检测模型,对第一特征和/或第二特征进行检测,得到第一特征和/或第二特征各自对应的异常指数,再将待检测数据中具有大于预设阈值的异常指数的数据作为异常数据,基于该异常数据得到检测结果。通过上述方法,可以对大流量数据进行实时的自动检测,有效提高检测效率。效率。效率。
技术研发人员:陈毅 熊晨宇 胡晓楠 刘燕 潘登 黄俊
受保护的技术使用者:北京神州绿盟科技有限公司
技术研发日:2022.07.25
技术公布日:2022/11/1