一种异常检测方法、装置及存储介质与流程

专利2023-02-23  120



1.本公开涉及大数据处理技术领域,提供了一种异常检测方法、装置及存储介质。


背景技术:

2.在实际生产环境中,很多监控指标存在着不平衡的数据特性,例如,服务器的监控指标,因为服务器在运行过程中正常情况通常是多于故障情况的,所以正常类的监控指标是远远多于异常类的监控指标的,这就是数据不平衡的现象。
3.目前,面对不平衡数据集时,常用的做法是采用重采样技术,例如,利用随机欠采样技术对多数类样本进行随机删减,以达到数据平衡的效果。该方法简单,速度快,但存在一个问题:该方法由于其随机性可能会把包含有价值信息的样本删减掉,而把噪声样本保留了下来,这样虽然能达到平衡数据的效果,但对后续算法的训练也是非常不利的。


技术实现要素:

4.本公开实施例提供一种异常检测方法、装置及存储介质,用以提升对异常数据的检测效果。
5.本公开提供的具体技术方案如下:
6.第一方面,本公开实施例提供了一种异常检测方法,包括:
7.将待检测数据集中的各个待检测数据输入到目标集成分类器中,其中,待检测数据集为不平衡数据集,目标集成分类器包括多个目标基分类器;
8.针对每个待检测数据执行以下操作:运用对应的目标基分类器对待检测数据进行检测,并得到检测结果;
9.基于各个检测结果,确定待检测数据集对应的设备的异常情况;
10.其中,目标集成分类器通过以下方式训练得到:
11.将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,其中,原始训练样本集包括多数类样本子集和少数类样本子集,且,多数类样本子集中的第一样本数量与少数类样本子集中的第二样本数量之间的数量差值大于预设阈值;
12.运用支持向量机从目标多数类样本子集中确定出目标支持向量;
13.对目标支持向量进行bootstrap采样,并基于采样结果和少数类样本子集确定目标训练样本集;
14.运用目标训练样本集对各个基分类器进行训练,得到多个目标基分类器,基于各个目标基分类器得到目标集成分类器。
15.可选地,将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,包括:
16.基于原始训练样本集中的多数类样本子集中的各个样本,确定多数类样本子集对应的中心点;
17.分别确定各个样本对应的样本点到中心点的欧氏距离;
18.基于各个欧氏距离计算平均距离值,并确定与平均距离值之间的差值最小的欧氏距离,以及将差值最小的欧氏距离作为分界距离;
19.基于各个欧氏距离与分界距离之间的差值,将多数类样本子集中的各个样本进行二分类,得到目标多数类样本子集,其中,目标多数类样本子集的个数为至少两个。
20.可选地,运用支持向量机从目标多数类样本子集中确定出目标支持向量,包括:
21.将目标多数类样本子集输入到支持向量机中,得到目标函数;
22.运用序列最小优化算法对目标函数进行求解,得到携带不同有用信息含量的参数值;
23.运用支持向量机将有用信息含量超过预设阈值的参数值对应的样本确定为目标支持向量。
24.可选地,对目标支持向量进行bootstrap采样,并基于采样结果和少数类样本子集确定目标训练样本集,包括:
25.对目标支持向量进行bootstrap采样,得到包括多个目标样本的采样结果;
26.在每一个预选子训练集中均放入少数类样本子集对应的各个样本,得到多个目标子训练集,并将多个目标子训练集确定为目标训练样本集,其中,多个预选子训练集是将多个目标样本进行分组后得到的。
27.可选地,运用目标训练样本集对各个基分类器进行训练,得到多个目标基分类器,基于各个目标基分类器得到目标集成分类器,包括:
28.分别运用目标训练样本集中每一个目标子训练集对相应的基分类器进行训练,得到多个目标基分类器;
29.将各个目标基分类器进行加权集成,得到目标集成分类器。
30.可选地,基于各个检测结果,确定待检测数据集对应的设备的异常情况,包括:
31.将各个检测结果进行加权求和,得到目标检测结果;
32.基于预设的检测结果与异常情况的对应关系,确定与目标检测结果对应的目标异常情况,将目标异常情况确定为待检测数据集对应的设备的异常情况。
33.可选地,第一样本数量与第二样本数量之间的比值大于或者等于3。
34.第二方面,本公开实施例还提供了一种异常检测装置,包括:
35.输入单元,用于将待检测数据集中的各个待检测数据输入到目标集成分类器中,其中,待检测数据集为不平衡数据集,目标集成分类器包括多个目标基分类器;
36.检测单元,用于针对每个待检测数据执行以下操作:运用对应的目标基分类器对待检测数据进行检测,并得到检测结果;
37.确定单元,用于基于各个检测结果,确定待检测数据集对应的设备的异常情况;
38.其中,目标集成分类器通过以下方式训练得到:
39.将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,其中,原始训练样本集包括多数类样本子集和少数类样本子集,且,多数类样本子集中的第一样本数量与少数类样本子集中的第二样本数量之间的数量差值大于预设阈值;
40.运用支持向量机从目标多数类样本子集中确定出目标支持向量;
41.对目标支持向量进行bootstrap采样,并基于采样结果和少数类样本子集确定目标训练样本集;
42.运用目标训练样本集对各个基分类器进行训练,得到多个目标基分类器,基于各个目标基分类器得到目标集成分类器。
43.可选地,将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,包括:
44.基于原始训练样本集中的多数类样本子集中的各个样本,确定多数类样本子集对应的中心点;
45.分别确定各个样本对应的样本点到中心点的欧氏距离;
46.基于各个欧氏距离计算平均距离值,并确定与平均距离值之间的差值最小的欧氏距离,以及将差值最小的欧氏距离作为分界距离;
47.基于各个欧氏距离与分界距离之间的差值,将多数类样本子集中的各个样本进行二分类,得到目标多数类样本子集,其中,目标多数类样本子集的个数为至少两个。
48.可选地,运用支持向量机从目标多数类样本子集中确定出目标支持向量,包括:
49.将目标多数类样本子集输入到支持向量机中,得到目标函数;
50.运用序列最小优化算法对目标函数进行求解,得到携带不同有用信息含量的参数值;
51.运用支持向量机将有用信息含量超过预设阈值的参数值对应的样本确定为目标支持向量。
52.可选地,对目标支持向量进行bootstrap采样,并基于采样结果和少数类样本子集确定目标训练样本集,包括:
53.对目标支持向量进行bootstrap采样,得到包括多个目标样本的采样结果;
54.在每一个预选子训练集中均放入少数类样本子集对应的各个样本,得到多个目标子训练集,并将多个目标子训练集确定为目标训练样本集,其中,多个预选子训练集是将多个目标样本进行分组后得到的。
55.可选地,运用目标训练样本集对各个基分类器进行训练,得到多个目标基分类器,基于各个目标基分类器得到目标集成分类器,包括:
56.分别运用目标训练样本集中每一个目标子训练集对相应的基分类器进行训练,得到多个目标基分类器;
57.将各个目标基分类器进行加权集成,得到目标集成分类器。
58.可选地,基于各个检测结果,确定待检测数据集对应的设备的异常情况,包括:
59.将各个检测结果进行加权求和,得到目标检测结果;
60.基于预设的检测结果与异常情况的对应关系,确定与目标检测结果对应的目标异常情况,将目标异常情况确定为待检测数据集对应的设备的异常情况。
61.可选地,第一样本数量与第二样本数量之间的比值大于或者等于3。
62.第三方面,一种智能终端,包括:
63.存储器,用于存储可执行指令;
64.处理器,用于读取并执行存储器中存储的可执行指令,以实现如第一方面任一项的方法。
65.第四方面,一种计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行上述第一方面任一项所述的方法。
66.本公开有益效果如下:
67.综上所述,本公开实施例中提供了一种异常检测方法、装置及存储介质,该方法包括:将待检测数据集中的各个待检测数据输入到目标集成分类器中,其中,待检测数据集为不平衡数据集,目标集成分类器包括多个目标基分类器,针对每个待检测数据执行以下操作:运用对应的目标基分类器对待检测数据进行检测,并得到检测结果,基于各个检测结果,确定待检测数据集对应的设备的异常情况,上述目标集成分类器通过以下方式训练得到:将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,其中,原始训练样本集包括多数类样本子集和少数类样本子集,并且,多数类样本子集中的第一样本数量与少数类样本子集中的第二样本数量之间的数量差值大于预设阈值,运用支持向量机从目标多数类样本子集中确定出目标支持向量,对目标支持向量进行bootstrap采样,并基于采样结果和少数类样本子集确定目标训练样本集,运用目标训练样本集对各个基分类器进行训练,得到多个目标基分类器,基于各个目标基分类器得到目标集成分类器,上述方法既删减了多数类样本子集中的多数类,达到数据平衡的效果,又利用目标支持向量尽可能的保留了多数类样本子集中的有用的分类信息,进而达到了良好的异常检测效果。
68.本公开的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
69.此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
70.图1为本公开实施例中的对异常进行检测的系统架构示意图;
71.图2为本公开实施例中通过训练确定目标集成分类器的流程示意图;
72.图3为本公开实施例中基于欧氏距离得到目标多数类样本子集的流程示意图;
73.图4为本公开实施例中运用支持向量机从目标多数类样本子集中确定出目标支持向量的流程示意图;
74.图5为本公开实施例中对多数类样本子集进行处理的示意图;
75.图6为本公开实施例中确定目标训练样本集的流程示意图;
76.图7为本公开实施例中确定目标集成分类器的流程示意图;
77.图8为现有技术中构造集成分类器的示意图;
78.图9为本公开实施例中构造目标集成分类器的示意图;
79.图10为本公开实施例中一种异常检测方法的流程示意图;
80.图11为本公开实施例中确定待检测数据集对应的设备的异常情况的流程示意图;
81.图12为本公开实施例中一种异常检测装置的逻辑架构示意图;
82.图13为本公开实施例中智能终端的实体架构示意图。
具体实施方式
83.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开技术方案的一部分实施例,而不是全部的实施例。基于本公开文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开技术方案保护的范围。
84.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够使用除了在这里图示或描述的那些以外的顺序实施。
85.下面结合附图对本公开优选的实施方式进行详细说明。
86.参阅图1所示,本公开实施例中,系统中包含了至少一个智能终端,将为不平衡数据集的待检测数据集输入到训练好的目标集成分类器中进行检测,以确定待检测数据集对应的设备的异常情况,下面进行具体介绍。
87.首先,介绍下目标集成分类器的训练过程,参阅图2所示,本公开实施例中,目标集成分类器通过以下方式训练得到:
88.步骤101:将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,其中,原始训练样本集包括多数类样本子集和少数类样本子集,且,多数类样本子集中的第一样本数量与少数类样本子集中的第二样本数量之间的数量差值大于预设阈值。
89.由于,原始训练样本集中包括的样本的数量很多,并且,上述原始训练样本集包括多数类样本子集(例如,表征服务器正常运行的监控指标)和少数类样本子集(例如,表征服务器异常运行的监控指标)。通常,多数类样本子集中的第一样本数量会远远大于少数类样本子集中的第二样本数量,例如,表征服务器正常运行的监控指标会远远多于表征服务器异常运行的监控指标。通常,第一样本数量与第二样本数量之间的比值大于或者等于3。
90.本技术实施例中,多数类样本子集中的第一样本数量与少数类样本子集中的第二样本数量之间的数量差值大于预设阈值,这里的预设阈值的具体数值可根据使用场景进行灵活设定。
91.基于此,在对目标集成分类器进行训练的过程中,对多数类样本子集进一步进行划分,即计算多数类样本子集中每个样本对应的欧氏距离,并基于欧氏距离将多数类样本子集进行二分类,得到目标多数类样本子集。具体的,参阅图3所示,包括:
92.步骤1011:基于原始训练样本集中的多数类样本子集中的各个样本,确定多数类样本子集对应的中心点。
93.具体实施过程中,假设,原始训练样本集中的多数类样本子集为xn∈rd,其中n为样本的总个数,d为样本属性的维度,通过公式(1)计算上述多数类样本子集对应的中心点o=(o1,o2,...,od)。
94.95.步骤1012:分别确定各个样本对应的样本点到中心点的欧氏距离。
96.具体实施过程中,通过公式(2)计算每个样本对应的样本点到中心点o的欧氏距离:
[0097][0098]
其中,d(xn,o)为第n个样本点到o点的欧氏距离,为其第i个属性。
[0099]
步骤1013:基于各个欧氏距离计算平均距离值,并确定与平均距离值之间的差值最小的欧氏距离,以及将差值最小的欧氏距离作为分界距离。
[0100]
实施过程中,由于不同样本点到中心点o的欧氏距离不同,在计算出每个样本对应的样本点到中心点o的欧氏距离之后,计算上述各个欧氏距离对应的平均距离值。
[0101]
将该平均距离值作为基准,查找与该基准相差最短的欧式距离,即确定与平均距离值之间的差值最小的欧氏距离,进一步的将差值最小的欧氏距离作为分界距离,即作为后续二分类过程的分类标准,并将该分界距离标识为d
median

[0102]
步骤1014:基于各个欧氏距离与分界距离之间的差值,将多数类样本子集中的各个样本进行二分类,得到目标多数类样本子集,其中,目标多数类样本子集的个数为至少两个。
[0103]
实施过程中,在确定了上述分界距离之后,分别计算各个样本对应的欧式距离与上述分界距离之间的差值,并通过该差值的正负情况将多数类样本子集中的各个样本进行二分类,即大于上述分界距离的样本归为一类,小于上述分界距离的样本归为另一类,从而得到目标多数类样本子集。
[0104]
具体的,根据上述分界距离d
me
dian,对多数类样本子集进行二分类,如公式(3)所示:
[0105][0106]
基于欧氏距离将多数类样本子集中的各个样本进行快速的二分类,为后面提取支持向量做好准备。
[0107]
步骤102:运用支持向量机从目标多数类样本子集中确定出目标支持向量。
[0108]
确定目标支持向量的过程,参阅图4所示,具体包括:
[0109]
步骤1021:将目标多数类样本子集输入到支持向量机中,得到目标函数。
[0110]
实施过程中,在将多数类样本子集中的各个样本进行二分类后,进一步将二分类后的多数类样本子集输入到支持向量机中,由支持向量机将上述多数类样本子集转化为目标函数。
[0111]
步骤1022:运用序列最小优化算法对目标函数进行求解,得到携带不同有用信息含量的参数值。
[0112]
实施过程中,在得到目标函数后,运用序列最小优化算法对目标函数进行求解,这样能够得到携带不同有用信息含量的参数值,即该求解后的参数值即表征多数类样本子集中对应样本中有用信息的多少。
[0113]
步骤1023:运用支持向量机将有用信息含量超过预设阈值的参数值对应的样本确
定为目标支持向量。
[0114]
为了进一步精简多数类样本子集,并在削减数量的同时保证更多有用的样本保留下来,实施过程中,确定有用信息含量超过预设阈值的参数值,并运用支持向量机将上述参数值对应的样本确定为目标支持向量,即筛选出有用信息含量较多的样本作为目标支持向量。需要补充说明的是,上述预设阈值可根据使用场景进行灵活设定。
[0115]
参阅图5所示,本技术实施例中对多数类样本子集进行的处理依次包括:基于欧氏距离将多数类样本子集进行二分类,得到多数类1和多数类2,上述多数类1和多数类2输入到支持向量机中进行处理,得到目标支持向量。
[0116]
步骤103:对目标支持向量进行bootstrap采样,并基于采样结果和少数类样本子集确定目标训练样本集。
[0117]
可见,现有技术中的目标训练样本集中不一定包括少数类样本子集中的样本。为此,本技术实施例中,对目标支持向量进行bootstrap采样,并基于采样结果和少数类样本子集确定目标训练样本集,参阅图6所示,具体包括:
[0118]
步骤1031:对目标支持向量进行bootstrap采样,得到包括多个目标样本的采样结果。
[0119]
实施过程中,在得到目标支持向量之后,进一步对目标支持向量进行bootstrap采样,得到包括多个目标样本的采样结果。即运用bootstrap采样的手段将目标支持向量分散成了采样结果,每个采样结果中都包括多个目标样本。
[0120]
步骤1032:在每一个预选子训练集中均放入少数类样本子集对应的各个样本,得到多个目标子训练集,并将多个目标子训练集确定为目标训练样本集,其中,多个预选子训练集是将多个目标样本进行分组后得到的。
[0121]
实施过程中,在得到多个目标样本的采样结果后,依据预设的分组数目或者基分类器的个数等将上述多个目标样本进行分组,进而得到多个预选子训练集,显然,上述预选子训练集中包括的是多数类样本子集中的部分样本。
[0122]
为了保证每个目标训练样本集中都包括少数类样本子集中的样本,本技术实施例中,在得到的每一个预选子训练集中均放入少数类样本子集对应的各个样本,得到多个目标子训练集,即目标训练样本集。
[0123]
步骤104:运用目标训练样本集对各个基分类器进行训练,得到多个目标基分类器,基于各个目标基分类器得到目标集成分类器。
[0124]
由于集成分类器中包括多个基分类器,在目标训练样本集和多个基分类器的基础上得到目标集成分类器的过程,参阅图7所示,包括:
[0125]
步骤1041:分别运用目标训练样本集中每一个目标子训练集对相应的基分类器进行训练,得到多个目标基分类器。
[0126]
考虑到每一个目标训练样本集中同时包括多数类样本子集中的样本和少数类样本子集中的样本,实施过程中,分别运用每一个目标子训练集对相应的基分类器进行训练,从而得到多个目标基分类器。
[0127]
步骤1042:将各个目标基分类器进行加权集成,得到目标集成分类器。
[0128]
在得到多个目标基分类器之后,将上述各个目标基分类器进行加权运算以及集成运算,从而得到训练好的目标集成分类器。
[0129]
为了对比出本技术实施例中目标集成分类器的优势,先介绍下现有技术中构造集成分类器的过程,参阅图8所示,现有技术中的训练样本集经过子抽样后分别得到子训练集1、子训练集2

子训练集t,并将上述得到的子训练集1、子训练集2

子训练集t分别输入到对应的基分类器中进行训练,待各个基分类器都训练好后,将所有的基分类器进行加权集成,得到集成分类器。由于,训练样本集进行子抽样的过程是随机的,因此,无法保证对基分类器进行训练的样本中一定包括有少数类样本(即表征异常的样本),这样构造出来的集成分类器就会不准确。
[0130]
而本公开实施例中构造目标集成分类器的过程,参阅图9所示,将原始训练样本集中的多数类样本子集进行bootstrap采样后,得到了删减数量后的多组多数类样本,并将少数类样本子集都加入到上述各组多数类样本中,分别得到目标训练样本集1、目标训练样本集2

目标训练样本集n,并进一步将上述得到的目标训练样本集1、目标训练样本集2

目标训练样本集n分别输入到对应的基分类器中进行训练,待各个基分类器都训练好后得到对应的目标基分类器1、目标基分类器2

目标基分类器n,将所有的目标基分类器进行加权集成,得到目标集成分类器。可见,对基分类器进行训练的样本中一定包括有少数类样本(即表征异常的样本),这样构造出来的集成分类器比较准确。
[0131]
在训练好目标集成分类器后,即可运用该目标集成分类器对待检测数据集中的各个待检测数据进行检测。具体的,本公开实施例中一种异常检测方法的具体流程,参阅图10所示,包括:
[0132]
步骤201:将待检测数据集中的各个待检测数据输入到目标集成分类器中,其中,待检测数据集为不平衡数据集,目标集成分类器包括多个目标基分类器。
[0133]
实施过程中,在得到被检测设备的待检测数据后,可采用两种方式进行处理:方式一,每得到一个待检测数据后即可将其输入到目标集成分类器中进行检测;方式二,每得到一个待检测数据后即可将其汇总到待检测数据集中,待设备运行完毕获得所有的待检测数据后再将其分别输入到目标集成分类器中进行检测。
[0134]
需要进行说明的是,上述待检测数据集为不平衡数据集,即待检测数据集包括的多数类样本子集的样本数量较大。上述目标集成分类器包括多个目标基分类器,即目标集成分类器是由多个目标基分类器加权集成而确定出来的。
[0135]
步骤202:针对每个待检测数据执行以下操作:运用对应的目标基分类器对待检测数据进行检测,并得到检测结果。
[0136]
在每个待检测数据输入到目标集成分类器中后,每个待检测数据会被进一步输入到对应的目标基分类器中,该目标基分类器对待检测数据进行检测,并得到对应的检测结果,各个待检测数据通过对应的目标基分类器的检测后就得到多个检测结果。
[0137]
步骤203:基于各个检测结果,确定待检测数据集对应的设备的异常情况。
[0138]
实施过程中,在得到多个检测结果后,将上述各个检测结果也进行相应的加权集成,进而根据运算结果确定待检测数据集对应的设备的异常情况。
[0139]
具体的,基于各个检测结果,确定待检测数据集对应的设备的异常情况,参阅图11所示,包括:
[0140]
步骤2031:将各个检测结果进行加权求和,得到目标检测结果。
[0141]
由于,目标集成分类器是由多个目标基分类器加权集成而确定出来的,相应的,实
施过程中,在得到各个检测结果后,将各个检测结果进行加权求和,即可得到目标检测结果。
[0142]
步骤2032:基于预设的检测结果与异常情况的对应关系,确定与目标检测结果对应的目标异常情况,将目标异常情况确定为待检测数据集对应的设备的异常情况。
[0143]
需要进行说明的是,在检测过程中会根据历史数据预先设置检测结果与异常情况的对应关系,因此,实施过程中,在得到目标检测结果后,通过上述对应关系确定出与目标检测结果对应的目标异常情况,上述确定出的目标异常情况即表征了待检测数据集对应的设备的异常情况。
[0144]
基于同一发明构思,参阅图12所示,本公开实施例中提供一种异常检测装置,包括:
[0145]
输入单元1201,用于将待检测数据集中的各个待检测数据输入到目标集成分类器中,其中,待检测数据集为不平衡数据集,目标集成分类器包括多个目标基分类器;
[0146]
检测单元1202,用于针对每个待检测数据执行以下操作:运用对应的目标基分类器对待检测数据进行检测,并得到检测结果;
[0147]
确定单元1203,用于基于各个检测结果,确定待检测数据集对应的设备的异常情况;
[0148]
其中,目标集成分类器通过以下方式训练得到:
[0149]
将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,其中,原始训练样本集包括多数类样本子集和少数类样本子集,且,多数类样本子集中的第一样本数量与少数类样本子集中的第二样本数量之间的数量差值大于预设阈值;
[0150]
运用支持向量机从目标多数类样本子集中确定出目标支持向量;
[0151]
对目标支持向量进行bootstrap采样,并基于采样结果和少数类样本子集确定目标训练样本集;
[0152]
运用目标训练样本集对各个基分类器进行训练,得到多个目标基分类器,基于各个目标基分类器得到目标集成分类器。
[0153]
可选地,将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,包括:
[0154]
基于原始训练样本集中的多数类样本子集中的各个样本,确定多数类样本子集对应的中心点;
[0155]
分别确定各个样本对应的样本点到中心点的欧氏距离;
[0156]
基于各个欧氏距离计算平均距离值,并确定与平均距离值之间的差值最小的欧氏距离,以及将差值最小的欧氏距离作为分界距离;
[0157]
基于各个欧氏距离与分界距离之间的差值,将多数类样本子集中的各个样本进行二分类,得到目标多数类样本子集,其中,目标多数类样本子集的个数为至少两个。
[0158]
可选地,运用支持向量机从目标多数类样本子集中确定出目标支持向量,包括:
[0159]
将目标多数类样本子集输入到支持向量机中,得到目标函数;
[0160]
运用序列最小优化算法对目标函数进行求解,得到携带不同有用信息含量的参数值;
[0161]
运用支持向量机将有用信息含量超过预设阈值的参数值对应的样本确定为目标支持向量。
[0162]
可选地,对目标支持向量进行bootstrap采样,并基于采样结果和少数类样本子集确定目标训练样本集,包括:
[0163]
对目标支持向量进行bootstrap采样,得到包括多个目标样本的采样结果;
[0164]
在每一个预选子训练集中均放入少数类样本子集对应的各个样本,得到多个目标子训练集,并将多个目标子训练集确定为目标训练样本集,其中,多个预选子训练集是将多个目标样本进行分组后得到的。
[0165]
可选地,运用目标训练样本集对各个基分类器进行训练,得到多个目标基分类器,基于各个目标基分类器得到目标集成分类器,包括:
[0166]
分别运用目标训练样本集中每一个目标子训练集对相应的基分类器进行训练,得到多个目标基分类器;
[0167]
将各个目标基分类器进行加权集成,得到目标集成分类器。
[0168]
可选地,基于各个检测结果,确定待检测数据集对应的设备的异常情况,确定单元1203用于:
[0169]
将各个检测结果进行加权求和,得到目标检测结果;
[0170]
基于预设的检测结果与异常情况的对应关系,确定与目标检测结果对应的目标异常情况,将目标异常情况确定为待检测数据集对应的设备的异常情况。
[0171]
可选地,第一样本数量与第二样本数量之间的比值大于或者等于3。
[0172]
基于同一发明构思,参阅图13所示,本公开实施例提供一种智能终端,包括:存储器1301,用于存储可执行指令;处理器1302,用于读取并执行存储器中存储的可执行指令,并执行上述一种异常检测方法中的任意一种方法。
[0173]
基于同一发明构思,本公开实施例提供一种计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行上述一种异常检测方法中的任意一种方法。
[0174]
综上所述,本公开实施例中,提供的一种异常检测方法、装置及存储介质,该方法包括:将待检测数据集中的各个待检测数据输入到目标集成分类器中,其中,待检测数据集为不平衡数据集,目标集成分类器包括多个目标基分类器,针对每个待检测数据执行以下操作:运用对应的目标基分类器对待检测数据进行检测,并得到检测结果,基于各个检测结果,确定待检测数据集对应的设备的异常情况,上述目标集成分类器通过以下方式训练得到:将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,其中,原始训练样本集包括多数类样本子集和少数类样本子集,并且,多数类样本子集中的第一样本数量与少数类样本子集中的第二样本数量之间的数量差值大于预设阈值,运用支持向量机从目标多数类样本子集中确定出目标支持向量,对目标支持向量进行bootstrap采样,并基于采样结果和少数类样本子集确定目标训练样本集,运用目标训练样本集对各个基分类器进行训练,得到多个目标基分类器,基于各个目标基分类器得到目标集成分类器,上述方法既删减了多数类样本子集中的多数类,达到数据平衡的效果,又利用目标支持向量尽可能的保留了多数类样本子集中的有用的分类信息,进而达到了良好的异常检测效果。
[0175]
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品系统。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品系统的形式。
[0176]
本公开是参照根据本公开的方法、设备(系统)、和计算机程序产品系统的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0177]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0178]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0179]
显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。

技术特征:
1.一种异常检测方法,其特征在于,所述方法包括:将待检测数据集中的各个待检测数据输入到目标集成分类器中,其中,所述待检测数据集为不平衡数据集,所述目标集成分类器包括多个目标基分类器;针对每个所述待检测数据执行以下操作:运用对应的所述目标基分类器对所述待检测数据进行检测,并得到检测结果;基于各个所述检测结果,确定所述待检测数据集对应的设备的异常情况;其中,所述目标集成分类器通过以下方式训练得到:将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,其中,所述原始训练样本集包括所述多数类样本子集和少数类样本子集,且,所述多数类样本子集中的第一样本数量与所述少数类样本子集中的第二样本数量之间的数量差值大于预设阈值;运用支持向量机从所述目标多数类样本子集中确定出目标支持向量;对所述目标支持向量进行bootstrap采样,并基于采样结果和所述少数类样本子集确定目标训练样本集;运用所述目标训练样本集对各个基分类器进行训练,得到多个目标基分类器,基于各个所述目标基分类器得到所述目标集成分类器。2.如权利要求1所述的方法,其特征在于,所述将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,包括:基于所述原始训练样本集中的所述多数类样本子集中的各个样本,确定所述多数类样本子集对应的中心点;分别确定各个所述样本对应的样本点到所述中心点的欧氏距离;基于各个所述欧氏距离计算平均距离值,并确定与所述平均距离值之间的差值最小的欧氏距离,以及将所述差值最小的欧氏距离作为分界距离;基于各个所述欧氏距离与所述分界距离之间的差值,将所述多数类样本子集中的各个样本进行二分类,得到目标多数类样本子集,其中,所述目标多数类样本子集的个数为至少两个。3.如权利要求1所述的方法,其特征在于,所述运用支持向量机从所述目标多数类样本子集中确定出目标支持向量,包括:将所述目标多数类样本子集输入到所述支持向量机中,得到目标函数;运用序列最小优化算法对所述目标函数进行求解,得到携带不同有用信息含量的参数值;运用所述支持向量机将所述有用信息含量超过预设阈值的参数值对应的样本确定为所述目标支持向量。4.如权利要求1所述的方法,其特征在于,所述对所述目标支持向量进行bootstrap采样,并基于采样结果和所述少数类样本子集确定目标训练样本集,包括:对所述目标支持向量进行bootstrap采样,得到包括多个目标样本的所述采样结果;在每一个预选子训练集中均放入所述少数类样本子集对应的各个样本,得到多个目标子训练集,并将所述多个目标子训练集确定为所述目标训练样本集,其中,多个所述预选子训练集是将所述多个目标样本进行分组后得到的。
5.如权利要求1所述的方法,其特征在于,所述运用所述目标训练样本集对各个基分类器进行训练,得到多个目标基分类器,基于各个所述目标基分类器得到所述目标集成分类器,包括:分别运用所述目标训练样本集中每一个目标子训练集对相应的所述基分类器进行训练,得到多个目标基分类器;将各个所述目标基分类器进行加权集成,得到所述目标集成分类器。6.如权利要求1所述的方法,其特征在于,所述基于各个所述检测结果,确定所述待检测数据集对应的设备的异常情况,包括:将各个所述检测结果进行加权求和,得到目标检测结果;基于预设的检测结果与异常情况的对应关系,确定与所述目标检测结果对应的目标异常情况,将所述目标异常情况确定为所述待检测数据集对应的设备的异常情况。7.如权利要求1-6任一项所述的方法,其特征在于,所述第一样本数量与所述第二样本数量之间的比值大于或者等于3。8.一种异常检测装置,其特征在于,包括:输入单元,用于将待检测数据集中的各个待检测数据输入到目标集成分类器中,其中,所述待检测数据集为不平衡数据集,所述目标集成分类器包括多个目标基分类器;检测单元,用于针对每个所述待检测数据执行以下操作:运用对应的所述目标基分类器对所述待检测数据进行检测,并得到检测结果;确定单元,用于基于各个所述检测结果,确定所述待检测数据集对应的设备的异常情况;其中,所述目标集成分类器通过以下方式训练得到:将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,其中,所述原始训练样本集包括所述多数类样本子集和少数类样本子集,且,所述多数类样本子集中的第一样本数量与所述少数类样本子集中的第二样本数量之间的数量差值大于预设阈值;运用支持向量机从所述目标多数类样本子集中确定出目标支持向量;对所述目标支持向量进行bootstrap采样,并基于采样结果和所述少数类样本子集确定目标训练样本集;运用所述目标训练样本集对各个基分类器进行训练,得到多个目标基分类器,基于各个所述目标基分类器得到所述目标集成分类器。9.一种智能终端,其特征在于,包括:存储器,用于存储可执行指令;处理器,用于读取并执行所述存储器中存储的可执行指令,以实现如权利要求1-7任一项所述的方法。10.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行如权利要求1-7任一项所述的方法。

技术总结
本公开涉及大数据处理技术领域,公开了一种异常检测方法、装置及存储介质,该方法为:将待检测数据集中的各个待检测数据输入到目标集成分类器中,运用对应的目标基分类器分别对每个待检测数据进行检测,得到检测结果,基于各个检测结果,确定待检测数据集对应的设备的异常情况,目标集成分类器的训练过程为:基于欧氏距离进行二分类,得到目标多数类样本子集,运用支持向量机从目标多数类样本子集中确定出目标支持向量,对目标支持向量进行bootstrap采样,结合少数类样本子集确定目标训练样本集,运用目标训练样本集对各个基分类器进行训练,得到目标集成分类器,从而删减了多数类样本子集中的多数类,达到了良好的异常检测效果。检测效果。检测效果。


技术研发人员:莫华森 段云涌 邓锦烨 谢绍航 熊武
受保护的技术使用者:天翼云科技有限公司
技术研发日:2022.07.14
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-1283.html

最新回复(0)