一种告警方法、装置、电子设备及存储介质与流程

专利2023-02-14  130



1.本技术涉及通信技术领域,尤其涉及一种告警方法、装置、电子设备及存储介质。


背景技术:

2.随着科技的进步、企业数字化变革以及业务的扩展,企业的运维数据呈指数级增长,越来越多样化,越来越难以管理和分析,面对运维管理系统中的故障设备产生的大量的故障告警,运维管理平台通过对其进行聚合分析,得到聚合告警,并输出得到的聚合告警,以大幅减少故障告警数量,使得管理员只需基于聚合告警进行相关运维管理即可。
3.但是,针对不同的故障场景,相应的故障告警数量不同,同时相关联的故障告警之间的时间分布情况也可能不同,如果运维管理平台每接收到一条故障告警,就确定一次是否需要进行聚合分析,会消耗较多的处理性能;如果运维管理平台每间隔设定时间窗进行一次聚合分析,又无法保证及时输出聚合告警,从而导致聚合告警的实时性较差,影响整个系统的运维效率。所以如何减少处理性能的消耗以及如何提高聚合告警的实时性是当前需要解决的技术问题之一。


技术实现要素:

4.为克服相关技术中存在的问题,本技术提供了一种告警方法、装置、电子设备及存储介质。
5.根据本技术实施例的第一方面,提供一种告警方法,所述方法应用于运维管理平台,所述方法包括:
6.在当前的设定时间窗内首次接收到至少一条故障告警且未到达当前的设定时间窗的时长时,判断预设的关联知识库中是否存在与所有的故障告警中的至少一条故障告警相匹配的关键告警;
7.在判断结果为否时,若到达所述时长,则对在当前的设定时间窗内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出;
8.在判断结果为是时,若在所述预设的关联知识库中的与所有的故障告警中的至少一条故障告警相匹配的关键告警对应的聚合分析时长中存在小于所述时长的聚合分析时长,则将所述时长调整为所述聚合分析时长中的最小的聚合分析时长,并在到达调整后的时长时,对在调整后的时长内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出;
9.若在所述聚合分析时长中不存在小于所述时长的聚合分析时长、但存在大于所述时长的聚合分析时长,则将所述时长调整为所述聚合分析时长中的最大的聚合分析时长,并在到达调整后的时长时,对在调整后的时长内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出
10.根据本技术实施例的第二方面,提供一种告警装置,所述装置应用于运维管理平台,所述装置包括:
11.判断模块,用于在当前的设定时间窗内首次接收到至少一条故障告警且未到达当前的设定时间窗的时长时,判断预设的关联知识库中是否存在与所有的故障告警中的至少一条故障告警相匹配的关键告警;
12.第一聚合分析模块,用于在所述判断模块的判断结果为否时,若到达所述时长,则对在当前的设定时间窗内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出;
13.第二聚合分析模块,用于在所述判断模块的判断结果为是时,若在所述预设的关联知识库中的与所有的故障告警中的至少一条故障告警相匹配的关键告警对应的聚合分析时长中存在小于所述时长的聚合分析时长,则将所述时长调整为所述聚合分析时长中的最小的聚合分析时长,并在到达调整后的时长时,对在调整后的时长内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出;若在所述聚合分析时长中不存在小于所述时长的聚合分析时长、但存在大于所述时长的聚合分析时长,则将所述时长调整为所述聚合分析时长中的最大的聚合分析时长,并在到达调整后的时长时,对在调整后的时长内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出。
14.根据本技术实施例的第三方面,提供一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现上述告警方法的方法步骤。
15.根据本技术实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述告警方法的方法步骤。
16.本技术的实施例提供的技术方案可以包括以下有益效果:
17.在本技术实施例中,对于运维管理平台而言,在当前的设定时间窗内首次接收到故障告警且未到达当前的设定时间窗的时长的情形下,可以基于预设的关联知识库中的关键告警及其对应的聚合分析时长,来决策是否需要调整当前的设定时间窗的时长;在需要调整的情形下,可以基于预设的关联知识库中的与接收到的故障告警相匹配的关键告警对应的聚合分析时长,调整当前的设定时间窗的时长(可延长或者可缩小)。这样一来,运维管理平台不仅可以减少处理性能的消耗,还可以及时输出聚合告警,提高了聚合告警的实时性较差,从而也提高了整个系统的运维效率。
18.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
19.此处的附图被并入说明书中并构成本技术的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
20.图1为本技术实施例提供的一种告警方法的流程示意图;
21.图2为本技术实施例提供的运维平台调整某个固定时间窗的时长并输出聚合告警的处理过程展示图之二;
22.图3为本技术实施例提供的运维平台调整某个固定时间窗的时长并输出聚合告警的处理过程展示图之二;
23.图4为本技术实施例提供的一种告警装置的结构示意图;
24.图5为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
25.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
26.在本技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
27.应当理解,尽管在本技术可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”或者“若”可以被解释成为“在
……
时”或“当
……
时”。
28.接下来对本技术实施例进行详细说明。
29.本技术实施例提供了一种告警方法,该方法应用于运维管理平台,如图1所示,该方法可以包括如下步骤:
30.s11、在当前的设定时间窗内首次接收到至少一条故障告警且未到达当前的设定时间窗的时长时,判断预设的关联知识库中是否存在与所有的故障告警中的至少一条故障告警相匹配的关键告警;在判断结果为否时,执行步骤s12;在判断结果为是时,执行步骤s13。
31.在本步骤中,上述设定时间窗可以是固定时间窗,也可以是滚动时间窗。
32.s12、若到达当前的设定时间窗的时长,则对在当前的设定时间窗内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出。
33.s13、若在预设的关联知识库中的与至少一条故障告警相匹配的关键告警对应的聚合分析时长中存在小于当前的设定时间窗的时长的聚合分析时长,则将当前的设定时间窗的时长调整为聚合分析时长中的最小的聚合分析时长,并在到达调整后的时长时,对在调整后的时长内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出;若在聚合分析时长中不存在小于当前的设定时间窗的时长的聚合分析时长、但存在大于当前的设定时间窗的时长的聚合分析时长,则将当前的设定时间窗的时长调整为聚合分析时长中的最大的聚合分析时长,并在到达调整后的时长时,对在调整后的时长内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出。
34.具体地,在上述步骤s11中,运维管理平台在判断预设的关联知识库中是否存在与所有的故障告警中的至少一条故障告警相匹配的关键告警时,可以判断预设的关联知识库中是否存在与所有的故障告警中的至少一条故障告警的对象标识符(object identifier,oid)相同的oid。
35.也就是说,在预设的关联知识库中,以oid来表征关键告警,不同的oid表征不同的
关键告警。在这里,关键告警一般是指故障发生符合一定规律的告警,由管理员根据系统管理经验汇总得到。
36.另外,在预设的关联知识库中,还包括有每条关键告警对应的聚合分析时长。在这里,预设的关联知识库可以以列表的形式呈现,如下表一所示;并且,每条关键告警对应的聚合分析时长可以理解为最佳的聚合分析时长,可由管理员根据系统运维经验来设定。
[0037][0038]
表一
[0039]
进一步地,在本技术实施例中,运维管理平台还可以执行以下操作:
[0040]
在判断结果为是、且聚合分析时长均与当前的设定时间窗的时长相同时,若到达当前的设定时间窗的时长,则对在当前的设定时间窗内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出。
[0041]
需要说明的是,在本技术实施例中,对于运维管理平台而言,在执行上述步骤s11之后,不管是在判断结果为否的情形下,还是在预设的关联知识库中的与至少一条故障告警相匹配的关键告警对应的聚合分析时长中存在小于当前的设定时间窗的时长的聚合分析时长的情形下,又或者是在预设的关联知识库中的与至少一条故障告警相匹配的关键告警对应的聚合分析时长中不存在小于当前的设定时间窗的时长的聚合分析时长、但存在大于当前的设定时间窗的时长的聚合分析时长的情形下,还或者是在判断结果为是、且聚合分析时长均与当前的设定时间窗的时长相同的情形下,相应的聚合分析过程为现有技术,在此不再详述。
[0042]
并且,在输出相应的聚合告警之后,均会进入下一个设定时间窗,如果在下一个设定时间窗也接收到了故障告警,则继续开始执行上述步骤s11,如果在下一个设定时间窗内没有接收到故障告警,则在到达下一个设定时间窗的时长到达时不做任何操作的相关操作,如此循环下去,直到运维管理平台停止工作。
[0043]
下面结合具体实施例对上述告警方法进行详细说明。
[0044]
实施例一
[0045]
以某个运维管理系统中的运维管理平台为例,假设该运维管理平台在某个固定时间窗内的某个时刻首次接收到3台故障设备发送的故障告警(alert)。例如,这个固定时间窗是图2所示的8:15到8:20这个时间窗,相应的时长为5分钟。
[0046]
在这种情形下,该运维管理平台会判断预设的关联知识库中是否存在与这3条故障告警中的至少一条故障告警相匹配的关键告警。
[0047]
假设判断出存在与这3条故障告警中的2条故障告警相匹配的关键告警,即,存在与这3条故障告警中的2条故障告警的oid相同的oid,所以,判断结果为是,此时,假设该运维管理平台还发现相匹配的关键告警对应的聚合分析时长均小于5分钟,这意味着这些故障告警的故障蔓延范围较小,或者对故障实时性的要求较高,在这种情形下,该运维管理平台会将这个固定时间窗的时长调整为最小的聚合分析时长(例如,1分钟)。
[0048]
后续该运维管理平台在到达调整后的时长(即,8:16)时,对在调整后的时长内(即,8:15到8:16这段时间内)接收到的所有的故障告警进行聚合分析,得到聚合告警(如图2所示)并输出,以供管理员进行相关运维管理操作。在这里,具体的聚合分析过程为现有技术,在此不再详述。
[0049]
实施例二
[0050]
仍以实施例一中的运维管理平台为例,假设该运维管理平台在如图3所示的8:20到8:25这个时间窗(相应的时长为5分钟)内的某个时刻首次接收到5台故障设备发送的故障告警。
[0051]
在这种情形下,该运维管理平台会判断预设的关联知识库中是否存在与这5条故障告警中的至少一条故障告警相匹配的关键告警。
[0052]
假设判断出存在与这5条故障告警相匹配的关键告警,即,存在与这5条故障告警的oid相同的oid,所以,判断结果为是,此时,假设该运维管理平台还发现相匹配的关键告警对应的聚合分析时长中不存在小于5分钟的聚合分析时长、但存在大于5分钟的聚合分析时长,这意味着这些故障告警的故障蔓延范围较大,可以聚合更多的故障告警需,在这种情形下,该运维管理平台会将这个固定时间窗的时长调整为最大的聚合分析时长(例如,7分钟)。
[0053]
后续该运维管理平台在到达调整后的时长(即,8:27)时,对在调整后的时长内(即,8:15到8:27这段时间内)接收到的所有的故障告警进行聚合分析,得到聚合告警(如图3所示)并输出,以供管理员进行相关运维管理操作。在这里,具体的聚合分析过程为现有技术,在此不再详述。
[0054]
由以上技术方案可以看出,在本技术实施例中,对于运维管理平台而言,在当前的设定时间窗内首次接收到故障告警且未到达当前的设定时间窗的时长的情形下,可以基于预设的关联知识库中的关键告警及其对应的聚合分析时长,来决策是否需要调整当前的设定时间窗的时长;在需要调整的情形下,可以基于预设的关联知识库中的与接收到的故障告警相匹配的关键告警对应的聚合分析时长,调整当前的设定时间窗的时长(可延长或者可缩小)。这样一来,运维管理平台不仅可以减少处理性能的消耗,还可以及时输出聚合告警,提高了聚合告警的实时性较差,从而也提高了整个系统的运维效率。
[0055]
基于同一发明构思,本技术还提供了一种告警装置,所述装置应用于运维管理平台,其结构示意图如图4所示,具体包括:
[0056]
判断模块41,用于在当前的设定时间窗内首次接收到至少一条故障告警且未到达当前的设定时间窗的时长时,判断预设的关联知识库中是否存在与所有的故障告警中的至少一条故障告警相匹配的关键告警;
[0057]
第一聚合分析模块42,用于在所述判断模块41的判断结果为否时,若到达所述时长,则对在当前的设定时间窗内接收到的所有的故障告警进行聚合分析,得到聚合告警并
输出;
[0058]
第二聚合分析模块43,用于在所述判断模块41的判断结果为是时,若在所述预设的关联知识库中的与所有的故障告警中的至少一条故障告警相匹配的关键告警对应的聚合分析时长中存在小于所述时长的聚合分析时长,则将所述时长调整为所述聚合分析时长中的最小的聚合分析时长,并在到达调整后的时长时,对在调整后的时长内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出;若在所述聚合分析时长中不存在小于所述时长的聚合分析时长、但存在大于所述时长的聚合分析时长,则将所述时长调整为所述聚合分析时长中的最大的聚合分析时长,并在到达调整后的时长时,对在调整后的时长内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出。
[0059]
优选地,所述判断模块41,具体用于:
[0060]
判断所述预设的关联知识库中是否存在与至少一条故障告警的对象标识符oid相同的oid。
[0061]
优选地,所述第二聚合分析模块43,还用于:
[0062]
在所述判断模块41的判断结果为是、且所述聚合分析时长均与所述时长相同时,若到达所述时长,则对在当前的设定时间窗内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出。
[0063]
优选地,所述设定时间窗为固定时间窗或者滚动时间窗。
[0064]
由以上技术方案可以看出,在本技术实施例中,对于运维管理平台而言,在当前的设定时间窗内首次接收到故障告警且未到达当前的设定时间窗的时长的情形下,可以基于预设的关联知识库中的关键告警及其对应的聚合分析时长,来决策是否需要调整当前的设定时间窗的时长;在需要调整的情形下,可以基于预设的关联知识库中的与接收到的故障告警相匹配的关键告警对应的聚合分析时长,调整当前的设定时间窗的时长(可延长或者可缩小)。这样一来,运维管理平台不仅可以减少处理性能的消耗,还可以及时输出聚合告警,提高了聚合告警的实时性较差,从而也提高了整个系统的运维效率。
[0065]
本技术实施例还提供了一种电子设备,如图5所示,包括处理器51和机器可读存储介质52,所述机器可读存储介质52存储有能够被所述处理器51执行的机器可执行指令,所述处理器51被所述机器可执行指令促使:实现上述告警方法的步骤。
[0066]
上述的机器可读存储介质可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选的,机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。
[0067]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0068]
在本技术提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述告警方法的步骤。
[0069]
以上所述仅为本技术的较佳实施例而已,并不用以限制本技术,凡在本技术的精
神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本技术保护的范围之内。

技术特征:
1.一种告警方法,其特征在于,所述方法应用于运维管理平台,所述方法包括:在当前的设定时间窗内首次接收到至少一条故障告警且未到达当前的设定时间窗的时长时,判断预设的关联知识库中是否存在与所有的故障告警中的至少一条故障告警相匹配的关键告警;在判断结果为否时,若到达所述时长,则对在当前的设定时间窗内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出;在判断结果为是时,若在所述预设的关联知识库中的与所有的故障告警中的至少一条故障告警相匹配的关键告警对应的聚合分析时长中存在小于所述时长的聚合分析时长,则将所述时长调整为所述聚合分析时长中的最小的聚合分析时长,并在到达调整后的时长时,对在调整后的时长内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出;若在所述聚合分析时长中不存在小于所述时长的聚合分析时长、但存在大于所述时长的聚合分析时长,则将所述时长调整为所述聚合分析时长中的最大的聚合分析时长,并在到达调整后的时长时,对在调整后的时长内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出。2.根据权利要求1所述的方法,其特征在于,判断预设的关联知识库中是否存在与所有的故障告警中的至少一条故障告警相匹配的关键告警,具体包括:判断所述预设的关联知识库中是否存在与至少一条故障告警的对象标识符oid相同的oid。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:在判断结果为是、且所述聚合分析时长均与所述时长相同时,若到达所述时长,则对在当前的设定时间窗内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出。4.根据权利要求1所述的方法,其特征在于,所述设定时间窗为固定时间窗或者滚动时间窗。5.一种告警装置,其特征在于,所述装置应用于运维管理平台,所述装置包括:判断模块,用于在当前的设定时间窗内首次接收到至少一条故障告警且未到达当前的设定时间窗的时长时,判断预设的关联知识库中是否存在与所有的故障告警中的至少一条故障告警相匹配的关键告警;第一聚合分析模块,用于在所述判断模块的判断结果为否时,若到达所述时长,则对在当前的设定时间窗内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出;第二聚合分析模块,用于在所述判断模块的判断结果为是时,若在所述预设的关联知识库中的与所有的故障告警中的至少一条故障告警相匹配的关键告警对应的聚合分析时长中存在小于所述时长的聚合分析时长,则将所述时长调整为所述聚合分析时长中的最小的聚合分析时长,并在到达调整后的时长时,对在调整后的时长内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出;若在所述聚合分析时长中不存在小于所述时长的聚合分析时长、但存在大于所述时长的聚合分析时长,则将所述时长调整为所述聚合分析时长中的最大的聚合分析时长,并在到达调整后的时长时,对在调整后的时长内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出。6.根据权利要求5所述的装置,其特征在于,所述判断模块,具体用于:判断所述预设的关联知识库中是否存在与至少一条故障告警的对象标识符oid相同的
oid。7.根据权利要求5所述的装置,其特征在于,所述第二聚合分析模块,还用于:在所述判断模块的判断结果为是、且所述聚合分析时长均与所述时长相同时,若到达所述时长,则对在当前的设定时间窗内接收到的所有的故障告警进行聚合分析,得到聚合告警并输出。8.根据权利要求5所述的装置,其特征在于,所述设定时间窗为固定时间窗或者滚动时间窗。9.一种电子设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现权利要求1-4中任一项所述的方法步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4中任一项所述的方法步骤。

技术总结
本申请提供一种告警方法、装置、电子设备及存储介质。该方法应用于运维管理平台,且包括:在当前的设定时间窗内首次接收到至少一条故障告警且未到达该设定时间窗的时长时,判断预设的关联知识库中是否存在与至少一条故障告警相匹配的关键告警;若是,若在相匹配的关键告警对应的聚合分析时长中存在小于时长的聚合分析时长,将时长调整为最小的聚合分析时长,在到达调整后的时长时,对相关故障告警进行聚合分析,得到聚合告警并输出;若在聚合分析时长中不存在小于时长的聚合分析时长、但存在大于时长的聚合分析时长,将时长调整为最大的聚合分析时长,执行在到达调整后的时长时,对相关故障告警进行聚合分析的步骤。本申请可及时输出聚合告警。及时输出聚合告警。及时输出聚合告警。


技术研发人员:陈靓 张广奎 李蒙 禹龙
受保护的技术使用者:新华三技术有限公司
技术研发日:2022.06.10
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-874.html

最新回复(0)