运维领域异常知识图谱的生成方法、应用方法和装置与流程

专利2022-12-29  142



1.本发明涉及计算机技术领域,尤其涉及一种运维领域异常知识图 谱的生成方法、应用方法和装置。


背景技术:

2.大型计算机集群环境,例如it信息系统,软、硬件的部署错综 复杂,故障的发生可以通过故障发生时异常的性能指标来描述,通过 积累故障知识构建知识图谱可以为后续故障的处理提供经验。现有的 根据故障场景构建知识图谱的方法,一种是依靠专家经验的,另一种 依据故障模拟进行总结。
3.依靠专家经验:主要是专家结合自身经验总结出一些典型的故障 场景,将其手动编制成知识图谱并添加对应的解决方案,为后续故障 判断和故障解决方案提供参照。
4.依据故障模拟进行总结:常见的做法如利用混沌测试工具、或业 务埋点等方式尽可能的模拟各种故障场景,然后人工统计故障发生时 产生的异常指标,将异常指标与故障现象总结为知识图谱。
5.可见,无论是专家经验还是故障模拟总结都需要通过人工统计与 故障场景关联的异常指标。通过人工统计生成具有普适性的知识图谱 存在着以下的不足:通过人工进行故障总结时,通常会将极少部分具 有明显异常特征的性能指标作为故障场景的展现,但在系统真实的环 境中,故障发生时,会在一段时间内产生大量的异常指标,形成一种 多维度的异常关系,仅通过极少部分性能指标无法准确的进行故障的 描述,导致在后续故障定位时困难加大。根据运维专家的经验,通过 设定阈值的方法进行异常指标过滤,能够检测出大量的异常指标,但 是容易形成大量指标的误报,将正常指标识别为异常指标,严重消耗 运维成本。依靠人工基于异常指标提取故障知识存在着成本昂贵,容 易误报漏报,时效性低,不能做到24小时不间断提取,无法按照时 间窗口提取异常指标转换为故障知识,比较容易造成故障知识的取样 不足、不准确。


技术实现要素:

6.本发明提供一种运维领域异常知识图谱的生成方法、应用方法和 装置,用以解决通过人工统计生成异常知识图谱存在的缺陷,可以实 现根据异常事件发生时产生的异常数据自动生成运维领域异常知识 图谱。
7.第一方面,本发明提供一种运维领域异常知识图谱的生成方法, 包括:
8.基于采集的目标系统的运行数据确定性能指标的时序数据,对所 述性能指标的时序数据进行异常检测确定其中的异常指标;
9.基于预先设置的时间窗口按照性能指标所属的组件类型对所述 异常指标进行分组,基于所述异常指标的分组构建对应的异常子图谱;
10.确定所述异常子图谱与所述目标系统中同类型其它网元的历史 异常子图谱的相似度,基于所述相似度将所述异常子图谱确定为领域 知识图谱;
11.基于运维专家的经验对所述领域知识图谱进行故障信息标注,得 到所述目标系统的运维领域异常知识图谱,其中所述故障信息包括: 故障名称和故障解决方案。
12.根据本发明提供的运维领域异常知识图谱的生成方法,所述基于 预设的时间窗口按照性能指标所属的组件类型对所述异常指标进行 分组,基于所述异常指标的分组构建对应的异常子图谱,包括:
13.对所述异常指标的时序数据按照预先设置的时间窗口进行分割, 确定每一个所述异常指标的异常数据在当前时间窗口的时序数据中 的第一占比;
14.将所述第一占比大于预先设置的第一阈值的所述异常指标确定 为对应的时间窗口中的目标异常指标;
15.将一个所述时间窗口中的所述目标异常指标按照性能指标所属 的组件类型进行分组,基于所述目标异常指标的分组构建对应的异常 子图谱。
16.根据本发明提供的运维领域异常知识图谱的生成方法,所述确定 所述异常子图谱与所述目标系统中同类型其它网元的历史异常子图 谱的相似度,基于所述相似度将所述异常子图谱确定为领域知识图谱, 包括:
17.确定所述异常子图谱与所述目标系统中同类型其它网元的历史 异常子图谱的相似度;
18.确定生成所述异常子图谱的网元和所述相似度大于预先设置的 第二阈值的其它网元,在所述同类型网元中的第二占比;
19.将所述第二占比大于所述第三阈值的所述异常子图谱确定为所 述领域知识图谱。
20.根据本发明提供的运维领域异常知识图谱的生成方法,所述确定 所述异常子图谱与所述目标系统中同类型其它网元的历史异常子图 谱的相似度,针对每一个所述异常子图谱包括:
21.确定所述异常子图谱与所述目标系统中同类型其它网元的历史 异常子图谱的异常指标相似度、相同异常指标数量和基于node2vec 的图向量相似度;
22.对所确定的异常指标相似度、相同异常指标数量和基于node2vec 的图向量相似度分别进行排名;
23.针对每一个所述历史异常子图谱的异常指标相似度、相同异常指 标数量和基于node2vec的图向量相似度的排名求和,得到对应的所 述历史异常子图谱与所述异常子图谱的所述相似度。
24.根据本发明提供的运维领域异常知识图谱的生成方法,所述基于 采集的目标系统的运行数据确定性能指标的时序数据,对所述性能指 标的时序数据进行异常检测确定其中的异常指标,包括:
25.基于代理程序采集所述目标系统的运行数据,对所述运行数据进 行处理得到所述性能指标的时序数据;
26.基于4-sigma对所述性能指标的时序数据进行异常检测,确定其 中的异常指标。
27.第二方面,本发明还提供一种运维领域异常知识图谱的应用方法, 包括:
28.基于采集的目标系统的运行数据确定性能指标的时序数据,对所 述性能指标的时序数据进行异常检测确定其中的异常指标;
29.基于预先设置的时间窗口按照性能指标所属的组件类型对所述 异常指标进行分组,基于所述异常指标的分组构建对应的异常子图谱;
30.基于所述目标系统的系统架构对所述异常子图谱进行拼接,对拼 接后的异常子图谱进行校验,生成故障知识图谱;
31.基于组件类型对所述故障知识图谱进行分割,得到故障子图谱;
32.将所述故障子图谱与所述目标系统的运维领域异常知识图谱进 行匹配,确定所述故障子图谱对应的运维领域异常知识图谱;
33.基于所述故障知识图谱分割得到的故障子图谱对应的运维领域 异常知识图谱标注的故障解决方案,得到目标故障解决方案。
34.第三方面,本发明还提供一种运维领域异常知识图谱的生成装置, 包括:
35.异常指标检测模块,用于基于采集的目标系统的运行数据确定性 能指标的时序数据,对所述性能指标的时序数据进行异常检测确定其 中的异常指标;
36.异常图谱构建模块,用于基于预先设置的时间窗口按照性能指标 所属的组件类型对所述异常指标进行分组,基于所述异常指标的分组 构建对应的异常子图谱;
37.领域知识图谱提取模块,用于确定所述异常子图谱与所述目标系 统中同类型其它网元的历史异常子图谱的相似度,基于所述相似度将 所述异常子图谱确定为领域知识图谱;
38.领域知识图谱打标模块,用于基于运维专家的经验对所述领域知 识图谱进行故障信息标注,得到所述目标系统的运维领域异常知识图 谱,其中所述故障信息包括:故障名称和故障解决方案。
39.第四方面,本发明还提供一种运维领域异常知识图谱的应用装置, 包括:
40.异常指标检测模块,用于基于采集的目标系统的运行数据确定性 能指标的时序数据,对所述性能指标的时序数据进行异常检测确定其 中的异常指标;
41.异常图谱构建模块,用于基于预先设置的时间窗口按照性能指标 所属的组件类型对所述异常指标进行分组,基于所述异常指标的分组 构建对应的异常子图谱;
42.故障知识图谱生成模块,用于基于所述目标系统的系统架构对所 述异常子图谱进行拼接,对拼接后的异常子图谱进行校验,生成故障 知识图谱;
43.故障知识图谱分割模块,用于基于组件类型对所述故障知识图谱 进行分割,得到故障子图谱;
44.领域知识图谱匹配模块,用于将所述故障子图谱与所述目标系统 的运维领域异常知识图谱进行匹配,确定所述故障子图谱对应的运维 领域异常知识图谱;
45.故障解决方案提取模块,用于基于所述故障知识图谱分割得到的 故障子图谱对应的运维领域异常知识图谱标注的故障解决方案,得到 目标故障解决方案。
46.第五方面,本发明还提供一种电子设备,包括存储器、处理器及 存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行 所述程序时实现如上述第一方面所述运维领域异常知识图谱的生成 方法,或者第二方面所述运维领域异常知识图谱的应用方法的步骤。
47.第六方面,发明还提供一种非暂态计算机可读存储介质,其上存 储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面 所述运维领域异常知识图谱的生
成方法,或者第二方面所述运维领域 异常知识图谱的应用方法的步骤。
48.第七方面,发明还提供一种计算机程序产品,其上存储有计算机 程序,该计算机程序被处理器执行时实现如上述第一方面所述运维领 域异常知识图谱的生成方法,或者第二方面所述运维领域异常知识图 谱的应用方法的步骤。
49.本发明提供的运维领域异常知识图谱的生成方法、应用方法和装 置,根据目标系统异常事件发生时产生的异常数据自动生成运维领域 异常知识图谱,不需要人工参与,能够对异常事件进行更加全面、准 确的刻画。其中,基于异常数据自动提取异常指标,可以保证对异常 事件产生的异常指标提取的全面性和准确性,基于异常指标自动提取 故障知识,成本较低,不容易误报漏报,时效性高,能够做到24小时 不间断提取,可以按照时间窗口提取异常指标转换为故障知识,可以 使故障知识的取样全面、准确,通过运维专家对对故障名称、故障解 决方案等故障信息进行标注,使所生成的运维领域异常知识图谱,可 以专门提供解决一类故障的方案,为后续故障判定、故障定位和故障 处理提供重要数据支撑。
附图说明
50.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见 地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术 人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得 其它的附图。
51.图1是本发明提供的运维领域异常知识图谱的生成方法的流程 示意图;
52.图2a、图2b和图2c是本发明提供的异常子图谱的示意图;
53.图3a是本发明提供的构建异常子图谱的流程示意图;
54.图3b是本发明提供的构建异常子图谱的一应用场景的流程示意 图;
55.图4是本发明提供的确定领域知识图谱的流程示意图;
56.图5是本发明提供的确定异常子图谱与历史异常子图谱的相似 度的流程示意图;
57.图6a是本发明提供的运维领域异常知识图谱的应用方法的流程 示意图;
58.图6b是依据本发明提供的运维领域异常知识图谱的应用方法生 成的故障知识图谱的示意图;
59.图7是本发明提供的运维领域异常知识图谱的生成装置的组成 结构示意图;
60.图8是本发明提供的运维领域异常知识图谱的应用装置的组成 结构示意图;
61.图9是本发明提供的电子设备的组成结构示意图。
具体实施方式
62.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发 明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然, 所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提 下所获得的所有其它实施例,都属于本发明保护的范围。
63.下面结合图1-图5描述本发明提供的运维领域异常知识图谱的 生成方法。
64.请参阅图1,图1是本发明提供的运维领域异常知识图谱的生成 方法的流程示意
钟。本发明实施例对性能指标所属的组件类型的划分不作限定,例如, 性能指标所属的组件类型可以包括主机类指标、数据库类指标、应用 类指标、日志类指标、调用链类指标、告警类指标等。
71.例如,以10分钟为时间窗口的宽度对异常指标进行分割,对当 前时间窗口中的异常指标按照主机类指标、数据库类指标、应用类指 标、日志类指标、调用链类指标、告警类指标等进行分组汇总,可以 得到当前时间窗口中的主机类的异常指标、数据库类的异常指标和应 用类的异常指标,其中,主机类的异常指标有网络速率、cpu占用 率、磁盘io速度、内存的使用率(mem),数据库类的异常指标有 最大连接数、表空间的容量、缓存空间的大小,应用类的异常指标有 应用软件每秒传输的事物处理个数(app.tps)、请求响应时间,如图 2a、图2b和图2c所示,根据异常指标的分组可以分别构建出主机 异常子图谱、数据库异常子图谱和应用异常子图谱,并将所构建出的 异常子图谱存储于图数据库中。
72.103,确定异常子图谱与目标系统中同类型其它网元的历史异常 子图谱的相似度,基于相似度将异常子图谱确定为领域知识图谱。
73.在本发明实施例中,在按照时间窗口和性能指标所属的组件类型 对异常指标进行分组构建出异常子图谱之后,可以根据目标系统的历 史异常子图谱,确定异常子图谱与目标系统中同类型其它网元的历史 异常子图谱的相似度,根据相似度判断异常子图谱在目标系统的同类 型网元中是否具有普遍性,若异常子图谱在目标系统的同类型网元中 具有普遍性,则将该异常子图谱确定为领域知识图谱。本发明实施例 对根据目标系统的历史异常子图谱,确定异常子图谱与目标系统中同 类型其它网元的历史异常子图谱的相似度的实现方法不作限定。例如, 可以根据预设的算法确定异常子图谱与目标系统中同类型其它网元 的历史异常子图谱的相似度。在本发明中,网元可以是指目标系统的 网络中的元素,例如,主机、服务器、路由器、虚拟机、应用程序等, 同类型网元可以是目标系统的网络中作用相同或相似的元素,例如, 主机a与主机b属于同类型网元,主机a与虚拟机c属于不同类型 网元。
74.104,基于运维专家的经验对领域知识图谱进行故障信息标注, 得到目标系统的运维领域异常知识图谱,其中故障信息包括:故障名 称和故障解决方案。
75.在本发明实施例中,在根据目标系统的历史异常子图谱将异常子 图谱确定为领域知识图谱之后,可以根据运维专家的经验对领域知识 图谱进行标注,标注其是否为故障,若为故障,则将对应的领域知识 图谱作为有效的领域知识图谱,进一步标注故障名称和故障解决方案 等故障信息,并将标注故障信息后的领域知识图谱作为目标系统的运 维领域异常知识图谱,保存到知识库中。
76.本发明实施例提供的运维领域异常知识图谱的生成方法,根据目 标系统异常事件发生时产生的异常数据自动生成运维领域异常知识 图谱,不需要人工参与,能够对异常事件进行更加全面、准确的刻画。 其中,基于异常数据自动提取异常指标,可以保证对异常事件产生的 异常指标提取的全面性和准确性,基于异常指标自动提取故障知识, 成本较低,不容易误报漏报,时效性高,能够做到24小时不间断提 取,可以按照时间窗口提取异常指标转换为故障知识,可以使故障知 识的取样全面、准确,通过运维专家对对故障名称、故障解决方案等 故障信息进行标注,使所生成的运维领域异常知识图谱,可以专门提 供解决一类故障的方案,为后续故障判定、故障定位和故障处理提供 重要数据支撑。
77.请参阅图3a,图3a是本发明提供的构建异常子图谱的流程示 意图,如图3a所示,基于预设的时间窗口按照性能指标所属的组件 类型对异常指标进行分组,基于异常指标的分组构建对应的异常子图 谱至少包括:
78.301,对异常指标的时序数据按照预先设置的时间窗口进行分割, 确定每一个异常指标的异常数据在当前时间窗口的时序数据中的第 一占比。
79.302,将第一占比大于预先设置的第一阈值的异常指标确定为对 应的时间窗口中的目标异常指标。
80.303,将一个时间窗口中的目标异常指标按照性能指标所属的组 件类型进行分组,基于目标异常指标的分组构建对应的异常子图谱。
81.在本发明实施例中,在通过异常检测获得异常指标之后,可以按 照预先设置的时间窗口对异常指标的时序数据进行分割,并确定每一 个异常指标的异常数据在其所在的当前时间窗口的时序数据中的第 一占比,也就是在其所在的当前时间窗口的总检测次数中的第一占比, 然后判断第一占比是否大于预先设置的第一阈值,若第一占比大于预 先设置的第一阈值,则将对应的异常指标确定为该时间窗口中的目标 异常指标,若第一占比小于或等于预先设置的第一阈值,则不将对应 的异常指标确定为该时间窗口中的目标异常指标,最后将每一个时间 窗口中的目标异常指标分别按照性能指标所属的组件类型进行分组, 并根据各目标异常指标的分组分别构建对应的异常子图谱,如图3b 所示,图3b是本发明提供的构建异常子图谱的一应用场景的流程示 意图。其中,第一阈值可以预先根据经验设置,本发明实施例对第一 阈值的数值不作限定,例如,第一阈值可以为10%。
82.本实施例在基于异常指标的分组构建异常子图谱之前,通过异常 指标的异常数据在其所在的时间窗口中的异常指标的时序数据中的 占比,对异常指标进行过滤,可以去掉错误的异常指标,保证构建异 常子图谱的异常指标的正确性,从而保证所构建的异常子图谱的正确 性。
83.请参阅图4,图4是本发明提供的确定领域知识图谱的流程示意 图,如图4所示,确定异常子图谱与目标系统中同类型其它网元的历 史异常子图谱的相似度,基于相似度将异常子图谱确定为领域知识图 谱至少包括:
84.401,确定异常子图谱与目标系统中同类型其它网元的历史异常 子图谱的相似度。
85.402,确定生成异常子图谱的网元和相似度大于预先设置的第二 阈值的其它网元,在同类型网元中的第二占比。
86.403,将第二占比大于第三阈值的异常子图谱确定为领域知识图 谱。
87.在本发明实施例中,在基于异常指标构建异常子图谱之后,可以 将每一个异常子图谱与目标系统中同类型其它网元的历史异常子图 谱逐个进行相似度分析,判断同类型其它网元的历史异常子图谱中是 否存在与当前的异常子图谱的相似度大于预先设置的第二阈值的异 常子图谱,若同类型其它网元的历史异常子图谱中存在与当前的异常 子图谱的相似度大于预先设置的第二阈值的异常子图谱,则表示目标 系统发生过类似的故障,进一步统计发生过类似故障网元,包括生成 异常子图谱的网元和相似度大于预先设置的第二阈值的其它网元,在 同类型网元中的第二占比,最后判断第二占比是否大于预先设置的第 三阈值,若第二占比大于预先设置的第三阈值,则将异常子图谱确定 为领域知识图谱。
其中,第二阈值和第三阈值可以预先根据经验设置, 本发明实施例对第二阈值和第三阈值的数值不作限定,例如,第二阈 值可以为80%,第三阈值可以为30%。
88.请参阅图5,图5是本发明提供的确定异常子图谱与历史异常子 图谱的相似度的流程示意图,如图5所示,确定异常子图谱与目标系 统中同类型其它网元的历史异常子图谱的相似度,针对每一个异常子 图谱至少包括:
89.501,确定异常子图谱与目标系统中同类型其它网元的历史异常 子图谱的异常指标相似度、相同异常指标数量和基于node2vec的图 向量相似度。
90.502,对所确定的异常指标相似度、相同异常指标数量和基于 node2vec的图向量相似度分别进行排名。
91.503,针对每一个历史异常子图谱的异常指标相似度、相同异常 指标数量和基于node2vec的图向量相似度的排名求和,得到对应的 历史异常子图谱与异常子图谱的相似度。
92.在本发明实施例中,在确定异常子图谱与历史异常子图谱的相似 度时,可以首先基于异常子图谱与目标系统中同类型其它网元的历史 异常子图谱生成用于确定相似度的特征,用于确定相似度的特征可以 包括异常子图谱与历史异常子图谱的异常指标相似度、相同异常指标 数量和基于node2vec的图向量相似度。
93.其中,异常子图谱与历史异常子图谱的异常指标相似度,可以采 用基于形态的距离(shape-based distance,简称sbd)相关性算法进行 图谱之间性能指标相似度的计算,其中,sbd算法可忽略由于性能 指标时移所带来的误差,更能反映出性能指标时序数据之间的相关性 程度。例如,一个异常子图谱g具有m个异常指标,可从历史异常 子图谱库中选取出与异常子图谱g属于同一类型的其它网元的n个异 常子图谱,每个异常子图谱具有k个异常指标,可以得到计算的复杂 度为δ=n*m*k。在实施过程中,为了提升图谱匹配计算相似度的 效率,可以采用并行化的方法进行处理。可以选取出异常子图谱与历 史异常子图谱之间,任意两个异常指标所计算出的sbd值的最大值 作为异常子图谱与历史异常子图谱的异常指标相似度。
94.异常子图谱与历史异常子图谱的相同异常指标数量,可以分别确 定异常子图谱g与n个历史异常子图谱中相同的异常指标的数量,作 为特征。
95.异常子图谱与历史异常子图谱基于node2vec的图向量相似度, 可以基于node2vec对异常子图谱和历史异常子图谱进行向量化,得 到异常子图谱和历史异常子图谱1行200列的图向量,然后确定异常 子图谱的图向量与历史异常子图谱的图向量的相似度,其中node2vec 是一种综合考虑dfs邻域和bfs邻域的graph embedding方法,可以 看作是deepwalk的一种扩展,是结合了dfs和bfs随机游走的 deepwalk。
96.然后对所生成的用于确定相似度的特征进行特征融合,得到最终 图谱的相似度,特征融合可以采用加权的方法。其中,基于异常子图 谱与历史异常子图谱得到的异常指标相似度、相同异常指标数量和基 于node2vec的图向量相似度如表1所示。
97.表1
[0098][0099]
分别对表1中异常子图谱与历史异常子图谱的异常指标相似度、 相同异常指标数量和基于node2vec的图向量相似度进行排名,得到 表2。
[0100]
表2
[0101][0102][0103]
对表2中历史异常子图谱的异常指标相似度、相同异常指标数量 和基于node2vec的图向量相似度的排名求和,得到表3。
[0104]
表3
[0105][0106]
将表3中的排名转换为相似度,可以采用归一化指数函数softmax 对排名进行转化,将排名归一化为0到1之间的小数,再通过1减去 归一化的数值,得到表示异常子图谱与历史异常子图谱之间的相似度 的表4,其中数值越大,表示相似度度越高。
[0107]
表4
[0108][0109]
请参阅图6a,图6a是本发明提供的运维领域异常知识图谱的 应用方法的流程示意图,图6a所示的运维领域异常知识图谱的应用 方法可以由运维领域异常知识图谱的应用装置执行,运维领域异常知 识图谱的应用装置可以设置于服务器,例如,服务器可以为包含独立 主机的物理服务器、主机集群承载的虚拟服务器、云服务器等,本发 明实施例对此不作限定。如图6a所示,该运维领域异常知识图谱的 应用方法至少包括:
[0110]
601,基于采集的目标系统的运行数据确定性能指标的时序数据, 对性能指标的时序数据进行异常检测确定其中的异常指标。
[0111]
602,基于预先设置的时间窗口按照性能指标所属的组件类型对 异常指标进行分组,基于异常指标的分组构建对应的异常子图谱。
[0112]
603,基于目标系统的系统架构对异常子图谱进行拼接,对拼接 后的异常子图谱进行校验,生成故障知识图谱。
[0113]
604,基于组件类型对故障知识图谱进行分割,得到故障子图谱。
[0114]
605,将故障子图谱与目标系统的运维领域异常知识图谱进行匹 配,确定故障子图谱对应的运维领域异常知识图谱。
[0115]
606,基于故障知识图谱分割得到的故障子图谱对应的运维领域 异常知识图谱标注的故障解决方案,得到目标故障解决方案。
[0116]
在本发明实施例中,在获得目标系统的运维领域异常知识图谱之 后,当目标系统产生异常情况时,可以基于601、602获得异常子图 谱,然后将异常子图谱根据目标系统的系统架构进行拼接,并对拼接 后的异常子图谱进行校验,最终生成故障知识图谱。如图6b所示, 图6b是依据本发明提供的运维领域异常知识图谱的应用方法生成的 故障知识图谱的示意图。其中,关于601、602的说明可以参见图1 中关于101、102的说明,故此处不再复述。本发明实施例对异常子 图谱进行拼接的实现方法不作限定,例如,可以采用频繁子图挖掘等 算法对异常子图谱进行拼接。本发明实施例对拼接后的异常子图谱进 行校验的实现方法不作限定,例如,可以通过调用链、专家经验等方 法对拼接后的异常子图谱进行校验确认。
[0117]
在生成故障知识图谱之后,可以对故障知识图谱根据组件类型进 行切分,形成故障子图,然后将每一个故障子图分别与知识库中目标 系统的运维领域异常知识图谱进行匹配,如果匹配出与故障子图对应 的运维领域异常知识图谱,可以根据匹配出的运维领域
异常知识图谱 标注的故障解决方案,得到目标系统所产生的异常情况的最终的故障 解决方案。其中,将故障子图与运维领域异常知识图谱进行匹配,可 以通过确定每一个故障子图与知识库中目标系统的运维领域异常知 识图谱的相似度来实现。
[0118]
下面对本发明提供的运维领域异常知识图谱的生成装置进行描 述,下文描述的运维领域异常知识图谱的生成装置与上文描述的运维 领域异常知识图谱的生成方法可相互对应参照。
[0119]
请参阅图7,图7是本发明提供的运维领域异常知识图谱的生成 装置的组成结构示意图,图7所示的运维领域异常知识图谱的生成装 置可以设置于服务器,用来执行图1的运维领域异常知识图谱的生成 方法,例如,服务器可以为包含独立主机的物理服务器、主机集群承 载的虚拟服务器、云服务器等,本发明实施例对此不作限定。如图7 所示,该运维领域异常知识图谱的生成装置至少包括:
[0120]
异常指标检测模块710,用于基于采集的目标系统的运行数据确 定性能指标的时序数据,对性能指标的时序数据进行异常检测确定其 中的异常指标。
[0121]
异常图谱构建模块720,用于基于预先设置的时间窗口按照性能 指标所属的组件类型对异常指标进行分组,基于异常指标的分组构建 对应的异常子图谱。
[0122]
领域知识图谱提取模块730,用于确定异常子图谱与目标系统中 同类型其它网元的历史异常子图谱的相似度,基于相似度将异常子图 谱确定为领域知识图谱。
[0123]
领域知识图谱打标模块740,用于基于运维专家的经验对领域知 识图谱进行故障信息标注,得到目标系统的运维领域异常知识图谱, 其中故障信息包括:故障名称和故障解决方案。
[0124]
可选地,异常图谱构建模块720,包括:
[0125]
时间划分单元,用于对异常指标的时序数据按照预先设置的时间 窗口进行分割,确定每一个异常指标的异常数据在当前时间窗口的时 序数据中的第一占比。
[0126]
指标过滤单元,用于将第一占比大于预先设置的第一阈值的异常 指标确定为对应的时间窗口中的目标异常指标。
[0127]
类型分组单元,用于将一个时间窗口中的目标异常指标按照性能 指标所属的组件类型进行分组,基于目标异常指标的分组构建对应的 异常子图谱。
[0128]
可选地,领域知识图谱提取模块730,包括:
[0129]
相似度计算单元,用于确定异常子图谱与目标系统中同类型其它 网元的历史异常子图谱的相似度。
[0130]
网元占比计算单元,用于确定生成异常子图谱的网元和相似度大 于预先设置的第二阈值的其它网元,在同类型网元中的第二占比。
[0131]
图谱提取单元,用于将第二占比大于第三阈值的异常子图谱确定 为领域知识图谱。
[0132]
可选地,相似度计算单元,包括:
[0133]
特征生成子单元,用于针对每一个异常子图谱,确定异常子图谱 与目标系统中同类型其它网元的历史异常子图谱的异常指标相似度、 相同异常指标数量和基于node2vec的图向量相似度。
[0134]
特征排名子单元,用于针对每一个异常子图谱,对所确定的异常 指标相似度、相
同异常指标数量和基于node2vec的图向量相似度分 别进行排名。
[0135]
相似度计算子单元,用于针对每一个异常子图谱的每一个历史异 常子图谱的异常指标相似度、相同异常指标数量和基于node2vec的 图向量相似度的排名求和,得到对应的历史异常子图谱与异常子图谱 的相似度。
[0136]
可选地,异常指标检测模块710,包括:
[0137]
指标确定单元,用于基于代理程序采集目标系统的运行数据,对 运行数据进行处理得到性能指标的时序数据。
[0138]
异常检测单元,用于基于4-sigma对性能指标的时序数据进行异 常检测,确定其中的异常指标。
[0139]
下面对本发明提供的运维领域异常知识图谱的应用装置进行描 述,下文描述的运维领域异常知识图谱的应用装置与上文描述的运维 领域异常知识图谱的应用方法可相互对应参照。
[0140]
请参阅图8,图8是本发明提供的运维领域异常知识图谱的应用 装置的组成结构示意图,图8所示的运维领域异常知识图谱的应用装 置可以设置于服务器,用来执行图6a的运维领域异常知识图谱的应 用方法,例如,服务器可以为包含独立主机的物理服务器、主机集群 承载的虚拟服务器、云服务器等,本发明实施例对此不作限定。如图 8所示,该运维领域异常知识图谱的应用装置至少包括:
[0141]
异常指标检测模块810,用于基于采集的目标系统的运行数据确 定性能指标的时序数据,对性能指标的时序数据进行异常检测确定其 中的异常指标。
[0142]
异常图谱构建模块820,用于基于预先设置的时间窗口按照性能 指标所属的组件类型对异常指标进行分组,基于异常指标的分组构建 对应的异常子图谱。
[0143]
故障知识图谱生成模块830,用于基于目标系统的系统架构对异 常子图谱进行拼接,对拼接后的异常子图谱进行校验,生成故障知识 图谱。
[0144]
故障知识图谱分割模块840,用于基于组件类型对故障知识图谱 进行分割,得到故障子图谱。
[0145]
领域知识图谱匹配模块850,用于将故障子图谱与目标系统的运 维领域异常知识图谱进行匹配,确定故障子图谱对应的运维领域异常 知识图谱。
[0146]
故障解决方案提取模块860,用于基于故障知识图谱分割得到的 故障子图谱对应的运维领域异常知识图谱标注的故障解决方案,得到 目标故障解决方案。
[0147]
图9示例了一种电子设备的实体结构示意图,如图9所示,该电 子设备可以包括:处理器(processor)910、通信接口 (communicationsinterface)920、存储器(memory)930和通信总线940, 其中,处理器910,通信接口920,存储器930通过通信总线940完 成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以 执行上述方法,该方法包括:
[0148]
基于采集的目标系统的运行数据确定性能指标的时序数据,对所 述性能指标的时序数据进行异常检测确定其中的异常指标;
[0149]
基于预先设置的时间窗口按照性能指标所属的组件类型对所述 异常指标进行分组,基于所述异常指标的分组构建对应的异常子图谱;
[0150]
确定所述异常子图谱与所述目标系统中同类型其它网元的历史 异常子图谱的相似度,基于所述相似度将所述异常子图谱确定为领域 知识图谱;
[0151]
基于运维专家的经验对所述领域知识图谱进行故障信息标注,得 到所述目标系统的运维领域异常知识图谱,其中所述故障信息包括: 故障名称和故障解决方案。或者,
[0152]
基于采集的目标系统的运行数据确定性能指标的时序数据,对所 述性能指标的时序数据进行异常检测确定其中的异常指标;
[0153]
基于预先设置的时间窗口按照性能指标所属的组件类型对所述 异常指标进行分组,基于所述异常指标的分组构建对应的异常子图谱;
[0154]
基于所述目标系统的系统架构对所述异常子图谱进行拼接,对拼 接后的异常子图谱进行校验,生成故障知识图谱;
[0155]
基于组件类型对所述故障知识图谱进行分割,得到故障子图谱;
[0156]
将所述故障子图谱与所述目标系统的运维领域异常知识图谱进 行匹配,确定所述故障子图谱对应的运维领域异常知识图谱;
[0157]
基于所述故障知识图谱分割得到的故障子图谱对应的运维领域 异常知识图谱标注的故障解决方案,得到目标故障解决方案。
[0158]
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的 形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可 读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说 对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品 的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若 干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者 网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而 前述的存储介质包括:u盘、移动硬盘、只读存储器(rom, read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、 磁碟或者光盘等各种可以存储程序代码的介质。
[0159]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序 产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计 算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能 够执行上述方法,该方法包括:
[0160]
基于采集的目标系统的运行数据确定性能指标的时序数据,对所 述性能指标的时序数据进行异常检测确定其中的异常指标;
[0161]
基于预先设置的时间窗口按照性能指标所属的组件类型对所述 异常指标进行分组,基于所述异常指标的分组构建对应的异常子图谱;
[0162]
确定所述异常子图谱与所述目标系统中同类型其它网元的历史 异常子图谱的相似度,基于所述相似度将所述异常子图谱确定为领域 知识图谱;
[0163]
基于运维专家的经验对所述领域知识图谱进行故障信息标注,得 到所述目标系统的运维领域异常知识图谱,其中所述故障信息包括: 故障名称和故障解决方案。或者,
[0164]
基于采集的目标系统的运行数据确定性能指标的时序数据,对所 述性能指标的时序数据进行异常检测确定其中的异常指标;
[0165]
基于预先设置的时间窗口按照性能指标所属的组件类型对所述 异常指标进行分组,基于所述异常指标的分组构建对应的异常子图谱;
[0166]
基于所述目标系统的系统架构对所述异常子图谱进行拼接,对拼 接后的异常子图谱进行校验,生成故障知识图谱;
[0167]
基于组件类型对所述故障知识图谱进行分割,得到故障子图谱;
[0168]
将所述故障子图谱与所述目标系统的运维领域异常知识图谱进 行匹配,确定所述故障子图谱对应的运维领域异常知识图谱;
[0169]
基于所述故障知识图谱分割得到的故障子图谱对应的运维领域 异常知识图谱标注的故障解决方案,得到目标故障解决方案。
[0170]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上 存储有计算机程序,该计算机程序被处理器执行时实现以执行上述方 法,该方法包括:
[0171]
基于采集的目标系统的运行数据确定性能指标的时序数据,对所 述性能指标的时序数据进行异常检测确定其中的异常指标;
[0172]
基于预先设置的时间窗口按照性能指标所属的组件类型对所述 异常指标进行分组,基于所述异常指标的分组构建对应的异常子图谱;
[0173]
确定所述异常子图谱与所述目标系统中同类型其它网元的历史 异常子图谱的相似度,基于所述相似度将所述异常子图谱确定为领域 知识图谱;
[0174]
基于运维专家的经验对所述领域知识图谱进行故障信息标注,得 到所述目标系统的运维领域异常知识图谱,其中所述故障信息包括: 故障名称和故障解决方案。或者,
[0175]
基于采集的目标系统的运行数据确定性能指标的时序数据,对所 述性能指标的时序数据进行异常检测确定其中的异常指标;
[0176]
基于预先设置的时间窗口按照性能指标所属的组件类型对所述 异常指标进行分组,基于所述异常指标的分组构建对应的异常子图谱;
[0177]
基于所述目标系统的系统架构对所述异常子图谱进行拼接,对拼 接后的异常子图谱进行校验,生成故障知识图谱;
[0178]
基于组件类型对所述故障知识图谱进行分割,得到故障子图谱;
[0179]
将所述故障子图谱与所述目标系统的运维领域异常知识图谱进 行匹配,确定所述故障子图谱对应的运维领域异常知识图谱;
[0180]
基于所述故障知识图谱分割得到的故障子图谱对应的运维领域 异常知识图谱标注的故障解决方案,得到目标故障解决方案。
[0181]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部 件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的 部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也 可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付 出创造性的劳动的情况下,即可以理解并实施。
[0182]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解 到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然 也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现 有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软 件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光 盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所 述的方法。
[0183]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而 非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领 域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技 术方案进行修改,或者对其中部分技术特征进行等同替
换;而这些修 改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方 案的精神和范围。

技术特征:
1.一种运维领域异常知识图谱的生成方法,其特征在于,包括:基于采集的目标系统的运行数据确定性能指标的时序数据,对所述性能指标的时序数据进行异常检测确定其中的异常指标;基于预先设置的时间窗口按照性能指标所属的组件类型对所述异常指标进行分组,基于所述异常指标的分组构建对应的异常子图谱;确定所述异常子图谱与所述目标系统中同类型其它网元的历史异常子图谱的相似度,基于所述相似度将所述异常子图谱确定为领域知识图谱;基于运维专家的经验对所述领域知识图谱进行故障信息标注,得到所述目标系统的运维领域异常知识图谱,其中所述故障信息包括:故障名称和故障解决方案。2.根据权利要求1所述的运维领域异常知识图谱的生成方法,其特征在于,所述基于预设的时间窗口按照性能指标所属的组件类型对所述异常指标进行分组,基于所述异常指标的分组构建对应的异常子图谱,包括:对所述异常指标的时序数据按照预先设置的时间窗口进行分割,确定每一个所述异常指标的异常数据在当前时间窗口的时序数据中的第一占比;将所述第一占比大于预先设置的第一阈值的所述异常指标确定为对应的时间窗口中的目标异常指标;将一个所述时间窗口中的所述目标异常指标按照性能指标所属的组件类型进行分组,基于所述目标异常指标的分组构建对应的异常子图谱。3.根据权利要求1或2所述的运维领域异常知识图谱的生成方法,其特征在于,所述确定所述异常子图谱与所述目标系统中同类型其它网元的历史异常子图谱的相似度,基于所述相似度将所述异常子图谱确定为领域知识图谱,包括:确定所述异常子图谱与所述目标系统中同类型其它网元的历史异常子图谱的相似度;确定生成所述异常子图谱的网元和所述相似度大于预先设置的第二阈值的其它网元,在所述同类型网元中的第二占比;将所述第二占比大于所述第三阈值的所述异常子图谱确定为所述领域知识图谱。4.根据权利要求3所述的运维领域异常知识图谱的生成方法,其特征在于,所述确定所述异常子图谱与所述目标系统中同类型其它网元的历史异常子图谱的相似度,针对每一个所述异常子图谱包括:确定所述异常子图谱与所述目标系统中同类型其它网元的历史异常子图谱的异常指标相似度、相同异常指标数量和基于node2vec的图向量相似度;对所确定的异常指标相似度、相同异常指标数量和基于node2vec的图向量相似度分别进行排名;针对每一个所述历史异常子图谱的异常指标相似度、相同异常指标数量和基于node2vec的图向量相似度的排名求和,得到对应的所述历史异常子图谱与所述异常子图谱的所述相似度。5.根据权利要求1所述的运维领域异常知识图谱的生成方法,其特征在于,所述基于采集的目标系统的运行数据确定性能指标的时序数据,对所述性能指标的时序数据进行异常检测确定其中的异常指标,包括:基于代理程序采集所述目标系统的运行数据,对所述运行数据进行处理得到所述性能
指标的时序数据;基于4-sigma对所述性能指标的时序数据进行异常检测,确定其中的异常指标。6.一种运维领域异常知识图谱的应用方法,其特征在于,包括:基于采集的目标系统的运行数据确定性能指标的时序数据,对所述性能指标的时序数据进行异常检测确定其中的异常指标;基于预先设置的时间窗口按照性能指标所属的组件类型对所述异常指标进行分组,基于所述异常指标的分组构建对应的异常子图谱;基于所述目标系统的系统架构对所述异常子图谱进行拼接,对拼接后的异常子图谱进行校验,生成故障知识图谱;基于组件类型对所述故障知识图谱进行分割,得到故障子图谱;将所述故障子图谱与所述目标系统的运维领域异常知识图谱进行匹配,确定所述故障子图谱对应的运维领域异常知识图谱;基于所述故障知识图谱分割得到的故障子图谱对应的运维领域异常知识图谱标注的故障解决方案,得到目标故障解决方案。7.一种运维领域异常知识图谱的生成装置,其特征在于,包括:异常指标检测模块,用于基于采集的目标系统的运行数据确定性能指标的时序数据,对所述性能指标的时序数据进行异常检测确定其中的异常指标;异常图谱构建模块,用于基于预先设置的时间窗口按照性能指标所属的组件类型对所述异常指标进行分组,基于所述异常指标的分组构建对应的异常子图谱;领域知识图谱提取模块,用于确定所述异常子图谱与所述目标系统中同类型其它网元的历史异常子图谱的相似度,基于所述相似度将所述异常子图谱确定为领域知识图谱;领域知识图谱打标模块,用于基于运维专家的经验对所述领域知识图谱进行故障信息标注,得到所述目标系统的运维领域异常知识图谱,其中所述故障信息包括:故障名称和故障解决方案。8.一种运维领域异常知识图谱的应用装置,其特征在于,包括:异常指标检测模块,用于基于采集的目标系统的运行数据确定性能指标的时序数据,对所述性能指标的时序数据进行异常检测确定其中的异常指标;异常图谱构建模块,用于基于预先设置的时间窗口按照性能指标所属的组件类型对所述异常指标进行分组,基于所述异常指标的分组构建对应的异常子图谱;故障知识图谱生成模块,用于基于所述目标系统的系统架构对所述异常子图谱进行拼接,对拼接后的异常子图谱进行校验,生成故障知识图谱;故障知识图谱分割模块,用于基于组件类型对所述故障知识图谱进行分割,得到故障子图谱;领域知识图谱匹配模块,用于将所述故障子图谱与所述目标系统的运维领域异常知识图谱进行匹配,确定所述故障子图谱对应的运维领域异常知识图谱;故障解决方案提取模块,用于基于所述故障知识图谱分割得到的故障子图谱对应的运维领域异常知识图谱标注的故障解决方案,得到目标故障解决方案。9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所
述运维领域异常知识图谱的生成方法,或者权利要求6所述运维领域异常知识图谱的应用方法的步骤。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述运维领域异常知识图谱的生成方法,或者权利要求6所述运维领域异常知识图谱的应用方法的步骤。

技术总结
本发明提供一种运维领域异常知识图谱的生成方法、应用方法和装置。其中生成方法包括:基于采集的目标系统的运行数据确定性能指标的时序数据,对性能指标的时序数据进行异常检测确定异常指标;基于预先设置的时间窗口按照性能指标所属组件类型对异常指标进行分组,基于异常指标的分组构建对应的异常子图谱;确定异常子图谱与目标系统中同类型其它网元的历史异常子图谱的相似度,基于相似度将异常子图谱确定为领域知识图谱;基于运维专家的经验对领域知识图谱进行包括故障名称和故障解决方案的故障信息的标注,得到目标系统的运维领域异常知识图谱。本发明可以根据异常事件发生时产生的异常数据自动生成运维领域异常知识图谱。谱。谱。


技术研发人员:王旭鹏 刘诗垒 任纪良 彭高历
受保护的技术使用者:北京宝兰德软件股份有限公司
技术研发日:2022.06.13
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-91.html

最新回复(0)