1.本发明涉及服务器光模块监控及故障预测领域,具体是指一种服务器光模块监控及故障预测的方法。
背景技术:2.现有技术:
3.(1)预警电流温度联合检测。采集光模块工作状态下的电流及同一时刻的温度;判断采集到的电流是否满足预设的预警电流,当电流满足预警电流时,将电流及同一时刻的温度代入光模块寿命预测公式获取光模块的使用时间。例如专利号为:cn103152095a公开的专利文件。
4.(2)监测tx\u偏置检测。通过监测激光器的tx\u偏置来预测光模块故障。同时,激光器的tx\u偏置与temp和vcc密切相关,在设置tx\u偏置限值时需要考虑temp和vcc的影响。例如专利号为:cn103152095a公开的专利文件。
5.上述现有技术(1)的实现方式与厂商相关,通常使用厂家自带的工具。a)首先基于开源的工具,获取snmp数据。b)基于预警电流温度阈值判定的实现方式主要来自于每个厂商自有的故障数据集。而现场环境下,光模块的故障与定位,拓扑,基础数据,软件状态密切相关,这些因素在现有技术(1)中并未考虑到,因此不准确。
6.上述现有技术(2)与现有技术(1)的区别只是考虑了temp和vcc的影响,,但同样没有考虑到定位,拓扑,基础数据,软件状态,因此同样不准确。
7.光模块服务器网络管理是通过监控网络拓扑结构实现的。拓扑定位信息可以提高光模块网络故障管理、测量管理、配置和名称管理、性能管理和安全管理的性能。网络管理者可以根据拓扑定位信息快速定位和修复故障节点。对于网络管理系统来说,拓扑定位信息对于网络管理是非常重要的。
8.近年来,随着光模块服务器网络的快速发展,所使用的技术越来越复杂,光模块设备也越来越多样化。随着设备和应用的增加,维护和管理的工作也变得越来越艰巨。由于光模块服务器网络规模比较大,光模块的物理位置比较分散,数量很多,很难统一管理。一旦出现问题,技术人员很难找到问题点。工作比较被动,效率很低,导致运维的工作压力和工作量急剧增加。
9.基于上述问题,一种服务器光模块监控及故障预测的方法成为整个社会亟待解决的技术问题。
技术实现要素:10.为解决上述技术问题,本发明提供的技术方案为:一种服务器光模块监控及故障预测的方法,包括以下几个部分,
11.(1)探针数据采集:运维数据通过探针数据采集模块完成输入,同时传递给数据存储模块和实时数据模型计算模块,探针数据采集模块基于apache nifi系统开发,支持离线
数据同步和实时数据接入,并能够实现定制化的轻量级数据预处理,通过基于kafka的消息队列将数据缓存和分发;
12.(2)数据存储:数据存储支持历史数据的保存和加工,以支持系统画像等在线分析应用的需求,数据存储引擎通过clickhouse构建,支持olap查询应用;
13.(3)离线批数据模型计算:离线批数据计算负责将原始数据进行加工分析,应用机器学习算法等构建完成模型训练和结果存储,系统支持数据标签的定义和计算;
14.(4)实时流数据模型计算:对于实时要求高的计算任务,通过flink实时计算能力完成计算,实时计算可以应用离线计算的结果;
15.(5)光模块故障预测服务接口:光模块故障预测数据应用通过统一的数据服务接口层完成对实时处理的数据结果和离线数据分析结果的查询应用;
16.(6)数据开发和管理:基于flow-based programming范式设计的node-red开发界面和数据处理节点开发和代码组件上传,提供算法模型定义和作业调度能力和数据管理能力;
17.(7)光模块故障预测并修复:最终对外提供光模块故障,趋势预测等功能服务。
18.进一步地,所述探针数据采集与数据存储之间数据单向传输,所述数据存储分别与离线批数据模型计算、实时流数据模型计算之间数据单向传输,其中,离线批数据模型计算、实时流数据模型均依次与光模块故障预测服务接口、光模块故障预测并修复之间数据单向传输。
19.进一步地,所述数据开发和管理分别与数据存储、离线批数据模型计算、实时流数据模型计算之间数据单向传输。
20.发明与现有技术相比的优点在于:
21.本发明的有益效果如下:
22.本发明通过建立服务器光模块硬件的统一监控平台来解决监控、预测、修复等问题。通过光模块部件级粒度的指标采集,快速感知光模块硬件故障并在线修复故障,更进一步是基于ai的故障预测、整体容量评估、tco评估等功能,来提高服务器光模块硬件服务的sla,降低整体运维成本、延长服务器服役的生命周期。
23.本发明在于简化了在公有云/私有云中使用多个厂商服务器环境下,现有x86平台服务器对于光模块器件监控管理成本,相对于之前需要维护多套不同厂商管理措施和软件的方式,本发明最终只需要基于通用的api完成对于所有x86服务器光模块器件的监管控,且基于采集的基础数据实现了对于故障的预测分析。
附图说明
24.图1为本发明一种服务器光模块监控及故障预测的方法的模块示意图。
具体实施方式
25.下面结合附图对本发明做进一步的详细说明。
26.结合附图,对本发明进行详细介绍。
27.本发明在具体实施时提供了一种服务器光模块监控及故障预测的方法,包括以下几个部分,
28.(1)探针数据采集:运维数据通过探针数据采集模块完成输入,同时传递给数据存储模块和实时数据模型计算模块,探针数据采集模块基于apache nifi系统开发,支持离线数据同步和实时数据接入,并能够实现定制化的轻量级数据预处理,通过基于kafka的消息队列将数据缓存和分发;
29.(2)数据存储:数据存储支持历史数据的保存和加工,以支持系统画像等在线分析应用的需求,数据存储引擎通过clickhouse构建,支持olap查询应用;
30.(3)离线批数据模型计算:离线批数据计算负责将原始数据进行加工分析,应用机器学习算法等构建完成模型训练和结果存储,系统支持数据标签的定义和计算;
31.(4)实时流数据模型计算:对于实时要求高的计算任务,通过flink实时计算能力完成计算,实时计算可以应用离线计算的结果;
32.(5)光模块故障预测服务接口:光模块故障预测数据应用通过统一的数据服务接口层完成对实时处理的数据结果和离线数据分析结果的查询应用;
33.(6)数据开发和管理:基于flow-based programming范式设计的node-red开发界面和数据处理节点开发和代码组件上传,提供算法模型定义和作业调度能力和数据管理能力;
34.(7)光模块故障预测并修复:最终对外提供光模块故障,趋势预测等功能服务。
35.2.根据权利要求1所述的一种服务器光模块监控及故障预测的方法,其特征在于:所述探针数据采集与数据存储之间数据单向传输,所述数据存储分别与离线批数据模型计算、实时流数据模型计算之间数据单向传输,其中,离线批数据模型计算、实时流数据模型均依次与光模块故障预测服务接口、光模块故障预测并修复之间数据单向传输。
36.3.根据权利要求1所述的一种服务器光模块监控及故障预测的方法,其特征在于:所述数据开发和管理分别与数据存储、离线批数据模型计算、实时流数据模型计算之间数据单向传输。
37.本发明的具体实施方式如下:
38.a)探针数据采集,部署采集agent,至少每隔2小时采集一次光模块的基础数据
39.'1_value','3_value','5_value','5_raw','7_value','9_value','10_value'
……
40.其中1_value表示基础数据第一个字段value值,'5_raw',基础数据第五个字段value值的raw值
41.b)数据记录格式为:
42.timestamp,'1_value','3_value','5_value','5_raw','7_value','9_value','10_value'
43.c)数据存储有2种方式:1》使用监控server上传存储的数据;
44.2》将基础数据数据写入本地文件,使用第三方agent处理数据导出;
45.d)积累20天的数据作为模型训练样本
46.e)模型更新完成后,将模型预测服务打包为独立部署包,部署到测试机器上
47.f)部署后可定时对基础数据属性值做预测,输出可能故障的光模块结果
48.具体光模块故障预测分析过程:
49.i.主要基础数据属性分析:
50.根据过去光模块运维经验,对数据集样本基础数据清洗整理,部分结果如下:
[0051][0052]
1.加入范式阶数特征分析:
[0053]
集提供了一个季度持续的时序数据,对主要基础数据属性在故障前若干天特征数值,以及实际值和时序预测值的偏差进行分析。在检测到特征数值较大的变异点后,统计变异点到故障的天数特征。
[0054]
b)模型选择:对比了常用的分类模型如决策树,随机森林,gbdt,svm,lr等之后,本次实验过程中选取了xgboost和gbdt作为模型进行训练
[0055]
c)模型训练与验证结果
[0056]
训练集:样本:9998910,光模块数:109877
[0057]
验证集:样本:2499728,光模块数:27470
[0058]
正样本:要预测光模块分类;负样本:其他分类
[0059]
评估指标:tp=预测正确正样本,fp=预测错误正样本,tn=预测正确负样本,fn=预测错误负样本
[0060]
精确率:
[0061][0062]
召回率:
[0063][0064]
测试结果:
[0065][0066]
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
技术特征:1.一种服务器光模块监控及故障预测的方法,其特征在于:包括以下几个部分,(1)探针数据采集:运维数据通过探针数据采集模块完成输入,同时传递给数据存储模块和实时数据模型计算模块,探针数据采集模块基于apache nifi系统开发,支持离线数据同步和实时数据接入,并能够实现定制化的轻量级数据预处理,通过基于kafka的消息队列将数据缓存和分发;(2)数据存储:数据存储支持历史数据的保存和加工,以支持系统画像等在线分析应用的需求,数据存储引擎通过clickhouse构建,支持olap查询应用;(3)离线批数据模型计算:离线批数据计算负责将原始数据进行加工分析,应用机器学习算法等构建完成模型训练和结果存储,系统支持数据标签的定义和计算;(4)实时流数据模型计算:对于实时要求高的计算任务,通过flink实时计算能力完成计算,实时计算可以应用离线计算的结果;(5)光模块故障预测服务接口:光模块故障预测数据应用通过统一的数据服务接口层完成对实时处理的数据结果和离线数据分析结果的查询应用;(6)数据开发和管理:基于flow-based programming范式设计的node-red开发界面和数据处理节点开发和代码组件上传,提供算法模型定义和作业调度能力和数据管理能力;(7)光模块故障预测并修复:最终对外提供光模块故障,趋势预测等功能服务。2.根据权利要求1所述的一种服务器光模块监控及故障预测的方法,其特征在于:所述探针数据采集与数据存储之间数据单向传输,所述数据存储分别与离线批数据模型计算、实时流数据模型计算之间数据单向传输,其中,离线批数据模型计算、实时流数据模型均依次与光模块故障预测服务接口、光模块故障预测并修复之间数据单向传输。3.根据权利要求1所述的一种服务器光模块监控及故障预测的方法,其特征在于:所述数据开发和管理分别与数据存储、离线批数据模型计算、实时流数据模型计算之间数据单向传输。
技术总结本发明公开了一种服务器光模块监控及故障预测的方法,通过建立服务器光模块硬件的统一监控平台来解决监控、预测、修复等问题。通过光模块部件级粒度的指标采集,快速感知光模块硬件故障并在线修复故障,更进一步是基于AI的故障预测、整体容量评估、TCO评估等功能,来提高服务器光模块硬件服务的SLA,降低整体运维成本、延长服务器服役的生命周期。延长服务器服役的生命周期。延长服务器服役的生命周期。
技术研发人员:朱颖航 朱品燕
受保护的技术使用者:北京云集智造科技有限公司
技术研发日:2022.07.12
技术公布日:2022/11/1