一种基于大数据分析的运维数据管理方法及系统与流程

专利2026-04-05  6


本发明属于计算机领域,涉及运维技术,具体是一种基于大数据分析的运维数据管理方法及系统。


背景技术:

1、现有的运维数据管理方法在进行运维的过程中,存在以下缺陷:1、对于出现故障或性能下降运维主机缺少自动化监测机制,容易导致突发事件预警不及时,从而影响运维主机的工作效率;2、在对运维主机进行故障监控的过程缺乏实时性和全局性,故障发生后,监控系统无法及时发出警报,导致运维团队无法迅速做出反应。为此,我们提出一种基于大数据分析的运维数据管理方法及系统。


技术实现思路

1、针对现有技术存在的不足,本发明目的是提供一种基于大数据分析的运维数据管理方法及系统。为了实现上述目的,本发明采用了如下技术方案:一种基于大数据分析的运维数据管理方法包括具体以下步骤:步骤s1:将目标数据中心分别划分为多个运维子区域,分别获取每一个运维子区域对应的设备故障系数,分别获取每一个运维子区域对应的任务检测系数,对任务检测系数进行均值计算得到任务完成指数,得到设备运维数据;对第一运维子区域对应的设备故障系数进行计算,具体公式配置如下:

2、;其中,sbg为第一运维子区域对应的设备故障系数,tb1至tbn分别为第一通报故障数值第n通报故障数值,gzj为故障监测时间长度数值;对第一任务监测系数进行计算,具体公式配置如下:

3、;其中,rwj1为第一任务监测系数,cpu为平均cpu使用率,ncl为平均内存利用率,rzx为任务执行时长;步骤s2:通过分析设备运维数据,计算每一个运维子区域对应的区域运维预警系数,获取区域运维预警系数阈值与区域运维预警系数进行数值比对,根据数值比对结果将运维子区域划分为第一类型运维子区域和第二类型运维子区域,得到运维区域划分数据;对区域运维预警系数进行计算,具体公式配置如下:

4、;其中,qyy为区域运维预警系数,sbg为设备故障系数,rwz为任务完成指数;步骤s3:根据运维区域划分数据分别对运维子区域和目标数据中心进行运行风险预警。

5、进一步地,所述步骤s1中,还包括具体以下步骤:步骤s11:将目标数据中心分别划分为m个服务器数量相同的运维设备子区域,并将其分别命名第一运维子区域至第m运维子区域;步骤s12:对第一运维子区域进行运维设备故障监测,得到第一运维子区域对应的设备故障系数;步骤s13:对第一运维子区域对应的任务完成指数进行获取;步骤s14:将第一运维子区域对应的设备故障系数和任务完成指数定义为第一区域运维数据;步骤s15:分别对第二至第m运维子区域对应的区域运维数据进行获取,得到第二区域运维数据至第m区域运维数据;步骤s16:将第一区域运维数据至第m区域运维数据定义为设备运维数据。

6、进一步地,所述步骤s12中,还包括具体以下步骤:步骤s121:在对第一运维子区域进行故障检测的过程中,获取当前时刻对应的时间数值为第一基准时间点,将第一基准时间往前一个特征监测时长对应的时间点作为第二基准时间点,将第一基准时间点与第二基准时间点之间的时段定义为故障监测时段;步骤s122:对故障监测时段对应的时间长度数值进行获取,得到故障监测时间长度数值;步骤s123:在第一运维子区域内分别选取n个运维主机作为测试主机,并将其分别命名为第一测试主机至第n测试主机;步骤s124:分别获取第一测试主机至第n测试主机在故障监测时段内通报的故障时间数,得到第一通报故障数值第n通报故障数值;步骤s125:将第一通报故障数值第n通报故障数值与故障监测时间长度数值通过计算得到第一运维子区域对应的设备故障系数。

7、进一步地,所述步骤s13中,还包括具体以下步骤:步骤s131:获取第一运维子区域对应的工作任务清单,在工作任务清单中分别选取i个工作任务作为样本工作任务,并将其分别命名为第一样本工作任务至第i样本工作任务;步骤s132:对第一样本工作任务进行工作检测,得到第一任务监测系数;步骤s133:分别对第二样本工作任务至第i样本工作任务进行工作监测,得到第二任务监测系数至第i任务监测系数;步骤s134:将第一任务监测系数至第i任务监测系数进行平均数计算,得到第一运维子区域对应的任务完成指数。

8、进一步地,所述步骤s132中,还包括具体以下步骤:步骤s1321:获取第一样本工作任务完成过程中,获取执行第一样本工作任务的运维主机对应的平均cpu使用率;步骤s1322:获取第一样本工作任务完成过程中,获取执行第一样本工作任务的运维主机对应的平均内存利用率;步骤s1323:将第一运维子区域开始执行第一样本工作任务的时间点作为第一执行监测时间点;步骤s1324:将第一运维子区域结束执行第一样本工作任务的时间点作为第二执行监测时间点;步骤s1325:计算第一执行监测时间点与第二执行监测时间点的数值差,得到任务执行时长;步骤s1326:将平均cpu使用率、平均内存利用率以及任务执行时长通过计算,得到第一任务监测系数。

9、进一步地,所述步骤s2,还包括具体以下步骤:步骤s21:获取设备运维数据,根据设备运维数据分别获取第一区域运维数据至第m区域运维数据;步骤s22:根据第一区域运维数据对第一运维子区域进行预警分析,得到第一运维子区域对应的区域运维预警系数;步骤s23:分别对第二区域运维数据至第m区域运维数据对应的区域运维预警系数进行获取;步骤s24:获取区域运维预警系数阈值与区域运维预警系数进行数值比对,根据数值比对结果将运维子区域划分为第一类型运维子区域和第二类型运维子区域,得到运维区域划分数据。

10、进一步地,所述步骤s22中,还包括具体以下步骤:步骤s221:根据第一区域运维数据分别获取设备故障系数和任务完成指数;步骤s222:将设备故障系数和任务完成指数计算得到区域运维预警系数。

11、进一步地,所述步骤s24中,还包括具体以下步骤:步骤s241:分别获取设备故障系数阈值和任务完成指数阈值,将设备故障系数阈值和任务完成指数阈值通过计算得到区域运维预警系数阈值;对区域运维预警系数阈值进行计算,具体公式配置如下:

12、;其中,qyy1为区域运维预警系数阈值,sbg1为设备故障系数阈值,rwz1为任务完成指数阈值;步骤s242:当区域运维预警系数大于等于区域运维预警系数阈值,则判断对应的运维子区域为第一类型运维子区域;步骤s243:当区域运维预警系数小于区域运维预警系数阈值,则判断对应的运维子区域为第二类型运维子区域。

13、进一步地,所述步骤s3中,还包括具体以下步骤:步骤s31:获取运维区域划分数据;步骤s32:当运维子区域为第一类型运维子区域,则对运维子区域正常进行风险监测;步骤s33:当运维子区域为第二类型运维子区域,则对运维子区域发布运维风险预警;步骤s34:获取目标数据中心中第二类型运维子区域对应的数量值,得到异常运维区域数量值,计算异常运维区域数量值与m的比值,得到异常区域数量比;步骤s35:获取异常区域数量比阈值,将异常区域数量比与异常区域数量比阈值进行数值比对;具体如下:步骤s351:当异常区域数量比大于等于异常区域数量比阈值,则对目标数据中心发布运行风险预警;步骤s352:当异常区域数量比小于异常区域数量比阈值,则对目标数据中心正常进行运行风险监测。

14、一种基于大数据分析的运维数据管理系统,各模块具体工作过程如下:数据获取模块:用于将目标数据中心分别划分为多个运维子区域,分别获取每一个运维子区域对应的设备故障系数和任务完成指数,得到设备运维数据;数据分析模块:用于通过分析设备运维数据,将运维子区域划分为第一类型运维子区域和第二类型运维子区域,得到运维区域划分数据;风险预警模块:用于根据运维区域划分数据分别对运维子区域和目标数据中心进行运行风险预警。

15、综上所述,由于采用了上述技术方案,本发明的有益效果是:1、本发明将目标数据中心分别划分为多个运维子区域,分别获取每一个运维子区域对应的设备故障系数和任务完成指数,实现对目标数据中心进行自动化动态监测,从而提高突发事件预警的及时性,缩短响应时间长,保障业务连续性。2、本发明根据运维区域划分数据分别对运维子区域和目标数据中心进行运行风险预警,能够有效保障数据中心故障监控过程的实时性和全局性。


技术特征:

1.一种基于大数据分析的运维数据管理方法,其特征在于,包括:

2.根据权利要求1所述的一种基于大数据分析的运维数据管理方法,其特征在于,所述步骤s1中,还包括具体以下步骤:

3.根据权利要求2所述的一种基于大数据分析的运维数据管理方法,其特征在于,所述步骤s12中,还包括具体以下步骤:

4.根据权利要求2所述的一种基于大数据分析的运维数据管理方法,其特征在于,所述步骤s13中,还包括具体以下步骤:

5.根据权利要求4所述的一种基于大数据分析的运维数据管理方法,其特征在于,所述步骤s132中,还包括具体以下步骤:

6.根据权利要求1所述的一种基于大数据分析的运维数据管理方法,其特征在于,所述步骤s2,还包括具体以下步骤:

7.根据权利要求6所述的一种基于大数据分析的运维数据管理方法,其特征在于,所述步骤s22中,还包括具体以下步骤:

8.根据权利要求6所述的一种基于大数据分析的运维数据管理方法,其特征在于,所述步骤s24中,还包括具体以下步骤:

9.根据权利要求1所述的一种基于大数据分析的运维数据管理方法,其特征在于,所述步骤s3中,还包括具体以下步骤:

10.一种基于大数据分析的运维数据管理系统,适用于权利要求1-9中任意一项所述的一种基于大数据分析的运维数据管理方法,其特征在于,所述管理系统各模块具体工作过程如下:


技术总结
本发明公开了一种基于大数据分析的运维数据管理方法及系统,涉及计算机领域,解决了现有运维数据管理方法故障预警效果差的问题,包括步骤S1:将目标数据中心分别划分为多个运维子区域,分别获取每一个运维子区域对应的设备故障系数和任务完成指数,得到设备运维数据,步骤S2:通过分析设备运维数据,将运维子区域划分为第一类型运维子区域和第二类型运维子区域,得到运维区域划分数据,步骤S3:根据运维区域划分数据分别对运维子区域和目标数据中心进行运行风险预警,本发明能够有效保障数据中心故障监控过程的实时性和全局性。

技术研发人员:兰满桔,封林,张宇文
受保护的技术使用者:无锡尚航数据有限公司
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-20766.html

最新回复(0)