基于AIOps的云电脑终端自动故障诊断与恢复方法、设备及介质与流程

专利2025-05-26  36


本发明涉及云计算、机器学习、大数据分析和人工智能,具体地说是一种基于aiops的云电脑终端自动故障诊断与恢复方法、设备及介质。


背景技术:

1、随着云计算技术的飞速发展,云电脑终端作为云计算服务的关键组成部分,其稳定性和可靠性对于用户而言至关重要。然而,面对云电脑终端日益增长的复杂性和多样性,传统的运维方式已经难以满足快速、准确地进行故障诊断与恢复的需求。可见,传统云电脑终端运维过程中故障诊断与恢复效率低下且准确性不高。

2、故如何提高云电脑终端的自动故障诊断与恢复的效率,并提高运维准确性是目前亟待解决的技术问题。


技术实现思路

1、本发明的技术任务是提供一种基于aiops的云电脑终端自动故障诊断与恢复方法、设备及介质,来解决如何提高云电脑终端的自动故障诊断与恢复的效率,并提高运维准确性的问题。

2、本发明的技术任务是按以下方式实现的,一种基于aiops的云电脑终端自动故障诊断与恢复方法,该方法具体如下:

3、实时采集云电脑终端运维数据;

4、对采集到的云电脑终端运维数据进行特征加工和特征提取的预处理操作,获取预处理后的特征数据;

5、使用加入注意力机制的deepant算法对预处理后的特征数据进行训练,构建异常检测模型;

6、根据输入的预处理后的特征数据输入到训练好的故障诊断模型中,故障诊断模型根据输入的特征数据进行故障诊断,输出故障概率或异常分数;若检测到故障发生,则自动识别出发生的故障类型;

7、根据诊断的故障类型,自动查询预设的故障恢复策略库,并生成相应的恢复策略,并根据历史恢复效果不断优化恢复策略库,提高恢复效率和成功率;

8、根据生成的恢复策略,通过自动化脚本或api接口,自动执行相应的故障恢复操作;

9、将故障恢复结果信息反馈到故障诊断模型中,确保恢复操作的成功过执行;

10、实时监测故障恢复情况。

11、作为优选,云电脑终端收集运维数据包括云电脑终端的cpu使用率、内存使用率、网络吞吐量以及网络流量。

12、作为优选,特征提取的方法包括tsne及minmaxscaler,确保数据质量,为后续分析提供可靠的数据基础。

13、作为优选,构建异常检测模型具体如下:

14、将特征数据划分为训练集和测试集;

15、经过注意力机制的deepant算法计算特征数据各个特征的权重;

16、将各个特征的权重输入到卷积神经网络(cnn)进行时间序列预测;

17、通过预测结果(y_hat)与实际结果(y_test)的差值进行异常区间的判断;

18、结合输入特征数据的类型,输出云电脑终端设备是否故障及故障类型。

19、作为优选,恢复策略包括重启服务、修改配置参数、恢复备份数据及清理冗余文件;

20、故障恢复操作包括重启设备及恢复备份数据

21、更优地,实时监测故障恢复情况具体如下:

22、对恢复后的云电脑终端进行性能评估和稳定性测试,确保故障已完全解决;

23、对恢复结果进行评估,将信息反馈到故障诊断模型中,不断优化模型的诊断能力和恢复效果。

24、一种基于aiops的云电脑终端自动故障诊断与恢复系统,该系统用于实现如权利要求1至6中任一项所述的基于aiops的云电脑终端自动故障诊断与恢复方法;该系统包括:

25、采集模块,用于实时采集云电脑终端运维数据;

26、预处理模块,用于对采集到的云电脑终端运维数据进行特征加工和特征提取的预处理操作,获取预处理后的特征数据;

27、构建模块,用于使用加入注意力机制的deepant算法对预处理后的特征数据进行训练,构建异常检测模型;

28、故障诊断模块,用于根据输入的预处理后的特征数据输入到训练好的故障诊断模型中,故障诊断模型根据输入的特征数据进行故障诊断,输出故障概率或异常分数;若检测到故障发生,则自动识别出发生的故障类型;

29、生成模块,用于根据诊断的故障类型,自动查询预设的故障恢复策略库,并生成相应的恢复策略,并根据历史恢复效果不断优化恢复策略库,提高恢复效率和成功率;

30、执行模块,用于根据生成的恢复策略,通过自动化脚本或api接口,自动执行相应的故障恢复操作;

31、反馈模块,用于将故障恢复结果信息反馈到故障诊断模型中,确保恢复操作的成功过执行;

32、监测模块,用于实时监测故障恢复情况。

33、作为优选,异常检测模型是加入注意力机制的deepant算法,运维数据预处理后得到的特征数据输入到异常检测模型中进行训练,为给定的时间序列数据点标为正常或异常,再对采集的实时数据进行分析,识别出故障类型;

34、监测模块对恢复后的云电脑终端进行性能评估和稳定性测试,确保故障已完全解决;并对恢复结果进行评估,将信息反馈到故障诊断模型中,不断优化模型的诊断能力和恢复效果。

35、其中,aiops(人工智能运维)是通过集成机器学习、大数据分析等先进技术,实现对云电脑终端运维数据,如系统日志、性能参数(cpu使用率、内存使用率、网络吞吐量等)的自动化分析和处理,从而提高运维效率和准确性,减少故障恢复的人力成本。

36、一种电子设备,包括:存储器和至少一个处理器;

37、其中,所述存储器上存储有计算机程序;

38、所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如上述的基于aiops的云电脑终端自动故障诊断与恢复方法。

39、一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述的基于aiops的云电脑终端自动故障诊断与恢复方法。

40、本发明的基于aiops的云电脑终端自动故障诊断与恢复方法、设备及介质具有以下优点:

41、(一)本发明通过实时收集和分析云电脑终端的运维数据,利用人工智能(ai)和加入注意力机制的基于深度学习的时间序列数据异常检测(deepant)算法对运维数据进行训练,生成异常检测模型,再将预处理的运维数据输入到模型中进行自动故障识别和分类,根据诊断结果,生成相应的故障恢复策略,通过生成的恢复策略自动执行相应的故障恢复操作,实现云电脑终端故障的自动诊断、预测及恢复,从而提高云电脑终端的稳定性和可用性,显著提高云电脑终端故障恢复效率,减少故障恢复时间及故障恢复人力成本;

42、(二)本发明通过实时收集和分析云电脑终端的运维数据,如性能参数(cpu使用率、内存使用率、网络吞吐量等)等,借助人工智能技术和深度学习算法,如加入注意力机制的deepant算法,对运维数据进行深入学习和模型训练,构建出能够对故障准确识别和分类的异常检测模型,并生成相应的故障恢复策略,通过生成的恢复策略自动执行相应的故障恢复操作,从而确保云电脑终端的稳定运行,提高运维效率,降低运维成本,解决了传统云电脑终端运维过程中故障诊断与恢复效率低下、准确性不高的问题,将aiops运用到云电脑终端的自动故障诊断与恢复当中,为云电脑终端的自动化运维提供了有力支持,实现对云电脑终端故障的高效、精准、自适应和智能化的诊断与恢复;

43、(三)本发明通过综合运用云计算、机器学习、大数据分析和人工智能等先进技术,实现了对云电脑终端的高效、精准和智能化的故障诊断与恢复;有益效果如下:

44、①实时采集和处理数据,确保数据的时效性;

45、②提高了故障诊断的准确性和效率,减少了人工干预的需求;

46、③实时监控云电脑终端的运行状态,及时发现异常并启动故障诊断流程,从而迅速定位并解决故障,降低了故障影响时间和范围;

47、④通过不断学习和优化,提高了故障诊断模型的自适应能力和鲁棒性;

48、⑤通过对历史数据的分析和学习,能够预测潜在故障,提前采取预防措施;

49、⑥诊断出故障后,能够自动执行恢复操作,迅速使云电脑终端恢复正常,保障了用户的业务连续性,提升用户体验;

50、⑦触发智能响应机制,实现自动恢复、资源调优等操作,提高系统自我运维能力。


技术特征:

1.一种基于aiops的云电脑终端自动故障诊断与恢复方法,其特征在于,该方法具体如下:

2.根据权利要求1所述的基于aiops的云电脑终端自动故障诊断与恢复方法,其特征在于,云电脑终端收集运维数据包括云电脑终端的cpu使用率、内存使用率、网络吞吐量以及网络流量。

3.根据权利要求1所述的基于aiops的云电脑终端自动故障诊断与恢复方法,其特征在于,特征提取的方法包括tsne及minmaxscaler。

4.根据权利要求1所述的基于aiops的云电脑终端自动故障诊断与恢复方法,其特征在于,构建异常检测模型具体如下:

5.根据权利要求1所述的基于aiops的云电脑终端自动故障诊断与恢复方法,其特征在于,恢复策略包括重启服务、修改配置参数、恢复备份数据及清理冗余文件;

6.根据权利要求1-5中任一项所述的基于aiops的云电脑终端自动故障诊断与恢复方法,其特征在于,实时监测故障恢复情况具体如下:

7.一种基于aiops的云电脑终端自动故障诊断与恢复系统,其特征在于,该系统用于实现如权利要求1至6中任一项所述的基于aiops的云电脑终端自动故障诊断与恢复方法;该系统包括:

8.根据权利要求7所述的基于aiops的云电脑终端自动故障诊断与恢复系统,其特征在于,异常检测模型是加入注意力机制的deepant算法,运维数据预处理后得到的特征数据输入到异常检测模型中进行训练,为给定的时间序列数据点标为正常或异常,再对采集的实时数据进行分析,识别出故障类型;

9.一种电子设备,其特征在于,包括:存储器和至少一个处理器;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至6中任一项所述的基于aiops的云电脑终端自动故障诊断与恢复方法。


技术总结
本发明公开了基于AIOps的云电脑终端自动故障诊断与恢复方法、设备及介质,属于云计算、机器学习、大数据分析和人工智能技术领域,本发明要解决的技术问题为如何提高云电脑终端的自动故障诊断与恢复的效率,并提高运维准确性,采用的技术方案为:实时采集云电脑终端运维数据;对采集到的云电脑终端运维数据进行特征加工和特征提取的预处理操作,获取预处理后的特征数据;使用加入注意力机制的DeepAnT算法对预处理后的特征数据进行训练,构建异常检测模型;根据输入的预处理后的特征数据输入到训练好的故障诊断模型中,故障诊断模型根据输入的特征数据进行故障诊断,输出故障概率或异常分数;若检测到故障发生,则自动识别出发生的故障类型。

技术研发人员:谷凤其,耿飞,毛浦
受保护的技术使用者:浪潮通信技术有限公司
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-14367.html

最新回复(0)