1.本发明属于数据存储技术领域,具体涉及一种基于多维数据融合的硬盘状态通用监测方法。
背景技术:2.在存储系统的生产环境中,硬盘问题高频发生,威胁着数据安全和存储系统性能。在高并发、高带宽的性能要求下,硬盘故障已经不是制约存储系统性能的主要因素,慢盘成为制约中小型存储系统性能的主要原因。现有的硬盘状态监测大多使用硬盘smart信息,以及基于smart信息的机器学习方法。但smart信息不能在故障前报告错误,且只能报告少量故障;不同厂家、型号的硬盘报告的信息量不同,例如sas盘、ssd仅报告少量特征,因此机器学习的方法只适用于有大量数据的某一型号硬盘,且不能发现系统中的慢盘,不是一种通用的硬盘状态监测技术。针对中小型存储系统与报告少量smart信息的硬盘,亟需一种切实可行的、通用的硬盘状态监测技术。
技术实现要素:3.(一)要解决的技术问题
4.本发明要解决的技术问题是:为中小型存储系统的各类机械盘、固态盘,提供一种生产环境切实可用的异常状态监测方法。
5.(二)技术方案
6.为了解决上述技术问题,本发明提供了一种基于多维数据融合的硬盘状态通用监测方法,包括以下步骤:
7.采集存储系统中硬盘的多维数据,包括硬盘smart数据、kernel日志数据、轻量级映射表dmap数据、io细粒度统计数据、存储系统操作日志数据;
8.通过对所述多维数据进行模型匹配、关键信息提取或统计分析得到多维特征数据,并利用操作日志数据对多维特征数据进行数据筛选;
9.将筛选后的多维特征数据进行对比,将得到的异常数据进行融合处理及决策,定位慢速和故障两种状态的硬盘。
10.优选地,在采集所述多维数据之后,还对其中的dmap数据进行如下管理:
11.首先是dmap数据的初始化管理,将物理硬盘地址空间按照1024m的块大小进行切片,每一块地址空间对应dmap数据的一个byte,它记录着对应地址空间数据不一致的次数,用多个byte来表征一个硬盘的状态。
12.在完成dmap数据的初始化后,存储系统在校验完数据后,调用api提交校验结果,基于校验结果解析数据地址与物理地址的映射关系;
13.最后,维护dmap数据与硬盘物理地址的动态映射,对增减的物理盘进行身份识别。
14.优选地,所采集的硬盘smart数据、kernel日志数据、存储系统操作日志数据、dmap数据、以及io细粒度统计数据中,前三者是存储系统能直接提供的数据,后两者是为表征硬
盘状态而生成的两种数据,其中,存储系统操作日志数据不参与横向对比。
15.优选地,通过对所述多维数据进行模型匹配、关键信息提取或统计分析得到多维特征数据具体为:
16.首先通过对硬盘smart数据进行模型匹配得到一系列smart特征;其次通过对kernel日志数据进行分析,提取出有关硬盘的警告、错误信息,得到kernel特征;然后通过对存储系统数据校验得到的dmap数据进行分析统计得到dmap特征;最后根据io细粒度统计数据,即所统计的一段时间内不同大小等级的io的时延、带宽、占比、重试次数信息,得到细粒度io特征,所述smart特征、kernel特征、dmap特征、细粒度io特征就组成了多维特征数据。
17.优选地,所采集的多维数据中,io细粒度统计信息的获取方式如下:
18.按io大小,将io分为四个等级:0-4k,4-16k,16-512k,》512k,统计服务运行在内核态,收集每一次io请求的信息,每单位时间统计分析一次,将io不同等级占比、时延、带宽、重试次数信息存放到循环队列中,并通过socket将数据发送给应用程序。
19.优选地,利用操作日志数据对多维特征数据进行数据筛选的具体过程为:
20.存储系统操作日志数据解析,提取非法操作信息;
21.列出多维特征数据与非法操作具有时间相关的数据;
22.解析操作与特征数据的相关性,过滤掉多维特征数据中强相关的数据。
23.优选地,将筛选后的多维特征数据进行对比时,对比对象是同类硬盘,即有着相同型号并在存储系统中具备相同角色和地位的硬盘;在多维数据横向对比过程中,按特征进行一一对比,找出偏差异常的特征和硬盘,是否异常的判断标准是预设的;且每一维度的对比建立在要素一致的基础上。
24.优选地,对同类硬盘的多维特征数据进行横向对比时,横向对比流程包括系统解析、硬盘分类、数据对比三个部分:
25.首先解析存储系统,根据存储系统的特性和数据存放规则,按角色、位置、型号为硬盘标记label;
26.其次根据硬盘不同的label,将硬盘分为不同的组,同一组内的硬盘具有相同的角色、型号,存储系统将数据均匀分布在硬盘上;
27.最后,按组将这些硬盘的多维特征数据进行一一对比,找出有异常的硬盘,为异常数据融合处理及决策做数据准备。
28.优选地,将得到的异常数据进行融合处理及决策,定位慢速和故障两种状态的硬盘时,将这些多维特征数据中相关的特征进行融合,得到一系列不相关的特征,最后再进一步加权求和进行决策,得到硬盘的状态,包括正常、慢速、故障三种状态;其中加权求和时,不同的决策目的对应不同的加权系数,针对慢盘决策,细粒度io特征和smart特征的权重占比均比其余两种特征权重占比大;针对坏盘决策,dmap特征、kernel特征和smart特征占比均比细粒度io特征的权重占比大。决策的结果是两个二值化(0、1)的值,分别表示对硬盘慢速和故障两种状态的检测结果。
29.本发明还提供了一种用于实现所述方法的监测系统。
30.(三)有益效果
31.为及时准确定位存储系统中的慢盘、坏盘,本发明设计了一种基于多维数据融合
的硬盘状态通用监测方法。该方案中设计了一套硬盘空间状态轻量级映射表dmap与硬盘细粒度io统计方法;通过对smart数据、kernel日志、dmap、io细粒度信息处理、筛选得到的多维特征数据进行横向对比,实时快速地定位异常硬盘;通过对异常硬盘多维数据进行融合决策,排除状态误判,准确发现慢盘、故障盘。本发明是一种轻量级应用技术,能够在不影响存储业务的同时,提供快速定位慢盘、坏盘的服务,有效支撑存储系统的高性能、高可靠性。
附图说明
32.图1为本发明的多维数据融合决策架构图;
33.图2为本发明的dmap管理架构图;
34.图3为本发明的横向对比服务设计原理图;
35.图4为本发明的多维数据融合图。
具体实施方式
36.为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
37.本发明提出了一种基于多维数据融合的硬盘状态通用监测方法。如图1所示,本发明的方法采用五个模块实现,数据采集模块用于采集存储系统中硬盘的多维数据,包括硬盘smart数据、kernel日志数据、dmap数据、io细粒度统计数据、存储系统操作日志数据,数据预处理模块用于通过对多维数据进行模型匹配、关键信息提取或统计分析等方式处理得到多维特征数据,并利用操作日志数据对其进行数据筛选,横向对比模块用于对比筛选得到的多维特征数据,将异常数据提交给数据融合决策模块进行融合处理及决策。
38.数据采集模块所采集的多维数据中,轻量级映射表dmap的管理方法如下:
39.本发明利用存储系统的数据校验功能,提供一套通用的硬盘空间状态映射表(dmap,disk status map)操作api,图2描述了dmap的管理架构,其中dmap manager模块是整个架构的核心,对dmap的管理主要分为初始化、更新、重映射三个过程。
40.首先是dmap的初始化管理,dmap manager将物理硬盘地址空间按照1024m的块大小进行切片,每一块地址空间对应dmap的一个byte,它记录着对应地址空间数据不一致的次数,用多个byte来表征一个硬盘的状态。通常情况下,健康硬盘发生数据位翻转和写入错误的概率接近0。
41.在完成dmap的初始化后,存储系统的数据校验模块在校验完数据后,调用api即可提交校验结果给dmap管理器,dmap管理器解析数据地址与物理地址的映射关系,将结果更新到dmap中。
42.最后,dmap管理器维护着dmap与硬盘物理地址的动态映射,对增减的物理盘进行身份识别。
43.数据采集模块是本发明的基础,它所采集的硬盘smart数据、kernel log数据、存储系统操作日志数据、dmap数据、以及io细粒度统计数据中,前三者是存储系统能直接提供的数据,后两者是本发明为准确表征硬盘状态而生成的两种数据,其中,存储系统操作日志数据不参与横向对比。为了得到多维特征数据,数据预处理模块首先通过对硬盘smart数据进行模型匹配得到一系列smart特征;其次通过对kernel日志的分析,提取出有关硬盘的警
告、错误信息,得到kernel特征;然后通过对存储系统数据校验得到的dmap数据进行分析统计得到dmap特征;最后根据所统计的一段时间内不同大小等级的io的时延、带宽、占比、重试次数等信息,得到细粒度io特征。以上smart特征、kernel特征、dmap特征、细粒度io特征就组成了多维特征数据。
44.数据采集模块所采集的多维数据中,io细粒度统计信息的获取方式如下:
45.本发明将硬盘io统计进行更细粒度地划分,便于对每一次统计的io进行成分分析。按io大小,将io分为了四个等级:0-4k,4-16k,16-512k,》512k。统计服务运行在内核态,负责收集每一次io请求的信息,每单位时间统计分析一次,将io不同等级占比、时延、带宽、重请求信息(重试次数)存放到循环队列中,并通过socket将数据发送给应用程序。
46.多维特征数据需要经过最关键的数据筛选过程才能用于横向比较,数据筛选是减少误判的重要环节,它排除掉因不合规运维操作形成的易误判特征数据。具体实施过程为:
47.存储系统操作日志数据解析,提取非法操作信息;
48.列出多维特征数据与非法操作具有时间相关的数据;
49.解析操作与特征数据的相关性,过滤掉多维特征数据中强相关的数据。
50.多维特征数据横向对比是本发明的核心,它的基础(对比对象)是同类硬盘,即有着相同型号并在存储系统中具备相同角色和地位的硬盘。现代存储系统的设计目标是数据均匀分布和对称架构,在生产环境中,同一批次的存储系统大多使用同一类型的硬盘,这为横向对比提供了物质基础。在多维数据横向对比中,按特征进行一一对比,找出偏差异常的特征和硬盘。
51.横向对比的算法精髓在于每一维度的对比建立在要素一致的基础上,例如进行细粒度io特征对比需要io成分相同,kernel特征对比需要信息是同种类型。
52.横向对比模块对同类硬盘的多维特征数据进行横向对比的方式如下:
53.本发明通过对同类硬盘的横向对比,找到状态异常的硬盘,而不依赖于大数据分析,能有效运行在中小型文件系统。如图3所示,横向对比流程主要分为系统解析、硬盘分类、数据对比三个部分。
54.首先解析存储系统,目前支持的主流存储系统有raid、ceph、gluster,根据存储系统的特性和数据存放规则,按角色、位置、型号等为硬盘标记label;
55.其次根据硬盘不同的label,将硬盘分为不同的组,同一组内的硬盘具有相同的角色、型号,存储系统将数据均匀分布在硬盘上,这些硬盘应当具有相似的外在特征;
56.最后,按组将这些硬盘的多维特征数据进行一一对比,找出有异常的硬盘,为多维数据融合决策做数据准备。
57.数据融合决策模块的多维数据融合决策模型设计:
58.本发明实现了对多维数据融合的处理,避免单维数据决策的误判而造成存储系统性能及成本损失。如图4所示,多维数据主要包含硬盘smart数据、dmap数据、kernel log数据以及io细粒度统计数据,这些数据在经过数据预处理后,形成了多个特征数据。多维数据融合将这些特征数据中相关的特征进行融合,得到一系列不相关的特征,最后再进一步加权进行决策,得到硬盘的状态(正常、慢速、故障)。多维数据融合决策是本发明最终要实现的目的,数据的融合过程是一个相关特征融合、特征数值化、加权求和的过程,不同的决策目的对应不同的加权系数。针对慢盘决策,io特征和smart特征的权重占比大;针对坏盘决
策重点关注dmap特征、kernel特征和smart特征。决策的结果是两个二值化(0、1)的值,分别表示对硬盘慢速和故障两种状态的检测结果,以供存储系统及运维人员使用。
59.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
技术特征:1.一种基于多维数据融合的硬盘状态通用监测方法,其特征在于,包括以下步骤:采集存储系统中硬盘的多维数据,包括硬盘smart数据、kernel日志数据、轻量级映射表dmap数据、io细粒度统计数据、存储系统操作日志数据;通过对所述多维数据进行模型匹配、关键信息提取或统计分析得到多维特征数据,并利用操作日志数据对多维特征数据进行数据筛选;将筛选后的多维特征数据进行对比,将得到的异常数据进行融合处理及决策,定位慢速和故障两种状态的硬盘。2.如权利要求1所述的方法,其特征在于,在采集所述多维数据之后,还对其中的dmap数据进行如下管理:首先是dmap数据的初始化管理,将物理硬盘地址空间按照1024m的块大小进行切片,每一块地址空间对应dmap数据的一个byte,它记录着对应地址空间数据不一致的次数,用多个byte来表征一个硬盘的状态。在完成dmap数据的初始化后,存储系统在校验完数据后,调用api提交校验结果,基于校验结果解析数据地址与物理地址的映射关系;最后,维护dmap数据与硬盘物理地址的动态映射,对增减的物理盘进行身份识别。3.如权利要求1所述的方法,其特征在于,所采集的硬盘smart数据、kernel日志数据、存储系统操作日志数据、dmap数据、以及io细粒度统计数据中,前三者是存储系统能直接提供的数据,后两者是为表征硬盘状态而生成的两种数据,其中,存储系统操作日志数据不参与横向对比。4.如权利要求3所述的方法,其特征在于,通过对所述多维数据进行模型匹配、关键信息提取或统计分析得到多维特征数据具体为:首先通过对硬盘smart数据进行模型匹配得到一系列smart特征;其次通过对kernel日志数据进行分析,提取出有关硬盘的警告、错误信息,得到kernel特征;然后通过对存储系统数据校验得到的dmap数据进行分析统计得到dmap特征;最后根据io细粒度统计数据,即所统计的一段时间内不同大小等级的io的时延、带宽、占比、重试次数信息,得到细粒度io特征,所述smart特征、kernel特征、dmap特征、细粒度io特征就组成了多维特征数据。5.如权利要求4所述的方法,其特征在于,所采集的多维数据中,io细粒度统计信息的获取方式如下:按io大小,将io分为四个等级:0-4k,4-16k,16-512k,>512k,统计服务运行在内核态,收集每一次io请求的信息,每单位时间统计分析一次,将io不同等级占比、时延、带宽、重试次数信息存放到循环队列中,并通过socket将数据发送给应用程序。6.如权利要求5所述的方法,其特征在于,利用操作日志数据对多维特征数据进行数据筛选的具体过程为:存储系统操作日志数据解析,提取非法操作信息;列出多维特征数据与非法操作具有时间相关的数据;解析操作与特征数据的相关性,过滤掉多维特征数据中强相关的数据。7.如权利要求5所述的方法,其特征在于,将筛选后的多维特征数据进行对比时,对比对象是同类硬盘,即有着相同型号并在存储系统中具备相同角色和地位的硬盘;在多维数据横向对比过程中,按特征进行一一对比,找出偏差异常的特征和硬盘,是否异常的判断标
准是预设的;且每一维度的对比建立在要素一致的基础上。8.如权利要求7所述的方法,其特征在于,对同类硬盘的多维特征数据进行横向对比时,横向对比流程包括系统解析、硬盘分类、数据对比三个部分:首先解析存储系统,根据存储系统的特性和数据存放规则,按角色、位置、型号为硬盘标记label;其次根据硬盘不同的label,将硬盘分为不同的组,同一组内的硬盘具有相同的角色、型号,存储系统将数据均匀分布在硬盘上;最后,按组将这些硬盘的多维特征数据进行一一对比,找出有异常的硬盘,为异常数据融合处理及决策做数据准备。9.如权利要求8所述的方法,其特征在于,将得到的异常数据进行融合处理及决策,定位慢速和故障两种状态的硬盘时,将这些多维特征数据中相关的特征进行融合,得到一系列不相关的特征,最后再进一步加权求和进行决策,得到硬盘的状态,包括正常、慢速、故障三种状态;其中加权求和时,不同的决策目的对应不同的加权系数,针对慢盘决策,细粒度io特征和smart特征的权重占比均比其余两种特征权重占比大;针对坏盘决策,dmap特征、kernel特征和smart特征占比均比细粒度io特征的权重占比大。决策的结果是两个二值化(0、1)的值,分别表示对硬盘慢速和故障两种状态的检测结果。10.一种用于实现如权利要求1至9中任一项所述方法的监测系统。
技术总结本发明涉及一种基于多维数据融合的硬盘状态通用监测方法,属于数据存储技术领域。该方案中设计了一套硬盘空间状态轻量级映射表DMAP与硬盘细粒度IO统计方法;通过对SMART数据、Kernel日志、DMAP、IO细粒度信息处理、筛选得到的多维特征数据进行横向对比,实时快速地定位异常硬盘;通过对异常硬盘多维数据进行融合决策,排除状态误判,准确发现慢盘、故障盘。本发明是一种轻量级应用技术,能够在不影响存储业务的同时,提供快速定位慢盘、坏盘的服务,有效支撑存储系统的高性能、高可靠性。高可靠性。高可靠性。
技术研发人员:邓玲 刘彬彬 王振帅
受保护的技术使用者:北京计算机技术及应用研究所
技术研发日:2022.07.26
技术公布日:2022/11/1