1.本发明属于电力物联网领域,涉及数据中台技术,尤其是一种基于知识图谱实现数据中台数据链路故障分类预警的方法。
背景技术:2.随着电力物联网的飞速发展以及数据中台的推进,电力资源数据量不断扩大,出现了越来越多的数据制造者以及数据使用者。但与此同时也就出现了数据分布分散、数据规模巨大,数据交互复杂、数据传输效率低,数据链路故障难以诊断等问题。
3.目前关于数据链路故障分析的方法大多集中于实体硬件方面的故障分析,在软件层面的分析相对比较少。针对实体硬件的故障分类方法主要有:专家系统和机器学习等,其中使用最为广泛的是专家系统,分为基于浅知识领域的专家知识和基于深知识分析对象的模型知识。机器学习不需要人工进行知识的整理与总结,只需要使用相关的数据集进行训练即可得到故障的分类模型,并在故障诊断领域取得了较好的效果。
4.专家系统虽然能够有效地模拟故障诊断专家完成故障诊断的过程,但是在实际应用中仍存在难以获取完备的知识库、诊断速度非常慢、运维难度大、不具备学习能力以及容错能力差等问题。所以机器学习模型逐渐在故障分类问题中广泛应用,但使用单一地机器学习方法来进行故障预测不仅需要大量地标注数据集,并且分类效果极大地取决于训练时间、训练参数等的设置,故障诊断效果可能不佳。
技术实现要素:5.本发明的目的在于克服现有技术的不足之处,提供一种基于知识图谱实现数据中台数据链路故障分类预警的方法,主要设计并实现了基于深度学习的数据链路故障分类的法,对数据链路中目前已经存在的故障进行分类,并对将来有可能发生的故障进行预警,有效地提升数据链路的维护效率。
6.本发明解决其技术问题是采取以下技术方案实现的:
7.一种基于知识图谱实现数据中台数据链路故障分类预警的方法,具体方法步骤如下:
8.(1)建立kmeans-svm故障分类模型
9.首先对数据使用pca方法进行降维,降维处理后的数据使用k-means方法,利用其无监督学习的特点,将无标签的变电站数据进行聚类,其中簇数k设置为2,聚类过程中使用的距离标准为欧氏距离,利用误差平方和作为簇内样本相似性大小的代表,划分好的某个簇gu的误差平方和越小,表明该簇内的样本相似性越大,而相反,gu的误差平方和越大,说明该簇内的样本相似性越小,误差平方和的计算公式如下:
10.11.这些输入进来的无标签数据经过k-means方法后变成有标签数据,最终将输入数据分为两类,分别用数字1和2表示,接下来使用这些有标签的数据来训练svm模型,得到最大间隔超平面,将1和2两类数据分别分割在超平面的两侧,svm训练结束后使用最大间隔超平面来测试k-means得到的分类结果的准确性,把预测正确的数据用来重新训练svm的超平面,照此方法迭代更新svm的超平面直到使用svm预测数据的错误率不再发生变化为止,得到最终的最大间隔超平面,具体算法步骤如下:
12.步骤一:无标签数据进行预处理,预处理后的数据使用k-means算法分为两个簇,分别标记为1和2,将无标签数据转换成带标签数据;
13.步骤二:使用步骤一中得到的有标签数据训练svm分类器模型,得到最大间隔超平面;
14.步骤三:使用训练完成的svm分类模型模型测试k-means聚类得到两种样本数据,将预测准确的数据重新作为步骤二的输入数据,得到新的最大间隔超平面,直到用svm预测数据的错误率不再变化为止;
15.(2)构建故障领域知识图谱
16.构建链路故障领域的知识图谱时主要分为实体和属性抽取、共指消解、知识加工和数据整合四个部分;
17.(3)数据链路故障预警
18.根据链路故障知识图谱中故障节点信息与故障原因间逻辑关系进行知识推理。
19.而且,实体和属性的抽取包括:首先对故障领域的语料库进行分词操作,使用马尔可夫模型进行实体和属性的抽取,将抽取出来的实体与属性作为最终应用在知识图谱上的实体与属性,然后对所有的词进行词性标注,将其分为以下几类:故障名词实体、故障现象动词、故障程度副词、故障程度量词和未被抽取的词的原词典。
20.而且,共指消解的步骤主要目的是把表示实体和属性的同义词找出来,将相似性较高的词归为同一类,使用同义词表的形式实现对同义词的表示。
21.而且,知识加工的步骤的主要目的是识别实体与属性之间的相应关系,将各个词性之间是否有包含或者不包含的关系作为标准,对冗余的包含关系进行删除。
22.而且,数据整合步骤是将故障实体、属性以及关系的三元组进行合并通过概念层和实体属性层的节点更新实现最终的图谱构建最终形成链路故障领域的知识图谱。
23.而且,链路故障知识图谱中故障节点信息与故障原因间逻辑关系进行知识推理的过程如下:首先对存储的已知知识进行规则提取,规则提取后进行规则匹配,如果匹配成功则加到规则执行区,规则冲突成立则冲突消解,若规则冲突不成立则得到不成立的推理结果,同样,如果规则匹配不成功则得出未推理出新知识的推理结果。
24.本发明的优点和积极效果是:
25.1、本发明训练了kmeans-svm故障分类模型,通过优化算法对模型进行自动验证评估和参数调整,使用测试集对模型进行测试,最终实现对数据链路当前故障情况的分类,并将诊断结果传输至知识图谱故障预警模块,为故障预警提供当前信息基础。使用k-means方法将无标签的数据转化为带标签数据,再通过使用svm算法迭代训练出最终的最大间隔超平面。其优点在于使k-means方法能够节省人工进行标注的成本,并且迭代地求解最大间隔超平面使得故障分类准确率大大提升。
26.2、本发明通过构建故障领域知识图谱,将机器学习故障分类模块的分类结果数据输入到知识图谱故障预警模块当中,能够找出相关联的故障从而进行有效的预警。知识图谱能够把海量不同种类的信息链接在一起并形成关系网络,以便用户通过关系的角度分析问题。本发明不仅能够对当前故障类型进行分类,还可以通过构建的故障领域知识图谱来预警将来的故障,极大地提升了数据链路地维护效率。
27.3、本发明针对现有技术中专家系统和单一的机器学习方法中存在的问题,首先使用kmeans-svm相结合的机器学习方法进行分类模型的构建,再通过构建故障领域知识图谱进行关联故障的预警,通过机器学习故障分类模块和知识图谱故障预警模块的相互协作,实现对数据链路的智能分析,解决专家系统以及机器学习中存在的一系列问题,有效地提升数据链路的维护效率。
附图说明
28.图1为本发明方法建立kmeans-svm故障分类模型流程图;
29.图2为本发明中链路故障知识图谱中故障节点信息与故障原因间逻辑关系推理图。
具体实施方式
30.下面通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
31.本发明首先以数据链路中的故障分类为目标,通过kmeans-svm模型训练得到故障分类模型。随后通过马尔可夫模型等方法构建故障类型的知识图谱。基于故障领域知识图谱以及kmeans-svm方法得到故障分类的基础,再通过故障原因相似度分析故障之间的关联关系,进而预测数据链路中可能发生的关联故障。
32.本发明提供一种基于知识图谱实现数据中台数据链路故障分类预警的方法,具体方法步骤如下:
33.(1)建立kmeans-svm故障分类模型
34.具体建模方法流程如图1所示,首先对数据使用pca方法进行降维。降维处理后的数据使用k-means方法,利用其无监督学习的特点,将无标签的变电站数据进行聚类,其中簇数k设置为2,聚类过程中使用的距离标准为欧氏距离。利用误差平方和作为簇内样本相似性大小的代表,划分好的某个簇gu的误差平方和越小,表明该簇内的样本相似性越大;而相反,gu的误差平方和越大,说明该簇内的样本相似性越小。误差平方和的计算公式如下:
[0035][0036]
这些输入进来的无标签数据经过k-means方法后变成有标签数据。最终将输入数据分为两类,分别用数字1和2表示。接下来使用这些有标签的数据来训练svm模型,得到最大间隔超平面,将1和2两类数据分别分割在超平面的两侧。svm训练结束后使用最大间隔超平面来测试k-means得到的分类结果的准确性,把预测正确的数据用来重新训练svm的超平面,照此方法迭代更新svm的超平面直到使用svm预测数据的错误率不再发生变化为止,得到最终的最大间隔超平面。算法步骤如下:
[0037]
步骤一:无标签数据进行预处理,预处理后的数据使用k-means算法分为两个簇,分别标记为1和2,将无标签数据转换成带标签数据。
[0038]
步骤二:使用步骤一中得到的有标签数据训练svm分类器模型,得到最大间隔超平面。
[0039]
步骤三:使用训练完成的svm分类模型模型测试k-means聚类得到两种样本数据,将预测准确的数据重新作为步骤二的输入数据,得到新的最大间隔超平面,直到用svm预测数据的错误率不再变化为止。
[0040]
(2)构建故障领域知识图谱
[0041]
构建链路故障领域的知识图谱时主要分为实体和属性抽取、共指消解、知识加工和数据整合四个部分。
[0042]
实体和属性的抽取:首先对故障领域的语料库进行分词操作,使用马尔可夫模型进行实体和属性的抽取,将抽取出来的实体与属性作为最终应用在知识图谱上的实体与属性。然后对所有的词进行词性标注,将其分为以下几类:故障名词实体、故障现象动词、故障程度副词、故障程度量词和未被抽取的词的原词典。
[0043]
共指消解:该步骤主要目的是把表示实体和属性的同义词找出来,将相似性较高的词归为同一类,使用同义词表的形式实现对同义词的表示。
[0044]
知识加工:该步骤的主要目的是识别实体与属性之间的相应关系,将各个词性之间是否有包含或者不包含的关系作为标准,对冗余的包含关系进行删除。
[0045]
数据整合:该步骤将故障实体、属性以及关系的三元组进行合并通过概念层和实体属性层的节点更新实现最终的图谱构建最终形成链路故障领域的知识图谱。
[0046]
(3)数据链路故障预警
[0047]
根据链路故障知识图谱中故障节点信息与故障原因间逻辑关系进行知识推理,推理规则如图2所示,链路故障知识图谱中故障节点信息与故障原因间逻辑关系进行知识推理的过程如下:首先对存储的已知知识进行规则提取,规则提取后进行规则匹配,如果匹配成功则加到规则执行区,规则冲突成立则冲突消解,若规则冲突不成立则得到不成立的推理结果,同样,如果规则匹配不成功则得出未推理出新知识的推理结果。
[0048]
尽管为说明目的公开了本发明的实施例,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换、变化和修改都是可能的,因此,本发明的范围不局限于实施例所公开的内容。
技术特征:1.一种基于知识图谱实现数据中台数据链路故障分类预警的方法,其特征在于:具体方法步骤如下:(1)建立kmeans-svm故障分类模型首先对数据使用pca方法进行降维,降维处理后的数据使用k-means方法,利用其无监督学习的特点,将无标签的变电站数据进行聚类,其中簇数k设置为2,聚类过程中使用的距离标准为欧氏距离,利用误差平方和作为簇内样本相似性大小的代表,划分好的某个簇g
u
的误差平方和越小,表明该簇内的样本相似性越大,而相反,g
u
的误差平方和越大,说明该簇内的样本相似性越小,误差平方和的计算公式如下:这些输入进来的无标签数据经过k-means方法后变成有标签数据,最终将输入数据分为两类,分别用数字1和2表示,接下来使用这些有标签的数据来训练svm模型,得到最大间隔超平面,将1和2两类数据分别分割在超平面的两侧,svm训练结束后使用最大间隔超平面来测试k-means得到的分类结果的准确性,把预测正确的数据用来重新训练svm的超平面,照此方法迭代更新svm的超平面直到使用svm预测数据的错误率不再发生变化为止,得到最终的最大间隔超平面,具体算法步骤如下:步骤一:无标签数据进行预处理,预处理后的数据使用k-means算法分为两个簇,分别标记为1和2,将无标签数据转换成带标签数据;步骤二:使用步骤一中得到的有标签数据训练svm分类器模型,得到最大间隔超平面;步骤三:使用训练完成的svm分类模型模型测试k-means聚类得到两种样本数据,将预测准确的数据重新作为步骤二的输入数据,得到新的最大间隔超平面,直到用svm预测数据的错误率不再变化为止;(2)构建故障领域知识图谱构建链路故障领域的知识图谱时主要分为实体和属性抽取、共指消解、知识加工和数据整合四个部分;(3)数据链路故障预警根据链路故障知识图谱中故障节点信息与故障原因间逻辑关系进行知识推理。2.实体和属性的抽取包括:首先对故障领域的语料库进行分词操作,使用马尔可夫模型进行实体和属性的抽取,将抽取出来的实体与属性作为最终应用在知识图谱上的实体与属性,然后对所有的词进行词性标注,将其分为以下几类:故障名词实体、故障现象动词、故障程度副词、故障程度量词和未被抽取的词的原词典。3.根据权利要求1所述的一种基于知识图谱实现数据中台数据链路故障分类预警的方法,其特征在于:共指消解的步骤主要目的是把表示实体和属性的同义词找出来,将相似性较高的词归为同一类,使用同义词表的形式实现对同义词的表示。4.根据权利要求1所述的一种基于知识图谱实现数据中台数据链路故障分类预警的方法,其特征在于:知识加工的步骤的主要目的是识别实体与属性之间的相应关系,将各个词性之间是否有包含或者不包含的关系作为标准,对冗余的包含关系进行删除。5.根据权利要求1所述的一种基于知识图谱实现数据中台数据链路故障分类预警的方法,其特征在于:数据整合步骤是将故障实体、属性以及关系的三元组进行合并通过概念层
和实体属性层的节点更新实现最终的图谱构建最终形成链路故障领域的知识图谱。6.根据权利要求1所述的一种基于知识图谱实现数据中台数据链路故障分类预警的方法,其特征在于:链路故障知识图谱中故障节点信息与故障原因间逻辑关系进行知识推理的过程如下:首先对存储的已知知识进行规则提取,规则提取后进行规则匹配,如果匹配成功则加到规则执行区,规则冲突成立则冲突消解,若规则冲突不成立则得到不成立的推理结果,同样,如果规则匹配不成功则得出未推理出新知识的推理结果。
技术总结本发明涉及一种基于知识图谱实现数据中台数据链路故障分类预警的方法,首先以数据链路中的故障分类为目标,通过Kmeans-SVM模型训练得到故障分类模型,随后通过马尔可夫模型等方法构建故障类型的知识图谱,基于故障领域知识图谱以及Kmeans-SVM方法得到故障分类的基础,再通过故障原因相似度分析故障之间的关联关系,进而预测数据链路中可能发生的关联故障。通过机器学习故障分类模块和知识图谱故障预警模块的相互协作,实现对数据链路的智能分析,解决专家系统以及机器学习中存在的一系列问题,有效地提升数据链路的维护效率,使得故障分类准确率大大提升。障分类准确率大大提升。障分类准确率大大提升。
技术研发人员:郝美薇 包永迪 颜阳 张旭 杨建伟 张倩宜 杨丹丹 付嘉鑫 胡博 张驰 申琳琳 王凯
受保护的技术使用者:国家电网有限公司 国网天津市电力公司信息通信公司
技术研发日:2022.07.26
技术公布日:2022/11/1