一种电网非结构性业务数据的特征提取分类方法与流程

专利2023-03-23  122



1.本技术属于电网运行数据处理和维护方法技术领域,尤其涉及一种电网非结构性业务数据的特征提取分类方法。


背景技术:

2.电网各项业务开展过程中涉及到的业务数据可分为两大类,一类是与各类电气设备或流程相关的,通过各类传感器或者电子设备直接获取的结构化数据,该类数据具有直接明了的关系链,可以用相应的专业数据路进行直接处理,但相对而言,可以直接处理的结构化数据一般只占电网业务数据的20%~40%,由于电网业务任务多样,涉及到的问题错综复杂,大多数业务和项目的展开往往需要考虑多层次多方面的影响,在此过程中,与之相关的影响要素所对应的数据往往是非结构性数据或者结构性数据与非结构性数据相互掺杂,为实现各类数据的综合应用,实现非结构性数据的高效处理,基于人工智能、nlp、深度学习等计算机技术的方法得到运用,实现了对非结构性业务数据的属性分析和结构分析,其中通过对非结构性业务数据中的特定词汇的向量化处理可以将非结构性业务数据中的关键词汇以词向量(token)和位置向量(potision)来进行表达,进而可以利用计算机语言进行分析处理,但现有方案中,词向量和位置向量的运用依然需要依靠与非结构性业务数据的特征表来对齐关系特征进行控制表达。


技术实现要素:

3.本技术的目的在于,提供一种高效快捷的电网非结构性业务数据的特征提取和分类方法,用于实现各类电网业务中产生的非结构性数据的自动化分析查询,获取非结构性数据中的关键信息,提高各类非结构信息的自动化处理和分析识别能力。
4.为实现上述目的,本技术采用如下技术方案。
5.一种电网非结构性业务数据的特征提取分类方法,包括如下步骤:步骤一、基于双层transformer模型的非结构性词向量特征融合;具体实施过程包括:a1)优化自注意力模块输入,对于相对位置词向量和实际位置词向量,以维度query作为输入,由词向量抽取产生key值和纬度value;a2)将维度query、key值和纬度value分别打包构成矩阵,将维度query和key值进行内积运算;a3)将内积运算结果输入残差-归一化模块进行权重计算,得到权重之后与纬度value相乘得到自注意力模块的输出;其中自注意力模块输出的表达式为:;
;其中q为多个维度query构成的查询矩阵,通过将维度query组合打包以实现并行处理,提高运算处理的效率;k为对应key值构成的键矩阵;v为对应纬度value构成的值矩阵;为查询矩阵q的变换矩阵;为键矩阵k的变换矩阵;为值矩阵v的变换矩阵;h为自注意力模块头数;a4)在前馈神经网络前利用残差模块对自注意力模块输出进行编码以及冗余压缩,利用残差模块对自注意力模块输出与编码器输入进行求和后得到融合向量,之后对融合向量进行dropout;其运算表达式为:;其中为计算得到的权值,为偏置量;a5)将输出再次经过残差-归一化模块后完成第一次transformer运算后执行第二次运算得到最终的特征融合向量;步骤二、基于卷积神经网络模块的特征抽取和联合;具体实施过程包括:b1)基于步骤一将非结构性数据表达为由n个特征融合向量构成的竖向列表;指竖向拼接;在卷积神经网络模型内,利用竖向列表得到的输入矩阵,其中k为词嵌入维度,利用一维卷积计算;b2)使用filter矩阵在输入矩阵上滑动并截取被覆盖区域构成输入窗矩阵,对filter矩阵和输入窗矩阵进行卷积求和得到新的特征;输入窗矩阵表示由输入矩阵的第i至第i+h-1行构成的窗口;输入窗矩阵由组成,h表示输入窗中的词数;w为维的权重矩阵;b为偏置量,f为非线性函数;生成联合特征图;b3)采用不同尺寸的filter矩阵基于步骤b2对输入矩阵进行卷积生成特征图,对每个特征图执行池化操作,最后通过softmax激活函数进行分类处理。
6.对前述电网非结构性业务数据的特征提取分类方法的进一步改进或者优选实施方案,所述步骤一中,还利用归一化模块将单个样本输入的均值和标准差对前馈神经网络模块的中间输出进行调控,以使前馈神经网络模块的中间层输出正则化;本实施例中归一化模块的运算表达式为:
其中为为融合向量的第i维,m是指输入的均值,为输入的标准差,是训练参数,为用于防止分母为零的小数。
7.对前述电网非结构性业务数据的特征提取分类方法的进一步改进或者优选实施方案,所述步骤一中,为提高位置特征的效率,利用三角函数将前述两个与位置关联的词向量进行融合生成词向量的位置嵌入向量。
8.对前述电网非结构性业务数据的特征提取分类方法的进一步改进或者优选实施方案,所述步骤一中dropout率为15%。
9.对前述电网非结构性业务数据的特征提取分类方法的进一步改进或者优选实施方案,所述步骤二中,所述filter使用的卷积核尺寸分别使用3、4、5。
10.对前述电网非结构性业务数据的特征提取分类方法的进一步改进或者优选实施方案,所述步骤二中采取的池化策略为最大化池化策略。
11.其有益效果在于:本技术的电网非结构性业务数据的特征提取分类方法基于transformer理论,通过特征抽取以及联合特征的建立以及多头分神经网络分析,提高了非结构性语句识别过程中对于关键性位置向量和词义的识别定位,简化了非结构性西词向量表述的复杂度,进而可以降低非结构性数据的分析识别过程的数据量,提高各类型数据识别方法的性能,可以用于各类型数据识别程序或方案中,对词向量的优化处理和提取。
附图说明
12.图1电网非结构性业务数据的特征提取分类方法的示意图。
具体实施方式
13.以下结合具体实施例对本技术作详细说明。
14.电网业务任务多样,涉及到的问题错综复杂,大多数业务和项目的展开往往需要考虑多层次多方面的影响,在此过程中,与之相关的影响要素所对应的数据往往是非结构性数据或者结构性数据与非结构性数据相互掺杂,为实现各类数据的综合应用,实现非结构性数据的高效处理,基于人工智能、nlp、深度学习等计算机技术的方法得到运用,实现了对非结构性业务数据的属性分析和结构分析,其中通过对非结构性业务数据中的特定词汇的向量化处理可以将非结构性业务数据中的关键词汇以词向量(token)和位置向量(potision)来进行表达,进而可以利用计算机语言进行分析处理,但现有方案中,词向量和位置向量的运用依然需要依靠与非结构性业务数据的特征表来对齐关系特征进行控制表达,这导致在进行数据处理过程中,单一词汇的特征属性的维度增加,同时大量词汇之间含有过多的重复冗余数据,增加了后续数据处理的难度和数据运算的时间和硬件成本。
15.为此本技术提供了一种电网非结构性业务数据的特征提取分类方法,主要用于优化对非结构性业务数据关联属性的运用,提供一种增强现有非结构性业务数据分析方法特征提取和融合管理能力的途径,用于提高现有数据处理方案的效果。其具体包括步骤一~步骤二,具体而言:步骤一、基于双层transformer模型的非结构性词向量特征融合;transformer模型由两个残差-归一化模块以及位于两个残差-归一化模块之间的
前馈神经网络构成,为了解决transformer模型的自注意力模块难以对非结构性数据中关键词汇在非结构性数据中的相对位置以及在非结构性数据中的实际位置属性进行识别和反馈的问题,基于多头自注意力理论,将词汇的相对位置向量以及实际位置向量进行融合处理;基于双层transformer模型的非结构性词向量特征融合的具体实施过程包括:a1)优化自注意力模块输入,对于前述相对位置词向量和实际位置词向量,以维度query作为输入,由词向量抽取产生key值和纬度value;a2)将维度query、key值和纬度value分别打包构成矩阵,将维度query和key值进行内积运算;a3)将内积运算结果输入残差-归一化模块进行权重计算,得到权重之后与纬度value相乘得到自注意力模块的输出;其中自注意力模块输出的表达式为其中自注意力模块输出的表达式为;其中q为多个维度query构成的查询矩阵,通过将维度query组合打包以实现并行处理,提高运算处理的效率;k为对应key值构成的键矩阵;v为对应纬度value构成的值矩阵;为查询矩阵q的变换矩阵;为键矩阵k的变换矩阵;为值矩阵v的变换矩阵;h为自注意力模块头数;特别的,本技术中,在前馈神经网络模块内,还利用归一化模块将单个样本输入的均值和标准差对前馈神经网络模块的中间输出进行调控,以使前馈神经网络模块的中间层输出正则化;本实施例中归一化模块的运算表达式为:;其中为为融合向量的第i维,m是指输入的均值,为输入的标准差,是训练参数,为用于防止分母为零的小数;特别的,为提高位置特征的效率,利用三角函数将前述两个与位置关联的词向量进行融合生成词向量的位置嵌入;本实施例中采用余弦函数来实现。
16.a4)在前馈神经网络前利用残差模块对自注意力模块输出进行编码以及冗余压缩,利用残差模块对自注意力模块输出与编码器输入进行求和后得到融合向量,之后对融合向量进行dropout;其运算表达式为:;其中为计算得到的权
值,为偏置量;a5)将前述输出再次经过残差-归一化模块后完成第一次transformer运算后执行第二次运算得到最终的特征融合向量;步骤二、基于卷积神经网络模块的特征抽取和联合;基于前述步骤一,可以得到非结构性数据内关键词的特征融合向量,对于一个完整的非结构性数据,可以将其表达为由若干特征融合向量构成的矩阵;并在卷积神经网络模型内对其进行局部的特征组合和筛选;基于卷积神经网络模块的特征抽取和融合的具体实施过程包括:b1)基于步骤一将非结构性数据表达为由n个特征融合向量构成的竖向列表指竖向拼接;在卷积神经网络模型内,利用前述竖向列表得到的输入矩阵,其中k为词嵌入维度,利用一维卷积计算;b2)使用filter矩阵在输入矩阵上滑动并截取被覆盖区域构成输入窗矩阵,对filter矩阵和输入窗矩阵进行卷积求和得到新的特征;输入窗矩阵表示由输入矩阵的第i至第i+h-1行构成的窗口;输入窗矩阵由组成,h表示输入窗中的词数;w为维的权重矩阵;b为偏置量,f为非线性函数;生成联合特征图;b3)采用不同尺寸的filter矩阵基于步骤b2对输入矩阵进行卷积生成特征图,对每个特征图执行池化操作,最后通过softmax激活函数进行分类处理。
17.最后应当说明的是,以上实施例仅用以说明本技术的技术方案,而非对本技术保护范围的限制,尽管参照较佳实施例对本技术作了详细地说明,本领域的普通技术人员应当理解,可以对本技术的技术方案进行修改或者等同替换,而不脱离本技术技术方案的实质和范围。

技术特征:
1.一种电网非结构性业务数据的特征提取分类方法,其特征在于,包括如下步骤:步骤一、基于双层transformer模型的非结构性词向量特征融合;具体实施过程包括:a1)优化自注意力模块输入,对于相对位置词向量和实际位置词向量,以维度query作为输入,由词向量抽取产生key值和纬度value;a2)将维度query、key值和纬度value分别打包构成矩阵,将维度query和key值进行内积运算;a3)将内积运算结果输入残差-归一化模块进行权重计算,得到权重之后与纬度value相乘得到自注意力模块的输出;其中自注意力模块输出的表达式为:;;;其中q为多个维度query构成的查询矩阵,通过将维度query组合打包以实现并行处理,提高运算处理的效率;k为对应key值构成的键矩阵;v为对应纬度value构成的值矩阵;为查询矩阵q的变换矩阵;为键矩阵k的变换矩阵;为值矩阵v的变换矩阵;h为自注意力模块头数;a4)在前馈神经网络前利用残差模块对自注意力模块输出进行编码以及冗余压缩,利用残差模块对自注意力模块输出与编码器输入进行求和后得到融合向量,之后对融合向量进行dropout;其运算表达式为:;其中为计算得到的权值,为偏置量;a5)将输出再次经过残差-归一化模块后完成第一次transformer运算后执行第二次运算得到最终的特征融合向量;步骤二、基于卷积神经网络模块的特征抽取和联合;具体实施过程包括:b1)基于步骤一将非结构性数据表达为由n个特征融合向量构成的竖向列表;指竖向拼接;在卷积神经网络模型内,利用竖向列表得到的输入矩阵,其中k为词嵌入维度,利用一维卷积计算;b2)使用filter矩阵在输入矩阵上滑动并截取被覆盖区域构成输入窗矩阵,对filter矩阵和输入窗矩阵进行卷积求和得到新的特征;输入窗矩阵表示由输入矩阵的第i至第i+h-1行构成的窗口;输
入窗矩阵由组成,h表示输入窗中的词数;w为维的权重矩阵;b为偏置量,f为非线性函数;生成联合特征图;b3)采用不同尺寸的filter矩阵基于步骤b2对输入矩阵进行卷积生成特征图,对每个特征图执行池化操作,最后通过softmax激活函数进行分类处理。2.根据权利要求1所述的一种电网非结构性业务数据的特征提取分类方法,其特征在于,所述步骤一中,还利用归一化模块将单个样本输入的均值和标准差对前馈神经网络模块的中间输出进行调控,以使前馈神经网络模块的中间层输出正则化;本实施例中归一化模块的运算表达式为:;其中为为融合向量的第i维,m是指输入的均值,为输入的标准差,是训练参数,为用于防止分母为零的小数。3.根据权利要求1所述的一种电网非结构性业务数据的特征提取分类方法,其特征在于,所述步骤一中,为提高位置特征的效率,利用三角函数将前述两个与位置关联的词向量进行融合生成词向量的位置嵌入向量。4.根据权利要求1所述的一种电网非结构性业务数据的特征提取分类方法,其特征在于,所述步骤一中dropout率为15%。5.根据权利要求1所述的一种电网非结构性业务数据的特征提取分类方法,其特征在于,所述步骤二中,所述filter使用的卷积核尺寸分别使用3、4、5。6.根据权利要求1所述的一种电网非结构性业务数据的特征提取分类方法,其特征在于,所述步骤二中采取的池化策略为最大化池化策略。

技术总结
本申请属于电网运行数据处理和维护方法技术领域,尤其涉及一种电网非结构性业务数据的特征提取分类方法。包括如下步骤:基于双层Transformer模型的非结构性词向量特征融合;优化自注意力模块输入;得到特征融合向量;基于卷积神经网络模块的特征抽取和联合;生成联合特征图;通过激活函数进行分类处理。本申请通过特征抽取以及联合特征的建立以及多头分神经网络分析,提高非结构性语句识别过程中对于关键性位置向量和词义的识别定位,简化非结构性西词向量表述的复杂度,进而可以降低非结构性数据的分析识别过程的数据量,提高各类型数据识别方法的性能,可以用于各类型数据识别程序或方案中,对词向量的优化处理和提取。对词向量的优化处理和提取。对词向量的优化处理和提取。


技术研发人员:姚苏文 沈楠 刘胜 黄亮 卓俊帆 戢志雄 李冬 宋思琪 宋翔林 费佳文
受保护的技术使用者:黄冈东源电业集团有限公司
技术研发日:2022.06.07
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-1979.html

最新回复(0)