油田离心泵注水站工作异常检测方法、系统、终端及介质

专利2023-03-07  96



1.本发明涉及油田异常检测技术领域,更具体地说,它涉及油田离心泵注水站工作异常检测方法、系统、终端及介质。


背景技术:

2.油田离心泵注水站规模庞大,一旦停运不仅会增加职工劳动量,同时会严重影响到生产效率,造成不可估量的损失。因此注水站必须保证高可靠性、高时率性地运行。油田离心泵注水站已完成信息化建设,实现了压力、温度、液位等生产参数的实时采集,由于注水站工作环境差、受磁场影响、仪表设备老化等因素,会产生不能反映设备真实情况的异常数据,将引起系统的误报警、误动作。
3.目前,油田离心泵注水站的异常数据检测主要分为人工巡检方法和传统的统计学方法。一方面,人工巡检的异常检测方式需要有经验的技术人员进行分析,对设备运行历史经验有着过强的依赖性;因此该方法存在检测精度不高的情况,经常出现漏判误判,这些失误也影响了油田工作;同时该方法在经济成本上也造成了巨大的损失,效率较低,检测速度慢。另一方面,基于统计学的异常检测方法最常用的有阈值门限法、协方差分析和数据相关性分析。阈值门限法的优点表现为对具有固定阈值的参数来说,准确率是非常高的,但其适用范围仅限于可用阈值规则表达的参数,然而很多类型的异常并不会引起变量的超限,因此不能表征全部的异常类型。相关性分析法是通过挖掘特征之间的相关系数或关联规则来判定数据是否异常,该方法的优点是对注水站中相互关联的特征参数有很好的检测效果,排除了单一参数因素产生的误判漏判干扰,但是对于一些参数同时发生变化的数据来说,检测效果不太理想。协方差分析法是针对周期内变化趋势相同的数据来进行异常检测的,通过参数之间的协方差构造卡方统计量,在一定的置信水平上判断数据是否出现异常。该方法的优点是可以有效地检测出周期性数据的异常,但是对于周期时间长、数据量大的数据,耗时较长,且对于局部异常数据不敏感。此外,现有技术虽然记载有利于机器学习算法结合支持向量机进行异常或故障检测的文献,但是,由于油田离心泵注水站数据具有数量大、维度高、参数之间相关性复杂的特点,在运行时特征参数间具有复杂的逻辑关系,导致现有的智能异常检测方法应用于时反应速度慢,异常检测的错误率较高。
4.因此,如何研究设计一种能够克服上述缺陷的油田离心泵注水站工作异常检测方法、系统、终端及介质是我们目前急需解决的问题。


技术实现要素:

5.为解决现有技术中的不足,本发明的目的是提供油田离心泵注水站工作异常检测方法、系统、终端及介质,通过使用遗传算法寻找单类支持向量机的参数后再进行模型构建,具有泛化性好,能够快速地找到确定的参数来衡量正常数据区域边界的大小,仅需要使用离心泵注水站正常工作时的数据样本,就能够针对逻辑关系复杂的数据进行高精度的异常检测。
6.本发明的上述技术目的是通过以下技术方案得以实现的:
7.第一方面,提供了油田离心泵注水站工作异常检测方法,包括以下步骤:
8.获取注水站正常工作时的数据样本,并对数据样本预处理后得到数据样本集;
9.通过单类支持向量机训练数据样本集,并依据遗传算法对数据样本集进行参数优化,得到ga-oc-svm模型;
10.以ga-oc-svm模型对预处理后的测试数据集进行检测,以实现油田离心泵注水站工作异常检测。
11.进一步的,所述通过单类支持向量机训练数据样本集的过程具体为:
12.将数据样本集映射到与内核相对应的特征空间,构造出一个训练样本与原点距离最大化的最优决策超平面;
13.依据最优决策超平面确定基于欧式距离所构建的用于最终对测试数据集进行异常检测二分类的决策函数。
14.进一步的,所述最优决策超平面的目标优化求解公式具体为:
[0015][0016]
其中,n为数据样本集中的样本总数;v∈(0,1)为正则化参数,是异常检测设置最大的限定值,也作为支持向量的样例数量的下界;ξi为松弛变量;φ为数据样本在高维空间的映射;ω为最优决策超平面f(x)的法向量;ρ为偏移项;xi为第i个数据样本。
[0017]
进一步的,所述决策函数的计算公式具体为:
[0018]
f(xi)=sign[ωφ(xi)-ρ]
[0019]
其中,f(xi)为决策函数;ω为最优决策超平面的法向量;φ为数据样本在高维空间的映射;ρ为偏移项;xi为第i个数据样本;当f(xi)=+1时,xi被识别为正常样本;当f(xi)=-1时,xi被识别为异常样本。
[0020]
进一步的,所述依据遗传算法对数据样本集进行参数优化的过程具体为:
[0021]
设定oc-svm的参数范围、遗传算法的种群规模n以及终止迭代次数t;
[0022]
确定遗传算法的编码方式,并按照oc-svm参数随机生成出n个染色体;
[0023]
计算出每一个染色体对应的适应度函数值;
[0024]
判断种群最优个体的适应度函数值是否达到阈值,成功达到则终止迭代,否则继续进行选择、交叉、变异操作的迭代并产生新的种群;
[0025]
最后得到最优的oc-svm参数并进行油田离心泵注水站异常检测。
[0026]
进一步的,该方法还包括:
[0027]
若ga-oc-svm模型检测到异常数据时,选取异常点前后达到预设数量的时间点的数值的中位数进行异常点的修复;
[0028]
以修复后的异常点为起始点开始继续进行异常检测,直至所有数据完成检测。
[0029]
进一步的,所述数据样本包括:
[0030]
包含注水泵前后轴承温度、定子温度、三相风温的温度工程参数;
[0031]
包含注水泵进口压力、注水泵出口压力的压力相关工程参数;
[0032]
以及,包含液位、电参、流量的液位相关工程参数。
[0033]
第二方面,提供了油田离心泵注水站工作异常检测系统,包括:
[0034]
数据获取模块,用于获取注水站正常工作时的数据样本,并对数据样本预处理后得到数据样本集;
[0035]
模型构建模块,用于通过单类支持向量机训练数据样本集,并依据遗传算法对数据样本集进行参数优化,得到ga-oc-svm模型;
[0036]
异常检测模块,用于以ga-oc-svm模型对预处理后的测试数据集进行检测,以实现油田离心泵注水站工作异常检测。
[0037]
第三方面,提供了一种计算机终端,包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面中任意一项所述的油田离心泵注水站工作异常检测方法。
[0038]
第四方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行可实现如第一方面中任意一项所述的油田离心泵注水站工作异常检测方法。
[0039]
与现有技术相比,本发明具有以下有益效果:
[0040]
1、本发明提出的油田离心泵注水站工作异常检测方法,通过使用遗传算法寻找单类支持向量机的参数后再进行模型构建,具有泛化性好,能够快速地找到确定的参数来衡量正常数据区域边界的大小,仅需要使用离心泵注水站正常工作时的数据样本,就能够针对逻辑关系复杂的数据进行高精度的异常检测,解决了当前注水站异常检测对异常数据样本依赖过高的问题;
[0041]
2、本发明通过对最优决策超平面和决策函数进行设计,能够有效增强复杂数据中异常数据识别的速度和效率,经过测试,检测170条数据耗时0.033s,能够满足实际应用需求;
[0042]
3、本发明在检测为异常数据后,选取异常点前后达到预设数量的时间点的数值的中位数进行异常点的修复,利于大量数据的高效、持续检测。
附图说明
[0043]
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本技术的一部分,并不构成对本发明实施例的限定。在附图中:
[0044]
图1是本发明实施例中单类支持向量机的示意图
[0045]
图2是本发明实施例中遗传算法优化oc-svm的流程图;
[0046]
图3是本发明实施例中注水站的运行图;
[0047]
图4是本发明实施例中定子温度的异常示意图;
[0048]
图5是本发明实施例中遗传算法的进化示意图;
[0049]
图6是本发明实施例中roc曲线算法的分析示意图;
[0050]
图7是本发明实施例中异常数据波动曲线;
[0051]
图8是本发明实施例中异常修复后的数据波动曲线;
[0052]
图9是本发明实施例中的系统框图。
具体实施方式
[0053]
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
[0054]
实施例1:油田离心泵注水站工作异常检测方法,如图2所示,包括以下步骤:
[0055]
s1:获取注水站正常工作时的数据样本,并对数据样本预处理后得到数据样本集;
[0056]
s2:通过单类支持向量机训练数据样本集,并依据遗传算法对数据样本集进行参数优化,得到ga-oc-svm模型;
[0057]
s3:以ga-oc-svm模型对预处理后的测试数据集进行检测,以实现油田离心泵注水站工作异常检测。
[0058]
如图1所示,在步骤s1中,通过单类支持向量机训练数据样本集的过程具体为:将数据样本集映射到与内核相对应的特征空间,构造出一个训练样本与原点距离最大化的最优决策超平面;依据最优决策超平面确定基于欧式距离所构建的用于最终对测试数据集进行异常检测二分类的决策函数。
[0059]
最优决策超平面的目标优化求解公式具体为:
[0060][0061]
其中,n为数据样本集中的样本总数;v∈(0,1)为正则化参数,是异常检测设置最大的限定值,也作为支持向量的样例数量的下界;ξi为松弛变量;φ为数据样本在高维空间的映射;ω为最优决策超平面f(x)的法向量;ρ为偏移项;xi为第i个数据样本。
[0062]
最优决策超平面求解之后的表达式为:f(x)=ωf(x)-ρ。
[0063]
此外,决策函数的计算公式具体为:
[0064]
f(xi)=sign[ωφ(xi)-ρ]
[0065]
其中,f(xi)为决策函数;ω为最优决策超平面的法向量;φ为数据样本在高维空间的映射;ρ为偏移项;xi为第i个数据样本;当f(xi)=+1时,xi被识别为正常样本;当 f(xi)=-1时,xi被识别为异常样本。
[0066]
如图2所示,在步骤s2中,依据遗传算法对数据样本集进行参数优化的过程具体为:设定oc-svm的参数范围、遗传算法的种群规模n以及终止迭代次数t;确定遗传算法的编码方式,并按照oc-svm参数随机生成出n个染色体;计算出每一个染色体对应的适应度函数值;判断种群最优个体的适应度函数值是否达到阈值,成功达到则终止迭代,否则继续进行选择、交叉、变异操作的迭代并产生新的种群;最后得到最优的oc-svm参数并进行油田离心泵注水站异常检测。
[0067]
为了使得异常数据能够持续、稳定、高效进行数据异常检测,若ga-oc-svm模型检测到异常数据时,选取异常点前后达到预设数量的时间点的数值的中位数进行异常点的修复;以修复后的异常点为起始点开始继续进行异常检测,直至所有数据完成检测。
[0068]
实施例2:实验验证
[0069]
如图3所示,油田离心泵注水站设备庞大复杂,每一个异常类别都包括诸多细节。数据样本包括但不限于温度工程参数、压力相关工程参数、液位相关工程参数。其中,温度工程参数如注水泵前后轴承温度、定子温度、三相风温等10项;压力相关工程参数如注水泵进口压力、注水泵出口压力的压力相关工程参数等4项;液位相关工程参数如液位、电参、流量的液位相关工程参数等十余项。每个参数都有自己的额定阈值,不同注水站的各项特征参数阈值不相同。
[0070]
基于胜利采油厂油田离心泵注水站运行数据,依据工程数据表现特征从总体上将异常类型归纳为3大类,包括温度异常、压力异常、液位异常。
[0071]
当温度异常,例如出现异常点跳动或者温度超过额定阈值,增幅出现超过百分之两百等异常情况,油田离心泵将会采取高温异常预警,超高温停泵的措施。由于温度的变化一般都是呈缓慢或者快速的渐变趋势,图4所示为定子温度异常时的数值变化,对比定子温度的正常情况,其温度频繁达到250℃,同时出现了温度的突变,即短时间骤降或者跳跃式增长,此时便会导致油田离心泵误操作。
[0072]
上述具体解释了温度异常状况,与之相对应的,针对压力与液位异常,注水泵都会采取低压(低液位)异常报警,超低压(超低液位)停泵处理,这将会严重影响到生产效率。
[0073]
对于分析算法的精度,查准率、查全率、roc曲线(receiveroperatingcharacteristiccurve)经常被用于二分类模型中,因此选择将其作为本次油田离心泵注水站异常数据检测效果的评价指标,根据评价结果来验证所提出的基于机器学习算法的油田离心泵注水站异常检测方案的优越性。根据评价指标所构成混淆矩阵,所有数据样本根据其真实的类别和预测的类别总共被分成真正例(tp)、假正例(fp)、真反例(tn)、假反例(fn)四种情况,在注水站异常检测判定问题中,将设备运行的正常情形作为正例,异常情形做为反例。
[0074]
查准率p与查全率r定义公式如下:
[0075][0076][0077]
通过选择出不同的分类阈值进行数据类别的划分,roc曲线以真正例率(tpr)为纵轴,假正例率(fpr)为横轴,进行绘制图表来进行算法模型的效果评价,其中tpr和fpr如公式 10-11所示:
[0078][0079][0080]
roc曲线下方面积auc(areaunderroccurve)作为评估基于遗传算法改进单类支持向量机的ga-oc-svm算法、局部离群因子算法、孤立森林算法的检测效果的一项标准,算法的检测效果与auc面积成正比,auc面积越大那么可以判断出该算法的检测效果更优秀。在对不同的异常检测算法进行比较时,roc曲线对算法的检验效果评价结果是直观的,当一个分类器的roc曲线面积能完全地包含另一个分类器的曲线面积,则可以得出结论:前者的异常检测效果比后者优秀。
[0081]
实验中,通过遗传算法寻优得到最优的参数,并使用oc-svm训练得出基于注水站数据的分类模型之后,便可以使用模型对注水站测试数据集进行异常检测判断。在参数阈值范围内且未出现剧烈波动的正常数据,可以表明是油田离心泵正常的工作状态,用标签“+1”标注;相反的当出现参数数值短时间骤降或巨增或明显大范围超出阈值的数据,表明此刻离心泵有异常的风险,用标签
“‑
1”标注。那么本次的异常数据检测便转化为一个二分类问题,通过人工智能算法检测的结果可以为油田离心泵注水站运行时的异常及时发现与处置干预提供有力的支持。
[0082]
为了验证研究中所提出的方法针对油田离心泵注水站异常检测的实际效果,以及基于遗传算法改进单类支持向量机的ga-oc-svm算法的优越性,本文分别对ga-oc-svm、iforest 以及lof算法在同一平台对胜五注一号泵数据进行训练和验证。
[0083]
通过采用遗传算法对单类支持向量机参数进行优化,得到遗传算法的进化曲线如图5所示,经过迭代寻优后得到一组最优的种群个体值并将其作为模型参数进行异常检测。图6展示了ga-oc-svm、iforest以及lof对油田离心泵注水站数据的异常判定结果roc曲线评价对比图。由表1中展示的三种算法的检测精度可知,lof、iforest和ga-oc-svm的精确度分别为72%、90%、99%。其中lof算法的在本次注水站数据的异常检测中所取得的成果不太理想,而iforest和ga-oc-svm的检测效果很好,尤其是ga-oc-svm精度达到99%以上。同时通过图6中roc曲线进行算法分析的情况,其中ga-oc-svm的auc面积完全包含了lof和iforest的auc面积,能够凭此得出结论,ga-oc-svm在注水站异常数据检测效果表现得更优秀。当检测为异常数据后,通过取该异常点前后20个时间点的数值的中位数进行异常点的修复。如出现温度异常时,图7是温度模块中定子温度、前轴承温度、泵前轴温度异常时数据波动曲线,图8是温度模块中定子温度、前轴承温度、泵前轴温度异常修复后的数据波动曲线。
[0084]
表1
[0085][0086]
实施例3:油田离心泵注水站工作异常检测系统,该异常检测系统用于实现实施例1中所记载的异常检测方法,如图9所示,包括数据获取模块、模型构建模块和异常检测模块。其中,数据获取模块,用于获取注水站正常工作时的数据样本,并对数据样本预处理后得到数据样本集;模型构建模块,用于通过单类支持向量机训练数据样本集,并依据遗传算法对数据样本集进行参数优化,得到ga-oc-svm模型;异常检测模块,用于以ga-oc-svm模型对预处理后的测试数据集进行检测,以实现油田离心泵注水站工作异常检测。
[0087]
工作原理:本发明通过使用遗传算法寻找单类支持向量机的参数后再进行模型构建,具有泛化性好,能够快速地找到确定的参数来衡量正常数据区域边界的大小,仅需要使用离心泵注水站正常工作时的数据样本,就能够针对逻辑关系复杂的数据进行高精度的异常检测,解决了当前注水站异常检测对异常数据样本依赖过高的问题;此外,通过对最优决
策超平面和决策函数进行设计,能够有效增强复杂数据中异常数据识别的速度和效率,经过测试,检测170条数据耗时0.033s,能够满足实际应用需求;另外,在检测为异常数据后,选取异常点前后达到预设数量的时间点的数值的中位数进行异常点的修复,利于大量数据的高效、持续检测。
[0088]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0089]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/ 或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/ 或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0090]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0091]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0092]
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.油田离心泵注水站工作异常检测方法,其特征是,包括以下步骤:获取注水站正常工作时的数据样本,并对数据样本预处理后得到数据样本集;通过单类支持向量机训练数据样本集,并依据遗传算法对数据样本集进行参数优化,得到ga-oc-svm模型;以ga-oc-svm模型对预处理后的测试数据集进行检测,以实现油田离心泵注水站工作异常检测。2.根据权利要求1所述的油田离心泵注水站工作异常检测方法,其特征是,所述通过单类支持向量机训练数据样本集的过程具体为:将数据样本集映射到与内核相对应的特征空间,构造出一个训练样本与原点距离最大化的最优决策超平面;依据最优决策超平面确定基于欧式距离所构建的用于最终对测试数据集进行异常检测二分类的决策函数。3.根据权利要求2所述的油田离心泵注水站工作异常检测方法,其特征是,所述最优决策超平面的目标优化求解公式具体为:s.t.ωφ(x
i
)≥ρ-ξ
i

i
≥0其中,n为数据样本集中的样本总数;v∈(0,1)为正则化参数,是异常检测设置最大的限定值,也作为支持向量的样例数量的下界;ξ
i
为松弛变量;φ为数据样本在高维空间的映射;ω为最优决策超平面f(x)的法向量;ρ为偏移项;x
i
为第i个数据样本。4.根据权利要求2所述的油田离心泵注水站工作异常检测方法,其特征是,所述决策函数的计算公式具体为:f(x
i
)=sign[ωφ(x
i
)-ρ]其中,f(x
i
)为决策函数;ω为最优决策超平面的法向量;φ为数据样本在高维空间的映射;ρ为偏移项;x
i
为第i个数据样本;当f(x
i
)=+1时,x
i
被识别为正常样本;当f(x
i
)=-1时,x
i
被识别为异常样本。5.根据权利要求1所述的油田离心泵注水站工作异常检测方法,其特征是,所述依据遗传算法对数据样本集进行参数优化的过程具体为:设定oc-svm的参数范围、遗传算法的种群规模n以及终止迭代次数t;确定遗传算法的编码方式,并按照oc-svm参数随机生成出n个染色体;计算出每一个染色体对应的适应度函数值;判断种群最优个体的适应度函数值是否达到阈值,成功达到则终止迭代,否则继续进行选择、交叉、变异操作的迭代并产生新的种群;最后得到最优的oc-svm参数并进行油田离心泵注水站异常检测。6.根据权利要求1所述的油田离心泵注水站工作异常检测方法,其特征是,该方法还包括:若ga-oc-svm模型检测到异常数据时,选取异常点前后达到预设数量的时间点的数值的中位数进行异常点的修复;
以修复后的异常点为起始点开始继续进行异常检测,直至所有数据完成检测。7.根据权利要求1所述的油田离心泵注水站工作异常检测方法,其特征是,所述数据样本包括:包含注水泵前后轴承温度、定子温度、三相风温的温度工程参数;包含注水泵进口压力、注水泵出口压力的压力相关工程参数;以及,包含液位、电参、流量的液位相关工程参数。8.油田离心泵注水站工作异常检测系统,其特征是,包括:数据获取模块,用于获取注水站正常工作时的数据样本,并对数据样本预处理后得到数据样本集;模型构建模块,用于通过单类支持向量机训练数据样本集,并依据遗传算法对数据样本集进行参数优化,得到ga-oc-svm模型;异常检测模块,用于以ga-oc-svm模型对预处理后的测试数据集进行检测,以实现油田离心泵注水站工作异常检测。9.一种计算机终端,包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现如权利要求1-7中任意一项所述的油田离心泵注水站工作异常检测方法。10.一种计算机可读介质,其上存储有计算机程序,其特征是,所述计算机程序被处理器执行可实现如权利要求1-7中任意一项所述的油田离心泵注水站工作异常检测方法。

技术总结
本发明公开了油田离心泵注水站工作异常检测方法、系统、终端及介质,涉及油田异常检测技术领域,其技术方案要点是:获取注水站正常工作时的数据样本,并对数据样本预处理后得到数据样本集;通过单类支持向量机训练数据样本集,并依据遗传算法对数据样本集进行参数优化,得到GA-OC-SVM模型;以GA-OC-SVM模型对预处理后的测试数据集进行检测,以实现油田离心泵注水站工作异常检测。通过使用遗传算法寻找单类支持向量机的参数后再进行模型构建,具有泛化性好,能够快速地找到确定的参数来衡量正常数据区域边界的大小,仅需要使用离心泵注水站正常工作时的数据样本,就能够针对逻辑关系复杂的数据进行高精度的异常检测。复杂的数据进行高精度的异常检测。复杂的数据进行高精度的异常检测。


技术研发人员:宋文广 李博文 李浩源 张秋娟 高子召 尹强 覃斌 赵安
受保护的技术使用者:长江大学
技术研发日:2022.06.08
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-1727.html

最新回复(0)