本发明涉及数据处理,尤其是涉及一种工业数据清洗方法。
背景技术:
1、在互联网技术迅速发展的背景下,数据量呈现爆发式增长,各行业都积累了海量数据。数据信息的统一、完整在公司日常管理中占据越来越重要的地位,大数据信息的管理、分析和预测已然成为公司数字化转型的重要目标,数据可靠无误才能准确地反映现实状况,有效地支持组织决策。但是,现实世界中脏数据无处不在,数据不正确或者不一致会严重影响数据分析的结果,从而产生消极作用。数据清洗的重要性由此凸显出来--它能提高数据的公信力和准确度,因而对数据清洗的研究就显得至关重要。随着时代的变迁,错误数据的形式变幻多样,数据量的增长也为数据清洗算法的设计提出新的要求,许多传统的数据清洗算法已无法满足大数据时代的需求。
2、因此,有必要提供一种工业数据清洗方法,来解决上述问题。
技术实现思路
1、本发明的目的是提供一种工业数据清洗方法,能够有效地清洗各种类型的工业数据,适用于多个领域和应用场景,用户可以获得高质量的数据集,为后续数据分析和决策提供可靠的基础。
2、为实现上述目的,本发明提供了一种工业数据清洗方法,包括以下步骤:
3、s1:针对待清洗数据进行预处理;
4、s2:预处理之后的数据进行缺失值处理,数据之间具备线性关系,建立回归模型的来预测缺失值;数据之间不具备线性关系,使用最大似然估计计算缺失值;
5、s3:噪声过滤检测;
6、s4:数据清洗结果检验,验证经过清洗后的数据是否符合预期要求,不符合任务要求,修改清洗规则或模型,重新进行数据清洗,并重新对结果进行检验评估;符合要求输出清洗后的数据。
7、优选的,在步骤s1中,预处理方法包括数据标准化、数据格式转换、数据转换和映射以及数据采样和分割;还包括去除数据的输入错误,通过外部函数和外部源文件纠正数据记录的错误;
8、数据统一化,使用统一的缩写,根据缩写表达与全称的对应关系,对所有数据进行一个标准化的处理;
9、数据格式转换,对表示格式不同的数据进行转换,把表示不一致的数据转换成表示一致的数据,把一个数据表转换成多个不同结构的数据表;
10、数据采样和分割,对于大规模数据集,通过采样技术获取代表性样本,或将数据集分割成小批次进行处理;
11、数据转换和映射:对于存在非结构化或混乱的数据,进行转换和映射,将其转化为结构化数据。
12、优选的,在步骤s2中,回归模型采用已知的数据建立模型:
13、y=xβ+ε1
14、其中,y表示已知值,x表示选出的y的自变量,β表示估计参数,ε1表示误差;
15、利用最小二乘法估计出再把代入缺失值模型,得到一组插值:
16、z=wβ+ε2
17、其中,z表示缺失值,w表示缺失值的自变量,ε2表示误差;
18、优选的,在步骤s2中,以期望-极大化算法em进行最大似然估计mle:
19、完整数据集y表示为:y=(x,z);
20、其中,x为不完整的数据集,x={x1,x2,x3,.....xn};
21、z为zi的集合,zi为隐含变量,zi∈{1,2,......,m},m是给定的有限整数,y={(x1,z1),......,(xn,zn)},则完整数据集y的似然函数为:
22、
23、其中,z={z1,z2,.....zn};
24、s21:辅助函数q(θ,θ(i-1))=e(log(l(θ|x,z)),其中,f(z|x,θ(i-1))为x和上一轮迭代的参数估计θ(i-1)下的隐变量z的条件概率密度函数,参数θ与θ(i-1)为初始值和上一次的迭代值,则:
25、q(θ,θ(i-1))=e(log(l(θ|x,z))=∫zlog(l(θ|x,z)f(z|x,θ(i-1))dz
26、s22:求解q*,使q(θ*,θ(i-1))取得极大值:
27、θ*=argmaxq(θ*,θ(i-1))。
28、优选的,在步骤s3中,噪声检测为面向结构冲突的清洗方法和面向属性值检测的方法;
29、面向结构冲突的清洗方法为人工手动检测清洗或函数依赖方法;
30、面向属性值检测方法为离群点分析、小波去噪和重复数据检测。
31、优选的,离群点分析采用离群点聚类检测离群点;小波去噪根据衡量标准找出对原信号的最佳逼近,区别原信号与噪声信号;重复数据检测具体包括如下过程:
32、s31:选取排序关键字,选取记录中的关键字段或属性值字符串,作为记录排序的关键字;
33、s32:记录排序,根据选定的排序关键字对整个数据集进行排序,相似重复记录在位置上接近,为下一步的重复检测作准备;
34、s33:相似重复记录检测,将子模型的决策值作为类别标签进行统计,每个类别标签为一票,以相对多数表决法筛选得票最高的类别作为最终结论输出。
35、优选的,离群点聚类检测中离群因子计算公式如下:
36、
37、uij表示数据x的隶属度,c是聚类个数;
38、数据点x的离群因子表示为加权距离wd(x,y)大于参数dis的点的个数与数据集大小的比值:
39、
40、其中,u表示数据点对象的集合,y表示集合u除数据点对象之外的其他对象,dis表示数据的阈值,该阈值由经验或分析设定。
41、优选的,小波去噪找到实际信号空间到小波函数空间的最佳映射,恢复最佳的原信号;
42、设含噪信号f(k)=f(k)+n(k),k=0,1,2,…,n-1,其中f(k)为原始信号,n(k)是服从n(0,σ2)的高斯白噪声,对含噪信号f(k)作离散小波变换,得:
43、wj,k=wf(j,k)+wn(j,k)(j=1,2,…,m,k=1,2,…,n)
44、其中wj,k,wf(j,k)和wn(j,k)分别是含噪信号,原始信号以及噪声信号在第j层上的小波系数,m是最大分解层数,n是信号的总个数,对f(k)作离散小波变换后,得到的小波系数wj,k由两部分组成,原始信号f(k)对应的小波系数wf(j,k)和噪声信号n(k)对应的小波系数wn(j,k),图像中有用的信息表现为低频信号,而噪声信号则表现为高频信号,经小波分解后,信号的小波系数大于噪声的小波系数,规定一个阈值,阈值使用固定阈值或依据统计特征和噪声模型来估计阈值,当wj,k小于该阈值时,认为这时的wj,k主要是由噪声引起的,将其置为零;当wj,k大于该阈值时,认为这时的wj,k主要是由信号引起的,对其进行保留或者收缩,实现信噪分离。
45、优选的,在步骤s4中,采用数据清洗的查全率作为实验结果的评价指标,计算方法如下:
46、
47、式中:λ表示清洗结果查全率,n表示实验数据总数量,n1表示识别出的异常数据量,n2表示成功清洗的数据量;成功清洗的标准设定为该数据的可扩展性大于1.0。
48、优选的,数据清洗方法基于计算机或云平台实施,包括硬件组件和软件组件,硬件组件包括处理器、存储设备和输入输出设备;软件组件包括数据预处理模块、缺失值处理模块、异常值检测模块、数据输出模块。
49、因此,本发明采用上述一种工业数据清洗方法,具备以下有益效果:
50、(1)本发明采用预定义的规则和模型进行数据清洗,能够高效、准确地检测和修复数据中的错误、缺失和异常值。
51、(2)本发明可扩展性强,支持多种数据格式和数据源,适用于不同领域和规模的数据清洗需求。
52、(3)本发明数据一致性,通过一致性验证模块,确保清洗后的数据具有良好的逻辑关系和整体完整性。
53、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
1.一种工业数据清洗方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种工业数据清洗方法,其特征在于,在步骤s1中,预处理方法包括数据标准化、数据格式转换、数据转换和映射以及数据采样和分割;还包括去除数据的输入错误,通过外部函数和外部源文件纠正数据记录的错误;
3.根据权利要求2所述的一种工业数据清洗方法,其特征在于,在步骤s2中,回归模型采用已知的数据建立模型:
4.根据权利要求3所述的一种工业数据清洗方法,其特征在于,在步骤s2中,以期望-极大化算法em进行最大似然估计mle:
5.根据权利要求4所述的一种工业数据清洗方法,其特征在于,在步骤s3中,噪声检测为面向结构冲突的清洗方法和面向属性值检测的方法;
6.根据权利要求5所述的一种工业数据清洗方法,其特征在于,离群点分析采用离群点聚类检测离群点;小波去噪根据衡量标准找出对原信号的最佳逼近,区别原信号与噪声信号;重复数据检测具体包括如下过程:
7.根据权利要求6所述的一种工业数据清洗方法,其特征在于,离群点聚类检测中离群因子计算公式如下:
8.根据权利要求7所述的一种工业数据清洗方法,其特征在于,小波去噪找到实际信号空间到小波函数空间的最佳映射,恢复最佳的原信号;
9.根据权利要求8所述的一种工业数据清洗方法,其特征在于,在步骤s4中,采用数据清洗的查全率作为实验结果的评价指标,计算方法如下:
10.根据权利要求9所述的一种工业数据清洗方法,其特征在于,数据清洗方法基于计算机或云平台实施,包括硬件组件和软件组件,硬件组件包括处理器、存储设备和输入输出设备;软件组件包括数据预处理模块、缺失值处理模块、异常值检测模块、数据输出模块。
