一种工业数据清洗方法与流程

专利2026-01-31 23

本发明涉及数据处理，尤其是涉及一种工业数据清洗方法。

背景技术：

1、在互联网技术迅速发展的背景下，数据量呈现爆发式增长，各行业都积累了海量数据。数据信息的统一、完整在公司日常管理中占据越来越重要的地位，大数据信息的管理、分析和预测已然成为公司数字化转型的重要目标，数据可靠无误才能准确地反映现实状况，有效地支持组织决策。但是，现实世界中脏数据无处不在，数据不正确或者不一致会严重影响数据分析的结果，从而产生消极作用。数据清洗的重要性由此凸显出来--它能提高数据的公信力和准确度，因而对数据清洗的研究就显得至关重要。随着时代的变迁，错误数据的形式变幻多样，数据量的增长也为数据清洗算法的设计提出新的要求，许多传统的数据清洗算法已无法满足大数据时代的需求。

2、因此，有必要提供一种工业数据清洗方法，来解决上述问题。

技术实现思路

1、本发明的目的是提供一种工业数据清洗方法，能够有效地清洗各种类型的工业数据，适用于多个领域和应用场景，用户可以获得高质量的数据集，为后续数据分析和决策提供可靠的基础。

2、为实现上述目的，本发明提供了一种工业数据清洗方法，包括以下步骤：

3、s1：针对待清洗数据进行预处理；

4、s2：预处理之后的数据进行缺失值处理，数据之间具备线性关系，建立回归模型的来预测缺失值；数据之间不具备线性关系，使用最大似然估计计算缺失值；

5、s3：噪声过滤检测；

6、s4：数据清洗结果检验，验证经过清洗后的数据是否符合预期要求，不符合任务要求，修改清洗规则或模型，重新进行数据清洗，并重新对结果进行检验评估；符合要求输出清洗后的数据。

7、优选的，在步骤s1中，预处理方法包括数据标准化、数据格式转换、数据转换和映射以及数据采样和分割；还包括去除数据的输入错误，通过外部函数和外部源文件纠正数据记录的错误；

8、数据统一化，使用统一的缩写，根据缩写表达与全称的对应关系，对所有数据进行一个标准化的处理；

9、数据格式转换，对表示格式不同的数据进行转换，把表示不一致的数据转换成表示一致的数据，把一个数据表转换成多个不同结构的数据表；

10、数据采样和分割，对于大规模数据集，通过采样技术获取代表性样本，或将数据集分割成小批次进行处理；

11、数据转换和映射：对于存在非结构化或混乱的数据，进行转换和映射，将其转化为结构化数据。

12、优选的，在步骤s2中，回归模型采用已知的数据建立模型：

13、y＝xβ+ε1

14、其中，y表示已知值，x表示选出的y的自变量，β表示估计参数，ε1表示误差；

15、利用最小二乘法估计出再把代入缺失值模型，得到一组插值：

16、z＝wβ+ε2

17、其中，z表示缺失值，w表示缺失值的自变量，ε2表示误差；

18、优选的，在步骤s2中，以期望-极大化算法em进行最大似然估计mle：

19、完整数据集y表示为：y＝(x,z)；

20、其中，x为不完整的数据集，x＝{x1,x2,x3,.....xn}；

21、z为zi的集合，zi为隐含变量，zi∈{1，2，......,m}，m是给定的有限整数，y＝{(x1,z1),......,(xn,zn)},则完整数据集y的似然函数为：

22、

23、其中，z＝{z1,z2,.....zn}；

24、s21：辅助函数q(θ,θ(i-1))＝e(log(l(θ|x,z))，其中，f(z|x,θ(i-1))为x和上一轮迭代的参数估计θ(i-1)下的隐变量z的条件概率密度函数，参数θ与θ(i-1)为初始值和上一次的迭代值，则：

25、q(θ,θ(i-1))＝e(log(l(θ|x,z))＝∫zlog(l(θ|x,z)f(z|x,θ(i-1))dz

26、s22：求解q*，使q(θ*,θ(i-1))取得极大值：

27、θ*＝argmaxq(θ*,θ(i-1))。

28、优选的，在步骤s3中，噪声检测为面向结构冲突的清洗方法和面向属性值检测的方法；

29、面向结构冲突的清洗方法为人工手动检测清洗或函数依赖方法；

30、面向属性值检测方法为离群点分析、小波去噪和重复数据检测。

31、优选的，离群点分析采用离群点聚类检测离群点；小波去噪根据衡量标准找出对原信号的最佳逼近，区别原信号与噪声信号；重复数据检测具体包括如下过程：

32、s31：选取排序关键字，选取记录中的关键字段或属性值字符串，作为记录排序的关键字；

33、s32：记录排序，根据选定的排序关键字对整个数据集进行排序，相似重复记录在位置上接近，为下一步的重复检测作准备；

34、s33：相似重复记录检测，将子模型的决策值作为类别标签进行统计，每个类别标签为一票，以相对多数表决法筛选得票最高的类别作为最终结论输出。

35、优选的，离群点聚类检测中离群因子计算公式如下：

36、

37、uij表示数据x的隶属度，c是聚类个数；

38、数据点x的离群因子表示为加权距离wd(x,y)大于参数dis的点的个数与数据集大小的比值：

39、

40、其中，u表示数据点对象的集合，y表示集合u除数据点对象之外的其他对象，dis表示数据的阈值，该阈值由经验或分析设定。

41、优选的，小波去噪找到实际信号空间到小波函数空间的最佳映射，恢复最佳的原信号；

42、设含噪信号f(k)＝f(k)+n(k)，k＝0,1,2,…,n-1，其中f(k)为原始信号，n(k)是服从n(0，σ2)的高斯白噪声，对含噪信号f(k)作离散小波变换，得：

43、wj,k＝wf(j,k)+wn(j,k)(j＝1，2，…，m，k＝1，2，…，n)

44、其中wj,k，wf(j,k)和wn(j,k)分别是含噪信号，原始信号以及噪声信号在第j层上的小波系数，m是最大分解层数，n是信号的总个数，对f(k)作离散小波变换后，得到的小波系数wj,k由两部分组成，原始信号f(k)对应的小波系数wf(j,k)和噪声信号n(k)对应的小波系数wn(j,k)，图像中有用的信息表现为低频信号，而噪声信号则表现为高频信号，经小波分解后，信号的小波系数大于噪声的小波系数，规定一个阈值，阈值使用固定阈值或依据统计特征和噪声模型来估计阈值，当wj,k小于该阈值时，认为这时的wj,k主要是由噪声引起的，将其置为零；当wj,k大于该阈值时，认为这时的wj,k主要是由信号引起的，对其进行保留或者收缩，实现信噪分离。

45、优选的，在步骤s4中，采用数据清洗的查全率作为实验结果的评价指标，计算方法如下：

46、

47、式中：λ表示清洗结果查全率，n表示实验数据总数量，n1表示识别出的异常数据量，n2表示成功清洗的数据量；成功清洗的标准设定为该数据的可扩展性大于1.0。

48、优选的，数据清洗方法基于计算机或云平台实施，包括硬件组件和软件组件，硬件组件包括处理器、存储设备和输入输出设备；软件组件包括数据预处理模块、缺失值处理模块、异常值检测模块、数据输出模块。

49、因此，本发明采用上述一种工业数据清洗方法，具备以下有益效果：

50、(1)本发明采用预定义的规则和模型进行数据清洗，能够高效、准确地检测和修复数据中的错误、缺失和异常值。

51、(2)本发明可扩展性强，支持多种数据格式和数据源，适用于不同领域和规模的数据清洗需求。

52、(3)本发明数据一致性，通过一致性验证模块，确保清洗后的数据具有良好的逻辑关系和整体完整性。

53、下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

技术特征：

1.一种工业数据清洗方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种工业数据清洗方法，其特征在于，在步骤s1中，预处理方法包括数据标准化、数据格式转换、数据转换和映射以及数据采样和分割；还包括去除数据的输入错误，通过外部函数和外部源文件纠正数据记录的错误；

3.根据权利要求2所述的一种工业数据清洗方法，其特征在于，在步骤s2中，回归模型采用已知的数据建立模型：

4.根据权利要求3所述的一种工业数据清洗方法，其特征在于，在步骤s2中，以期望-极大化算法em进行最大似然估计mle：

5.根据权利要求4所述的一种工业数据清洗方法，其特征在于，在步骤s3中，噪声检测为面向结构冲突的清洗方法和面向属性值检测的方法；

6.根据权利要求5所述的一种工业数据清洗方法，其特征在于，离群点分析采用离群点聚类检测离群点；小波去噪根据衡量标准找出对原信号的最佳逼近，区别原信号与噪声信号；重复数据检测具体包括如下过程：

7.根据权利要求6所述的一种工业数据清洗方法，其特征在于，离群点聚类检测中离群因子计算公式如下：

8.根据权利要求7所述的一种工业数据清洗方法，其特征在于，小波去噪找到实际信号空间到小波函数空间的最佳映射，恢复最佳的原信号；

9.根据权利要求8所述的一种工业数据清洗方法，其特征在于，在步骤s4中，采用数据清洗的查全率作为实验结果的评价指标，计算方法如下：

10.根据权利要求9所述的一种工业数据清洗方法，其特征在于，数据清洗方法基于计算机或云平台实施，包括硬件组件和软件组件，硬件组件包括处理器、存储设备和输入输出设备；软件组件包括数据预处理模块、缺失值处理模块、异常值检测模块、数据输出模块。

技术总结
本发明公开了一种工业数据清洗方法，涉及数据处理技术领域，包括以下步骤：S1：针对待清洗数据进行预处理；S2：预处理之后的数据进行缺失值处理，数据之间具备线性关系，建立回归模型的来预测缺失值；数据之间不具备线性关系，使用最大似然估计计算缺失值；S3：噪声过滤检测；S4：数据清洗结果检验，验证经过清洗后的数据是否符合预期要求，不符合任务要求，修改清洗规则或模型，重新进行数据清洗，并重新对结果进行检验评估；符合要求输出清洗后的数据。本发明采用上述的一种工业数据清洗方法，能够有效地清洗各种类型的工业数据，适用于多个领域和应用场景，用户可以获得高质量的数据集，为后续数据分析和决策提供可靠的基础。

技术研发人员：李启龙,马越,王晨曦,褚治广,李启鑫,芦苇,张磊
受保护的技术使用者：启升（辽宁）工业集团有限公司
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-19417.html

专利

最新回复(0)