电力多源数据处理方法、装置、计算机设备、可读存储介质和程序产品与流程

专利2025-11-05  33


本申请涉及数据处理,特别是涉及一种电力多源数据处理方法、装置、计算机设备、可读存储介质和程序产品。


背景技术:

1、随着大数据时代的到来,数据已经成为企业的重要资产和竞争力来源。在当前的商业环境中,企业需要通过高效的数据分析来获取市场洞察、优化业务流程、提升决策效率等。随着信息技术的发展,企业的数据来源也趋于多样化,形成了多源数据。

2、目前,对多源数据的预处理方式大多是基于固定规则的,针对不同来源的数据,设置对应的数据过滤和数据清洗规则进行数据预处理。由于多源数据的产生通常具有动态性和不确定性,且数据的来源也是动态变化的,固定规则的数据预处理方式在实际应用中缺乏灵活性,难以对多源数据进行准确有效的预处理。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够提高多源数据处理准确性的电力多源数据处理方法、装置、计算机设备、可读存储介质和程序产品。

2、第一方面,本申请提供了一种电力多源数据处理方法,包括:

3、获取待处理数据的字段特征;字段特征包括待处理数据中异常数据的异常类型;

4、在异常类型为缺失异常的情况下,根据字段特征确定异常数据对应的缺失处理方案;

5、在异常类型为越界异常的情况下,根据字段特征确定异常数据对应的越界处理方案;

6、通过相应的处理方案对异常数据进行处理。

7、在其中一个实施例中,字段特征还包括待处理数据的字段类型;获取待处理数据的字段特征的步骤,包括:

8、识别待处理数据中的异常数据和异常数据的异常类型;

9、对待处理数据进行字段统计,得到待处理数据的字段类型。

10、在其中一个实施例中,字段特征还包括上四分位数和下四分位数;识别待处理数据中的异常数据和异常数据的异常类型的步骤,包括:

11、以上四分位数和下四分位数为边界值,计算待处理数据中各数据点与边界值间的目标距离;

12、根据目标距离确定越界阈值,根据越界阈值,确定待处理数据中异常类型为越界异常的异常数据。

13、在其中一个实施例中,根据字段特征确定异常数据对应的缺失处理方案的步骤,包括:

14、通过第一分类模型对异常数据进行分类处理,得到异常数据对应的缺失处理方案;第一分类模型为以缺失处理方案集作为目标变量、以字段特征作为输入数据的机器学习模型;

15、其中,在字段类型为数值字段的情况下,缺失处理方案集包括线性回归处理、最近邻处理和预设填充处理;在字段类型为文本字段的情况下,缺失处理方案集包括逻辑回归处理和众数填充处理;在字段类型为时间字段的情况下,缺失处理方案集包括序列填充处理。

16、在其中一个实施例中,根据字段特征确定异常数据对应的越界处理方案的步骤,包括:

17、通过第二分类模型对异常数据进行分类处理,得到异常数据对应的越界处理方案;第二分类模型为以越界处理方案集作为目标变量、以字段特征作为输入数据的机器学习模型;越界处理方案集包括缩尾处理。

18、在其中一个实施例中,机器学习模型的训练过程,包括:

19、获取样本数据的字段特征,基于字段特征构建训练样本;

20、利用训练样本对基础机器学习模型进行迭代训练,获取机器学习模型的评价指标;评价指标包括精准度和召回率;

21、在评价指标处于预设范围内的情况下,对基础机器学习模型的模型参数进行调整,返回利用训练样本对基础机器学习模型进行迭代训练的步骤,并继续执行,直至评价指标处于预设范围内。

22、第二方面,本申请还提供了一种电力多源数据处理装置,包括:

23、特征获取模块,用于获取待处理数据的字段特征;字段特征包括待处理数据中异常数据的异常类型;

24、第一确定模块,用于在异常类型为缺失异常的情况下,根据字段特征确定异常数据对应的缺失处理方案;

25、第二确定模块,用于在异常类型为越界异常的情况下,根据字段特征确定异常数据对应的越界处理方案;

26、异常处理模块,用于通过相应的处理方案对异常数据进行处理。

27、第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现第一方面中任意一项的方法步骤。

28、第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一方面中任意一项的方法步骤。

29、第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面中任意一项的方法步骤。

30、上述电力多源数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,通过获取待处理数据中异常数据的异常类型,在异常类型为缺失异常的情况下,根据字段特征确定异常数据对应的缺失处理方案,在异常类型为越界异常的情况下,根据字段特征确定异常数据对应的越界处理方案,通过相应的处理方案对异常数据进行处理,能够针对不同异常类型的异常数据,自适应地确定处理方式,提高对多源数据的智能化处理能力,另外,通过确定的处理方式可以实现对异常数据的自动化处理,提高了对多源数据的数据预处理的灵活性,从而可以对多源数据进行准确有效的预处理。



技术特征:

1.一种电力多源数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述字段特征还包括待处理数据的字段类型;所述获取待处理数据的字段特征,包括:

3.根据权利要求2所述的方法,其特征在于,所述字段特征还包括上四分位数和下四分位数;所述识别待处理数据中的异常数据和所述异常数据的异常类型,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据所述字段特征确定所述异常数据对应的缺失处理方案,包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述字段特征确定所述异常数据对应的越界处理方案,包括:

6.根据权利要求4或5所述的方法,其特征在于,所述机器学习模型的训练过程,包括:

7.一种电力多源数据处理装置,其特征在于,所述装置包括:

8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。


技术总结
本申请涉及一种电力多源数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:获取待处理数据中异常数据的异常类型,在异常类型为缺失异常的情况下,根据字段特征确定异常数据对应的缺失处理方案,在异常类型为越界异常的情况下,根据字段特征确定异常数据对应的越界处理方案,通过相应的处理方案对异常数据进行处理。采用本方法能够针对不同异常类型的异常数据,自适应地确定处理方式,实现对异常数据的智能化、自动化处理,提高了对多源数据的数据预处理的灵活性,从而可以对多源数据进行准确有效的预处理。

技术研发人员:杨春,李燕妮,谢彬瑜,从硕,李洁珊,刘重阳,马一宁,赵嘉奇,何双伯,杨利辛,李于达
受保护的技术使用者:南方电网能源发展研究院有限责任公司
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-17267.html

最新回复(0)