面向大模型的数据清洗方法及装置与流程

专利2025-05-25  36


本申请涉及大数据处理领域,尤其涉及一种面向大模型的数据清洗方法及装置。


背景技术:

1、数据清洗作为大数据处理和大模型数据工程的重要环节,数据清洗的质量直接影响到模型的训练效果和预测准确性。因此,如何高效地进行数据清洗,是大数据处理和模型训练技术面临的重要问题。现有的数据清洗方法主要是针对每个清洗策略清洗数据集,每个清洗策略清洗数据、统计监控指标并保存清洗后的数据集,再依次处理之后的清洗策略。这种以清洗策略为中心的清洗便于策略的独立处理和测试监控,通常比较适合规模不大的数据集。

2、然而,当数据集非常大时,现有的数据清洗方法存在一些问题。首先,多个清洗策略需要全扫描清洗多遍数据集,这将导致运行性能很低,且现有的方法是以清洗策略为中心,不适合面向大模型的数据集清洗,整体数据清洗效率较低。


技术实现思路

1、本申请提供了一种面向大模型的数据清洗方法及装置,目的在于提高大模型的数据集的清洗效率。

2、为了实现上述目的,本申请提供了以下技术方案:

3、一种面向大模型的数据清洗方法,包括:

4、基于大模型的待清洗数据集,确定对应的清洗任务;所述清洗任务包括任务资源配置和清洗策略配置;所述清洗策略配置包括多个清洗策略以及对应的优先级;

5、对所述待清洗数据集进行分割,以获得多个数据块;

6、根据所述任务资源配置以及集群当前剩余资源,确定每个所述数据块所匹配的数据运行节点;

7、基于所述清洗策略配置,生成每个所述数据块对应的数据清洗作业;

8、将每个所述数据块以及对应的数据清洗作业,分发至每个所述数据块所匹配的数据运行节点,触发每个数据运行节点按照优先级由高到低的顺序,依次采用多个所述清洗策略对所述数据块进行数据清洗,以获得对应的已清洗数据;

9、基于所获得的多个已清洗数据,确定为所述大模型所需的有效数据。

10、可选的,触发所述数据运行节点按照优先级由高到低的顺序,依次采用多个所述清洗策略对所述数据块进行数据清洗的过程,包括:

11、触发所述数据运行节点将所述数据块拆分为多个数据行,并采用多个线程,对多个所述数据行并行执行目标操作,以获得多个已清洗数据行;所述目标操作为:按照优先级由高到低的顺序,依次采用多个所述清洗策略对所述数据行进行数据清洗。

12、可选的,所述方法还包括:

13、获得各个所述数据运行节点的监控指标数据,并显示各个所述监控指标数据;所述监控指标数据包括多个所述清洗策略的监控指标以及对应的指标值;所述指标值基于所述数据运行节点调用预设的核心类实时采集所得。

14、可选的,所述方法还包括:

15、将所述清洗任务完成时各个所述数据运行节点的监控指标数据进行合并,以获得所述清洗任务完成时多个所述清洗策略的统一指标数据;所述统一指标数据包括所述清洗策略的监控指标以及对应的有效指标值;所述有效指标值为各个所述监控指标数据所示指标值的总和。

16、一种面向大模型的数据清洗装置,包括:

17、任务确定单元,用于基于大模型的待清洗数据集,确定对应的清洗任务;所述清洗任务包括任务资源配置和清洗策略配置;所述清洗策略配置包括多个清洗策略以及对应的优先级;

18、数据分割单元,用于对所述待清洗数据集进行分割,以获得多个数据块;

19、节点匹配单元,用于根据所述任务资源配置以及集群当前剩余资源,确定每个所述数据块所匹配的数据运行节点;

20、作业生成单元,用于基于所述清洗策略配置,生成每个所述数据块对应的数据清洗作业;

21、作业执行单元,用于将每个所述数据块以及对应的数据清洗作业,分发至每个所述数据块所匹配的数据运行节点,触发每个数据运行节点按照优先级由高到低的顺序,依次采用多个所述清洗策略对所述数据块进行数据清洗,以获得对应的已清洗数据;

22、数据整合单元,用于基于所获得的多个已清洗数据,确定为所述大模型所需的有效数据。

23、可选的,所述作业执行单元触发所述数据运行节点按照优先级由高到低的顺序,依次采用多个所述清洗策略对所述数据块进行数据清洗的过程,包括:

24、触发所述数据运行节点将所述数据块拆分为多个数据行,并采用多个线程,对多个所述数据行并行执行目标操作,以获得多个已清洗数据行;所述目标操作为:按照优先级由高到低的顺序,依次采用多个所述清洗策略对所述数据行进行数据清洗。

25、可选的,所述装置还包括:

26、清洗监控单元,用于获得各个所述数据运行节点的监控指标数据,并显示各个所述监控指标数据;所述监控指标数据包括多个所述清洗策略的监控指标以及对应的指标值;所述指标值基于所述数据运行节点调用预设的核心类实时采集所得。

27、可选的,所述清洗监控单元还用于:

28、将所述清洗任务完成时各个所述数据运行节点的监控指标数据进行合并,以获得所述清洗任务完成时多个所述清洗策略的统一指标数据;所述统一指标数据包括所述清洗策略的监控指标以及对应的有效指标值;所述有效指标值为各个所述监控指标数据所示指标值的总和。

29、一种存储介质,所述存储介质包括存储的程序,其中,所述程序被处理器运行时执行所述的面向大模型的数据清洗方法。

30、一种电子设备,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;

31、所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序被处理器运行时执行所述的面向大模型的数据清洗方法。

32、本申请提供的技术方案,基于大模型的待清洗数据集,确定对应的清洗任务。对待清洗数据集进行分割,以获得多个数据块。根据任务资源配置以及集群当前剩余资源,确定每个数据块所匹配的数据运行节点。基于清洗策略配置,生成每个数据块对应的数据清洗作业。将每个数据块以及对应的数据清洗作业,分发至每个数据块所匹配的数据运行节点,触发每个数据运行节点按照优先级由高到低的顺序,依次采用多个清洗策略对数据块进行数据清洗,以获得对应的已清洗数据。基于所获得的多个已清洗数据,确定为大模型所需的有效数据。本申请可确保每个清洗策略所面向的清洗对象为数据块(数据行)而非整个待清洗数据集,实现以数据为中心的清洗效果,避免多次扫描待清洗数据集,从而有效提高大模型的数据集的清洗效率。



技术特征:

1.一种面向大模型的数据清洗方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,触发所述数据运行节点按照优先级由高到低的顺序,依次采用多个所述清洗策略对所述数据块进行数据清洗的过程,包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.一种面向大模型的数据清洗装置,其特征在于,包括:

6.根据权利要求5所述的装置,其特征在于,所述作业执行单元触发所述数据运行节点按照优先级由高到低的顺序,依次采用多个所述清洗策略对所述数据块进行数据清洗的过程,包括:

7.根据权利要求5所述的装置,其特征在于,所述装置还包括:

8.根据权利要求7所述的装置,其特征在于,所述清洗监控单元还用于:

9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序被处理器运行时执行权利要求1-4任一所述的面向大模型的数据清洗方法。

10.一种电子设备,其特征在于,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;


技术总结
本申请公开了一种面向大模型的数据清洗方法及装置,该方法为:基于大模型的待清洗数据集,确定对应的清洗任务;对待清洗数据集进行分割,以获得多个数据块;根据任务资源配置以及集群当前剩余资源,确定每个数据块所匹配的数据运行节点;基于清洗策略配置,生成每个数据块对应的数据清洗作业;将每个数据块以及对应的数据清洗作业,分发至每个数据块所匹配的数据运行节点,触发每个数据运行节点按照优先级由高到低的顺序,依次采用多个清洗策略对数据块进行数据清洗,以获得已清洗数据;基于多个已清洗数据,确定为大模型所需的有效数据。该方法可确保每个清洗策略所面向的清洗对象为数据块,避免多次扫描待清洗数据集,从而提高数据清洗效率。

技术研发人员:周善保,杜威,所嘉懿,李因营,张政凯
受保护的技术使用者:浪潮云信息技术股份公司
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-14318.html

最新回复(0)