一种数据标注方法、装置、计算机设备及存储介质与流程

专利2025-04-29  13


本发明涉及数据处理,尤其涉及一种数据标注方法、装置、计算机设备及存储介质。


背景技术:

1、针对样本数据进行标注,属于对深度学习模型进行训练前常见的环节。目前,为了增加对样本数据的标注效率,可能会采用到自动标注装置对样本数据自动标注。然而,现有技术对样本数据进行自动标注时,存在难以保证得到的标注样本的质量的问题。

2、现有公告号cn112200273b公开了一种数据标注方法、装置、设备及计算机存储介质;其中,数据标注方法,包括:将待标注样本数据集输入到教师模型中进行标注,得到第一标注样本集,以及第一标注样本集中每一标注样本的可信度;在一个训练周期内,确定可信度阈值,从第一标注样本集中确定出第二标注样本集,使用第二标注样本集对学生模型进行训练,得到训练后的学生模型,并获取训练后的学生模型的目标评价指标;根据n个训练周期内获取的n个目标评价指标,从在n个训练周期内所确定的n个第二标注样本集中,确定出目标标注样本集,n为大于1的整数。能够实现对目标标注样本集的质量的验证,有效保证目标标注样本集的质量。

3、但是,对于复杂多样、分布不均或存在大量噪声的数据集,该方法可能无法有效地确定高质量的目标标注样本集。


技术实现思路

1、本发明的目的在于提供一种数据标注方法、装置、计算机设备及存储介质,解决了对于复杂多样、分布不均或存在大量噪声的数据集,该方法无法有效地确定高质量的目标标注样本集的问题。

2、为实现上述目的,本发明提供了一种数据标注方法,包括以下步骤:

3、在数据标注之前,对原始数据集进行预处理和清洗,以去除噪声和异常值;

4、使用多个不同的教师模型对同一数据集进行标注,以获取多个标注结果;

5、在数据标注过程中,实时收集标注人员的反馈和评估结果;

6、在每个训练周期结束后,对标注数据的质量进行评估;

7、根据标注数据的质量评估结果,动态调整教师模型和学生模型的参数和结构。

8、其中,在数据标注之前,对原始数据集进行预处理和清洗,以去除噪声和异常值,所述步骤还包括:

9、使用统计方法来识别并修正原始数据集中的错误和偏差;

10、应用机器学习技术来自动识别和过滤噪声数据;

11、对数据进行清洗,包括去除重复样本、处理缺失值以及消除异常值。

12、其中,使用多个不同的教师模型对同一数据集进行标注,以获取多个标注结果,所述步骤还包括:

13、训练多个不同的教师模型;

14、使用这些教师模型对同一清洗后的数据集进行标注,获取多个标注结果;

15、应用集成学习技术将多个标注结果融合为一个标注结果。

16、其中,在数据标注过程中,实时收集标注人员的反馈和评估结果,所述步骤还包括:

17、在数据标注过程中,实时收集标注人员的反馈和评估结果;

18、分析反馈和评估结果,了解标注过程中存在的问题和困难;

19、根据分析结果,实时调整标注过程。

20、其中,在每个训练周期结束后,对标注数据的质量进行评估,所述步骤还包括:

21、使用交叉验证、混淆矩阵、准确率、召回率等指标来量化评估标注数据的质量;

22、分析评估结果,了解标注数据中存在的不足和问题。

23、其中,根据标注数据的质量评估结果,动态调整教师模型和学生模型的参数和结构,所述步骤还包括:

24、使用增量学习技术,将新标注的高质量数据逐步加入到模型中,以更新模型并提高其性能和泛化能力;

25、重复上述步骤,不断迭代优化数据标注过程和模型性能。

26、一种数据标注装置,包括数据清洗模块、标注训练模块、评估模块和优化模块,所述数据清洗模块与所述标注训练模块连接,所述评估模块与所述标注训练模块连接,所述优化模块分别与所述评估模块和所述标注训练模块连接;

27、所述数据清洗模块,用于获取原始数据,并对原始数据集进行预处理和清洗,以去除噪声和异常值;

28、所述标注训练模块,用于使用多个不同的教师模型对同一清洗后的数据集进行标注,以获取多个标注结果,将多个标注结果融合为一个标注结果,并将其作为训练数据,用于学习模型的数据集;

29、所述评估模块,用于在数据标注过程中,实时收集标注人员的反馈和评估结果,以及在每个训练周期结束后,对标注数据的质量进行评估;

30、所述优化模块,用于根据标注数据的质量评估结果,动态调整教师模型和学生模型的参数和结构。

31、一种数据标注计算机设备,执行所述的数据标注方法。

32、一种数据标注存储介质,存储有计算机程序指令,计算机程序指令实现所述的数据标注方法。

33、本发明的一种数据标注方法、装置、计算机设备及存储介质,在数据标注之前,对原始数据集进行预处理和清洗,以去除噪声和异常值,使用统计方法或机器学习技术来识别和修正数据集中的错误和偏差,使用多个不同的教师模型对同一数据集进行标注,以获取多个标注结果,通过集成学习技术将多个标注结果融合为一个更准确的标注结果,在数据标注过程中,实时收集标注人员的反馈和评估结果,根据反馈和评估结果对标注过程进行实时调整,如调整标注难度、增加标注指导等,在每个训练周期结束后,对标注数据的质量进行评估,使用交叉验证、混淆矩阵、准确率、召回率等指标来评估标注数据的质量,根据标注数据的质量评估结果,动态调整教师模型和学生模型的参数和结构,使用增量学习技术,将新标注的高质量数据逐步加入到模型中,以提高模型的性能和泛化能力。有效地处理复杂多样、分布不均或存在大量噪声的数据集。预处理和清洗步骤有助于去除数据中的噪声和异常值;多模型标注与集成可以提高标注结果的准确性和一致性;实时反馈与质量控制可以确保标注过程的高质量进行;标注数据的质量评估可以确保最终标注数据的质量;增量学习与动态调整可以不断提高模型的性能和泛化能力。这些改进使得该方法能够更好地适应复杂多样的数据集,并有效地确定高质量的目标标注样本集。



技术特征:

1.一种数据标注方法,其特征在于,包括以下步骤:

2.如权利要求1所述的数据标注方法,其特征在于,在数据标注之前,对原始数据集进行预处理和清洗,以去除噪声和异常值,所述步骤还包括:

3.如权利要求2所述的数据标注方法,其特征在于,使用多个不同的教师模型对同一数据集进行标注,以获取多个标注结果,所述步骤还包括:

4.如权利要求3所述的数据标注方法,其特征在于,在数据标注过程中,实时收集标注人员的反馈和评估结果,所述步骤还包括:

5.如权利要求4所述的数据标注方法,其特征在于,在每个训练周期结束后,对标注数据的质量进行评估,所述步骤还包括:

6.如权利要求5所述的数据标注方法,其特征在于,根据标注数据的质量评估结果,动态调整教师模型和学生模型的参数和结构,所述步骤还包括:

7.一种数据标注装置,适用于如权利要求1至权利要求6任意一项所述的数据标注方法,其特征在于,

8.一种数据标注计算机设备,执行如权利要求1至权利要求6任意一项所述的数据标注方法。

9.一种数据标注存储介质,存储有计算机程序指令,计算机程序指令实现如权利要求1至权利要求6任意一项所述的数据标注方法。


技术总结
本发明涉及数据处理技术领域,具体涉及一种数据标注方法、装置、计算机设备及存储介质,在数据标注之前,对原始数据集进行预处理和清洗,以去除噪声和异常值;使用多个不同的教师模型对同一数据集进行标注,以获取多个标注结果;在数据标注过程中,实时收集标注人员的反馈和评估结果;在每个训练周期结束后,对标注数据的质量进行评估;根据标注数据的质量评估结果,动态调整教师模型和学生模型的参数和结构。预处理和清洗步骤有助于去除数据中的噪声和异常值;多模型标注与集成可以提高标注结果的准确性和一致性;实时反馈与质量控制可以确保标注过程的高质量进行;有效地确定高质量的目标标注样本集。

技术研发人员:李青松,陈翼,张申绩,梁修荣,凃华平
受保护的技术使用者:重庆清卓科技有限公司
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-13635.html

最新回复(0)