文档数据过滤方法、大语言模型训练方法、设备及介质与流程

专利2025-06-25  21


本申请涉及计算机,具体涉及一种文档数据过滤方法、大语言模型训练方法、电子设备及存储介质。


背景技术:

1、在大语言模型的研发过程中,大部分模型依赖海量的互联网数据进行训练,但这些数据的质量却参差不齐。一方面,优质的学术文章和知识问答社区对话等数据为模型提供了丰富的知识点,有助于其深入学习和理解复杂知识。另一方面,大量重复的广告文本和断裂的句子等低质量数据充斥着训练集,它们缺乏实际价值,不仅可能降低训练效率,还可能对模型的预测输出质量造成负面影响,例如,诱导模型产生过拟合,影响其学习和预测能力。

2、相应地,本领域需要一种新的数据过滤方案来解决上述问题。


技术实现思路

1、为了克服上述缺陷,提出了本申请,以解决或至少部分地解决大语言模型训练过程中训练数据质量不佳的技术问题。

2、在第一方面,提供一种文档数据过滤方法,所述方法包括:获取文档数据集,所述文档数据集包括多个文档数据;对所述文档数据集中的文档数据执行分类操作,确定每个文档数据对应的文档类别;对所述文档数据集中的文档数据进行质量评估,确定所述文档数据的质量分数;基于所述文档数据对应的文档类别和质量分数,判断所述文档数据是否符合过滤条件;若是,则将所述文档数据进行过滤。

3、在上述文档数据过滤方法的一个技术方案中,在对所述文档数据集中的文档数据执行分类操作前,所述方法还包括:基于预设的去重算法,对所述文档数据集中的文档数据执行去重操作,得到去重后的文档数据集,所述预设的去重算法包括最小哈希算法。

4、在上述文档数据过滤方法的一个技术方案中,所述对所述文档数据集中的文档数据执行分类操作,确定每个文档数据对应的文档类别,包括:基于训练好的文档分类模型,确定所述去重后的文档数据集中的文档数据与预设文档类别的匹配结果,所述匹配结果中至少包括一个相似概率值;基于所述文档数据与预设文档类别的匹配结果,确定所述文档数据对应的文档类别。

5、在上述文档数据过滤方法的一个技术方案中,所述基于所述文档数据与预设文档类别的匹配结果,确定所述文档数据对应的文档类别,包括:确定所述文档数据与各个预设文档类别匹配的相似概率值中的最大相似概率值;基于所述最大相似概率值对应的文档类别确定所述文档数据对应的文档类别。

6、在上述文档数据过滤方法的一个技术方案中,所述对所述文档数据集中的文档数据进行质量评估,确定所述文档数据的质量分数,包括:基于训练好的文档质量评估模型,确定所述去重后的文档数据集中的文档数据在至少一个预设评估维度对应的评估分数;基于所述文档数据在至少一个预设评估维度对应的评估分数,确定所述文档数据的质量分数。

7、在上述文档数据过滤方法的一个技术方案中,所述预设评估维度包括知识含量、语言连贯性以及文本内容统一性;所述基于所述文档数据在至少一个预设评估维度对应的评估分数,确定所述文档数据的质量分数,包括:获取所述文档数据在知识含量、语言连贯性以及文本内容统一性中的至少一个维度对应的评估分数;基于所述文档数据对应的评估分数,确定所述文档数据的质量分数。

8、在上述文档数据过滤方法的一个技术方案中,所述基于所述文档数据对应的文档类别和质量分数,判断所述文档数据是否符合过滤条件;若是,则将所述文档数据进行过滤,包括:基于所述文档数据对应的文档类别,获取所述文档类别的预设过滤阈值;判断所述文档数据的质量分数是否小于所述文档类别的预设过滤阈值;若是,则对所述文档数据执行删除操作。

9、在第二方面,提供一种大语言模型训练方法,所述方法包括:获取采用如上任一项技术方案所述的文档数据过滤方法过滤后的文档数据集;基于所述过滤后的文档数据集对大语言模型进行训练,直至所述大语言模型收敛。

10、在第三方面,提供一种电子设备,该电子设备包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器中存储有计算机程序,所述计算机程序被所述至少一个处理器执行时实现上述文档数据过滤方法的技术方案中任一项技术方案所述的方法。

11、在第四方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述文档数据过滤方法的技术方案中任一项技术方案所述的方法。

12、本申请上述一个或多个技术方案,至少具有如下一种或多种有益效果:

13、本申请提供的文档数据过滤方法,具体包括:获取文档数据集,文档数据集包括多个文档数据;对文档数据集中的文档数据执行分类操作,确定每个文档数据对应的文档类别;对文档数据集中的文档数据进行质量评估,确定文档数据的质量分数;基于文档数据对应的文档类别和质量分数,判断文档数据是否符合过滤条件;若是,则将文档数据进行过滤。本申请通过对文档数据进行精准分类,以及评估文档数据的质量分数,实现基于文档数据的文档类别和质量分数对低质量的文档数据进行有效过滤的目标,显著提升了文档数据集的整体数据质量。



技术特征:

1.一种文档数据过滤方法,其特征在于,所述方法包括:

2.根据权利要求1所述的文档数据过滤方法,其特征在于,在对所述文档数据集中的文档数据执行分类操作前,所述方法还包括:

3.根据权利要求2所述的文档数据过滤方法,其特征在于,所述对所述文档数据集中的文档数据执行分类操作,确定每个文档数据对应的文档类别,包括:

4.根据权利要求3所述的文档数据过滤方法,其特征在于,所述基于所述文档数据与预设文档类别的匹配结果,确定所述文档数据对应的文档类别,包括:

5.根据权利要求2所述的文档数据过滤方法,其特征在于,所述对所述文档数据集中的文档数据进行质量评估,确定所述文档数据的质量分数,包括:

6.根据权利要求5所述的文档数据过滤方法,其特征在于,所述预设评估维度包括知识含量、语言连贯性以及文本内容统一性中的至少一个维度;

7.根据权利要求1所述的文档数据过滤方法,其特征在于,所述基于所述文档数据对应的文档类别和质量分数,判断所述文档数据是否符合过滤条件;若是,则将所述文档数据进行过滤,包括:

8.一种大语言模型训练方法,其特征在于,所述方法包括:

9.一种电子设备,包括至少一个处理器和至少一个存储器,所述存储器适于存储多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行权利要求1至7中任一项所述的文档数据过滤方法。

10.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的文档数据过滤方法。


技术总结
本申请涉及计算机技术领域,具体提供一种文档数据过滤方法、大语言模型训练方法、设备及介质。旨在解决大语言模型的训练数据质量不佳的技术问题。本申请的文档数据过滤方法包括:获取文档数据集,文档数据集包括多个文档数据;对文档数据集中的文档数据执行分类操作,确定每个文档数据对应的文档类别;对文档数据集中的文档数据进行质量评估,确定文档数据的质量分数;基于文档数据对应的文档类别和质量分数,判断文档数据是否符合过滤条件;若是,则将文档数据进行过滤。本申请通过文档数据的文档类别和质量分数将符合过滤条件的低质量文档数据进行过滤,有效地优化了文档数据集的数据质量。

技术研发人员:程子翰,程斐
受保护的技术使用者:江苏云从曦和人工智能有限公司
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-15401.html

最新回复(0)