一种基于知识图谱的自动数据清洗方法及系统与流程

专利2025-12-08 24

本发明涉及电数字数据处理领域。更具体地，本发明涉及基于知识图谱的自动数据清洗方法及系统。

背景技术：

1、随着信息技术的发展，数据的产生呈指数增长的趋势。现代化信息系统中，数据来自多种不同的源，例如多个数据库、文件系统、api接口等，这些数据往往格式多样。

2、现有对数据清洗的方法通常是数据清洗人员利用sql编写代码，通过人工检查逐个验证数据，或者依据预设的规则进行过滤和校验。公开号为cn116166650a的中国专利申请文件公开了一种基于生成对抗网络的多源异构数据清洗方法，该方法将各个多源异构数据合成为多源异构数据融合表，并且通过聚类分析算法对多源异构数据融合表中残留的冗余数据、异常数据和缺失数据进行分析，进而确定有缺失数据的多源异构数据，使得能够准确、有效的划分出有缺失数据的多源异构数据，从而能够提高多源异构数据清洗的准确性。但是多源数据可能存在格式不一致、命名不规范或者数据质量差异，导致在数据分析、机器学习等应用中需要花费大量的时间和人力进行数据清洗和整合，不仅降低了获得数据的效率，还增加了所获得数据出错的可能性。

3、再者，不同数据源的数据格式和标准不一致，在对多个数据源在进行数据合并和去重时，通常需要人工审查和干预，确保正确地识别和合并数据中的重复记录。

4、基于此，如何减少对多源数据整合清洗时所耗费的人力资源，进而提高对多元数据的清洗效率，是数据处理领域正在研究的重要方向。

技术实现思路

1、本发明提供一种基于知识图谱的自动数据清洗方法及系统，旨在解决相关技术中的因多源数据可能存在格式不一致、命名不规范或者数据质量差异而使获得数据的效率降低且所获得数据出错的可能性增加的问题。

2、在第一方面中，本发明提供了基于知识图谱的自动数据清洗方法，该方法包括：根据各数据源对应的数据表构建各数据源对应的知识图谱；将所有知识图谱中的实体进行分类以获得多组相似实体，其中对于任一组相似实体中的任一个实体的第一关联实体，以及另一个实体的第二关联实体，第一关联实体和第二关联实体满足： n>1/2max( n1, n2)， n1为第一关联实体的数量， n2为第二关联实体的数量， n为名称相同的实体对的数量，任一实体对包括第一关联实体中的一个实体和第二关联实体中的一个实体；对于任一组相似实体，以名称相同的实体为一类并确定数量最多的任一类实体的名称为该组相似实体的目标实体的名称；对于任一组相似实体，响应于该组相似实体与其他任一组相似实体满足 m>min( n3, n4)，确定该组相似实体与其他任一组相似实体互为相关实体，其中 m为该组相似实体与其任一组相关实体中属于同一知识图谱且互为关联实体的实体对的数量， n3为该组相似实体的实体数量， n4为任一组相关实体的实体数量；对于各组相似实体，根据其目标实体的名称文本及其所有组相关实体对应的相似实体的目标实体的名称文本构建并输出目标数据表。

3、本发明的有益效果为：

4、本发明将各数据源的数据转换为知识图谱，并根据各知识图谱中各实体的关联实体对各实体进行分类，获得关联实体相似的多组相似实体，从而在分类的过程中选中离群程度较小、相关性较大的实体为一类，以将数据缺失或异常的数据源所对应的数据筛选出去。本发明各组相似实体之间的关联性构建三元组，并通过三元组获得数据表，以得到清洗后的数据。基于此，本发明实现了对多源数据自动的整合与清洗，减少对多源数据整合清洗时所耗费的人力资源，进而提高对多元数据的清洗效率。

5、优选的，所述将所有知识图谱中的实体进行分类以获得多组相似实体包括：获得各知识图谱中各实体的所有关联实体；任选一个实体，获得包括该实体的一组相似实体，并将该组相似实体中的所有实体标记为已选实体；任选一个已选实体以外的实体，获得包括该实体的一组相似实体，并将该组相似实体中的所有实体标记为已选实体，迭代上述步骤以获得多组相似实体。

6、有益效果为：本发明将已经被分到一组相似实体的实体标记为已选实体，避免了一个实体被分到多组实体。

7、优选的，所述对于各组相似实体，根据其目标实体的名称文本及其所有组相关实体对应的相似实体的目标实体的名称文本构建数据表包括：根据各组相似实体，根据其目标实体的名称文本及其所有组相关实体对应的相似实体的目标实体的名称文本构建目标三元组；根据所述目标三元组构建目标数据表。

8、有益效果为：通过构建目标三元组和数据表，可以将相似实体及其关系结构化，从而实现对相似实体所包含的信息进行存储和管理。

9、优选的，对于各组相似实体，根据其目标实体的名称文本及其所有相关实体对应的相似实体的目标实体的名称文本构建目标三元组包括：其中，以该组相似实体的目标实体的名称文本为第一文本，以该组相似实体对应的任一组相关实体对应的目标实体的名称文本为第二文本；获得所有知识图谱中以所述第一文本为其中一个实体的文本，并以所述第二文本为另一个实体的文本的三元组，记为预备三元组；以关系相同的预备三元组为一类；获得数量最多的任一类预备三元组的基本单位，并将该基本单位确定为该组相似实体的该组相关实体对应的目标三元组的基本单位；获得各组相似实体的各组相关实体对应的目标三元组。

10、有益效果为：通过所有知识图谱的所有三元组获得各组相似实体与各组相似实体的各组相关实体的名称文本之间的关系，避免了人工获取实体之间的关系消耗的时间与成本。

11、优选的，对于各组相似实体，根据其目标实体的名称文本及其所有相关实体对应的相似实体的目标实体的名称文本构建三元组包括：其中，以该组相似实体的目标实体的名称文本为第一文本，以该组相似实体对应的任一组相关实体对应的目标实体的名称文本为第二文本；通过大语言模型获得第一文本与第二文本之间的预测关系；对于该组相似实体的该组相关实体对应的目标三元组，以所述预测关系为该目标三元组的关系，以第一文本为该目标三元组的其中一个实体的名称，以第二文本为该目标三元组的另一个实体的名称；获得各组相似实体的各组相关实体对应的目标三元组。

12、有益效果为：通过大语言模型获得各组相似实体与各组相似实体的各组相关实体的名称文本之间的关系，避免了人工获取实体之间的关系消耗的时间与成本。

13、优选的，所述根据各数据源对应的数据表构建各数据源对应的知识图谱包括：响应于数据源中的数据为非结构化数据或半结构化数据，将数据源中的数据进行知识抽取以获得结构化数据，并将结构化数据进行知识加工以得到数据表；响应于数据源中的数据为结构化数据，将数据源中的数据进行知识加工以得到数据表；根据各数据源对应的数据表构建各数据源对应的三元组；根据各数据源对应的三元组构建各数据源对应的知识图谱。

14、优选的，所述数据源包括预定数量的数据库、预定数量的数据文件。

15、在第二方面中，本发明提供了一种基于知识图谱的自动数据清洗系统，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序以实现如上述
技术实现要素：
中任一项所述的基于知识图谱的自动数据清洗方法。

16、本发明的有益效果为：

17、本发明通过将多源数据转换为知识图谱，以将多源数据以统一的格式进行整合。本发明还根据实体的关联性自动进行分类，显著提高了数据清洗和整合的效率，减少了对人工干预的需求。这种方法通过系统化的三元组构建和关系建模，实现了对相似实体的有效管理和信息存储，从而降低了处理数据关系的时间和成本，实现了对多源异构数据的自动清洗。

技术特征：

1.一种基于知识图谱的自动数据清洗方法，其特征在于，包括：

2.根据权利要求1所述的基于知识图谱的自动数据清洗方法，其特征在于，所述将所有知识图谱中的实体进行分类以获得多组相似实体包括：

3.根据权利要求1所述的基于知识图谱的自动数据清洗方法，其特征在于，所述对于各组相似实体，根据其目标实体的名称文本及其所有组相关实体对应的相似实体的目标实体的名称文本构建数据表包括：

4.根据权利要求3所述的基于知识图谱的自动数据清洗方法，其特征在于，对于各组相似实体，根据其目标实体的名称文本及其所有相关实体对应的相似实体的目标实体的名称文本构建目标三元组包括：

5.根据权利要求3所述的基于知识图谱的自动数据清洗方法，其特征在于，对于各组相似实体，根据其目标实体的名称文本及其所有相关实体对应的相似实体的目标实体的名称文本构建三元组包括：

6.根据权利要求1所述的基于知识图谱的自动数据清洗方法，其特征在于，所述根据各数据源对应的数据表构建各数据源对应的知识图谱包括：

7.根据权利要求1所述的基于知识图谱的自动数据清洗方法，其特征在于，所述数据源包括预定数量的数据库、预定数量的数据文件。

8.一种基于知识图谱的自动数据清洗系统，包括处理器和存储器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序以实现如权利要求1-7任一项所述的基于知识图谱的自动数据清洗方法。

技术总结
本发明涉及电数字数据处理领域，更具体地，本发明涉及一种基于知识图谱的自动数据清洗方法及系统。本发明根据各数据源对应的数据表构建各数据源对应的知识图谱；将所有知识图谱中的实体进行分类以获得多组相似实体；对于任一组相似实体，根据各实体的名称分类并以名称相同的实体为一类，确定数量最多的任一类实体的名称为该组相似实体的目标实体的名称；对于任一组相似实体，确定该组相似实体的相关实体。对于各组相似实体，根据其目标实体的名称文本及其所有组相关实体对应的相似实体的目标实体的名称文本构建并输出目标数据表。本发明实现了对多源数据所构成的知识图谱的整合以实现对多源数据的清洗。

技术研发人员：温峰泰
受保护的技术使用者：天逸财金科技服务（武汉）有限公司
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-18137.html

专利

最新回复(0)