血缘分析方法、设备及存储介质与流程

专利2026-03-09  20


本申请涉及大数据治理,尤其涉及血缘分析方法、设备及存储介质。


背景技术:

1、数据血缘是指数据的全生命周期中,数据从产生、处理、加工、融合、流转到最终消亡,数据之间自然形成一种关系。

2、在相关技术中,数据库的日志文件记录了操作历史,包括数据的插入、更新和删除等操作。利用数据源厂商提供的数据库日志分析工具或其他专业工具,可以解析这些日志文件,从而获得数据血缘关系。

3、目前的血缘分析方法过于依赖于特定数据源厂商提供的工具,这导致了其应用范围局限于单一数据源的分析。然而,在数据治理过程中,业务数据的生命周期往往涉及到多源异构数据源,特别是在日志文件等方面,不同的数据源之间存在显著差异,因此,目前的方法无法对多源异构数据进行血缘分析。

4、上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。


技术实现思路

1、本申请的主要目的在于提供一种血缘分析方法、设备及存储介质,旨在解决无法对多源异构数据进行血缘分析的技术问题。

2、为实现上述目的,本申请提出一种血缘分析方法,所述方法包括:

3、动态脚本采集器从数据源采集待处理数据,并将所述待处理数据写入消息队列,其中,所述待处理数据包括脚本信息和执行方式;

4、数据血缘分析器从所述消息队列读取所述待处理数据,并根据所述待处理数据的数据源类型,确定适用的数据血缘分析器处理类;

5、所述数据血缘分析器处理类对所述待处理数据进行血缘分析,得到对应的血缘分析结果。

6、在一实施例中,所述动态脚本采集器从数据源采集待处理数据的步骤包括:

7、所述动态脚本采集器基于拦截模型,从业务系统中拦截原始数据;

8、所述动态脚本采集器基于信息采集模型,采集所述原始数据中的所述待处理数据。

9、在一实施例中,所述数据血缘分析器包括数据血缘分析器注册类,所述根据所述待处理数据的数据源类型,确定适用的数据血缘分析器处理类的步骤包括:

10、确定所述待处理数据的所述数据源类型的枚举值;

11、根据所述数据血缘分析器注册类,确定所述枚举值对应的所述数据血缘分析器处理类。

12、在一实施例中,所述根据所述数据血缘分析器注册类,确定所述枚举值对应的所述数据血缘分析器处理类的步骤之前,还包括:

13、根据所述数据血缘分析器注册类的全局访问点,确定所述数据血缘分析器注册类关联的线程安全哈希表;

14、在所述线程安全哈希表中,获取所述数据血缘分析器注册类。

15、在一实施例中,所述根据所述数据血缘分析器注册类,确定所述枚举值对应的所述数据血缘分析器处理类的步骤包括:

16、基于所述数据血缘分析器注册类的公共接口,确定所述枚举值对应的父类数据血缘分析方法;

17、基于所述数据血缘分析器注册类的非公共接口,确定所述枚举值对应的子类数据血缘分析方法;

18、汇总所述父类数据血缘分析方法和所述子类数据血缘分析方法,得到所述数据血缘分析器处理类。

19、在一实施例中,所述数据血缘分析器处理类对所述待处理数据进行血缘分析,得到对应的血缘分析结果的步骤包括:

20、调用所述数据血缘分析器处理类中的数据血缘分析方法,对所述待处理数据的结构和语义进行分析,得到对应的所述血缘分析结果。

21、在一实施例中,所述调用所述数据血缘分析器处理类中的数据血缘分析方法,对所述待处理数据的结构和语义进行分析,得到对应的所述血缘分析结果的步骤包括:

22、对所述待处理数据进行词法分析、语法分析、语义分析和数据流分析,确定所述待处理数据的数据流向;

23、根据所述数据流向的数据依赖关系和数据流动路径,生成所述血缘分析结果。

24、在一实施例中,所述数据血缘分析器处理类对所述待处理数据进行血缘分析,得到对应的血缘分析结果的步骤之后,还包括:

25、将所述血缘分析结果写入图数据库。

26、此外,为实现上述目的,本申请还提出一种血缘分析设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如上文所述的血缘分析方法的步骤。

27、此外,为实现上述目的,本申请还提出一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述的血缘分析方法的步骤。

28、本申请提出的一个或多个技术方案,至少具有以下技术效果:

29、通过动态脚本采集器,从数据源采集数据,这种动态脚本采集器能够处理不同格式和结构的数据,确保在多源环境中能够统一收集数据,这种方式不再依赖单一数据源的工具,确保了数据采集的灵活性和可扩展性,能够覆盖广泛的数据源。而且,数据血缘分析器根据待处理数据的数据源,动态确定相应的数据血缘分析器处理类,这种机制使得可以针对不同数据源的特性进行灵活的分析,避免了固定工具的局限性。本方法整个流程下来,能够整合来自不同数据源的数据,并进行全面的血缘分析,这种综合能力使得在数据治理过程中,能够更好地理解业务数据的流动和转变。



技术特征:

1.一种血缘分析方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述动态脚本采集器从数据源采集待处理数据的步骤包括:

3.如权利要求1所述的方法,其特征在于,所述数据血缘分析器包括数据血缘分析器注册类,所述根据所述待处理数据的数据源类型,确定适用的数据血缘分析器处理类的步骤包括:

4.如权利要求3所述的方法,其特征在于,所述根据所述数据血缘分析器注册类,确定所述枚举值对应的所述数据血缘分析器处理类的步骤之前,还包括:

5.如权利要求3所述的方法,其特征在于,所述根据所述数据血缘分析器注册类,确定所述枚举值对应的所述数据血缘分析器处理类的步骤包括:

6.如权利要求1所述的方法,其特征在于,所述数据血缘分析器处理类对所述待处理数据进行血缘分析,得到对应的血缘分析结果的步骤包括:

7.如权利要求6所述的方法,其特征在于,所述调用所述数据血缘分析器处理类中的数据血缘分析方法,对所述待处理数据的结构和语义进行分析,得到对应的所述血缘分析结果的步骤包括:

8.如权利要求1所述的方法,其特征在于,所述数据血缘分析器处理类对所述待处理数据进行血缘分析,得到对应的血缘分析结果的步骤之后,还包括:

9.一种血缘分析设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如权利要求1至8中任一项所述的血缘分析方法的步骤。

10.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的血缘分析方法的步骤。


技术总结
本申请公开了一种血缘分析方法、设备及存储介质,涉及大数据治理技术领域,包括:动态脚本采集器从数据源采集待处理数据,并将所述待处理数据写入消息队列,其中,所述待处理数据包括脚本信息和执行方式;数据血缘分析器从所述消息队列读取所述待处理数据,并根据所述待处理数据的数据源类型,确定适用的数据血缘分析器处理类;所述数据血缘分析器处理类对所述待处理数据进行血缘分析,得到对应的血缘分析结果。旨在对多源异构数据进行血缘分析。

技术研发人员:朱润酥,黄坛琴,滕一帆
受保护的技术使用者:深圳市智慧城市科技发展集团有限公司
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-20658.html

最新回复(0)