健康医疗数据的管理方法、系统、电子设备及存储介质与流程

专利2024-04-12  105



1.本技术涉及健康医疗大数据技术领域,例如涉及一种健康医疗数据的管理方法、系统、电子设备及存储介质。


背景技术:

2.目前,2016年,国务院发布了《关于促进和规范健康医疗大数据规范应用发展的指导意见》,要求加快推进健康医疗大数据在行业治理、临床科研、公共卫生、新业态新模式等方面的应用;2018年,国家卫生健康委员会发布了《国家健康医疗大数据标准、安全和服务管理办法(试行)》,要求安全规范开展健康医疗大数据应用,充分释放健康医疗大数据价值。
3.随着国家对于健康医疗大数据工作的加大部署,卫生健康体系信息化建设不断加强,在电子病历、健康档案、人口信息及医保记录等方面积累了大量数据。因健康医疗大数据的数量大、范围广、外推好,有效支持医学人工智能、慢病管理、精准治疗等智慧医疗服务,成为数字医疗发展的重要基石。
4.医疗健康大数据的管理系统可包括数据采集模块,数据处理模块,数据挖掘模块,数据存储模块以及数据查阅模块,数据采集模块将采集的数据输入至数据处理模块,数据处理模块将处理结果输入至数据挖掘模块,数据挖掘模块将挖掘结果输入至数据存储模块,数据存储模块存储的数据可供数据查阅模块调用,不同类型的用户可访问其权限范围内的数据。
5.在实现本技术实施例的过程中,发现相关技术中至少存在如下问题:
6.健康医疗大数据存在“量大而质乏”的问题,如何提高健康医疗大数据的质量是亟待解决的技术问题。


技术实现要素:

7.为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
8.本技术实施例提供了一种健康医疗数据的管理方法、系统、电子设备及存储介质,在数据清洗过程中的数据清洗报告,基于数据清洗报告优化数据采集流程,在数据源上提高健康医疗大数据的质量。
9.在一些实施例中,健康医疗数据的管理方法包括:
10.采集根据上次改善方案获得的数据,并将采集的数据进行第一次分级分类,以获得第一分级分类结果;其中,分级分类过程是按照数据来源进行分类,按照数据密级进行分级的过程;所述上次改善方案是根据上次数据清洗报告确定的;
11.根据设置的规则对所述第一分级分类结果进行数据清洗;设置的规则包括以下一个或多个:检验字段类型、最大值、最小值、字符串最大长度、字符串最小长度、缺失值和数
值精度;所述数据清洗包括以下一个或多个:进行空值插补、去重和字段过滤的一种或多种操作,进行离散化处理连续数据及稀疏化处理分类数据;
12.生成本次数据清洗报告;所述本次数据清洗报告包括数据存在的问题、问题的来源位置以及问题发生的频次;
13.在所述本次数据清洗报告中的问题发生的频次大于或等于预设阈值的情况下,根据问题与改善方案的对应关系,获得与所述本次数据清洗报告的数据存在的问题对应的本次改善方案;所述本次改善方案包括临床信息系统前端录入模板和/或规范数据标准;
14.利用所述本次改善方案更新所述本次数据清洗报告的问题的来源位置处的数据录入或采集方式,以便下次采集到根据本次改善方案获得的数据;
15.对数据清洗的结果再次进行数据预处理、数据挖掘处理、数据存储处理以及数据质量验证处理,形成可被使用的数据。
16.可选地,生成本次数据清洗报告,包括:在数据清洗过程中,记录对数据成功执行的清洗操作,成功执行的清洗操作所对应的问题;记录成功执行的清洗操作对应的数据在所述第一分级分类结果中的数据来源;统计成功执行的清洗操作所对应的问题以及数据来源,获得所述本次数据清洗报告。
17.可选地,采集根据上次改善方案获得的数据,包括:在预设数据源按照预设导入方式导入医疗健康数据;其中,所述预设数据来源包括关系型数据库、大数据体系和实时数据源接口;所述预设方式包括离线数据导入,或者,单表或批量数据导入,或者,自动定时导入,或者,全量以及增量数据导入;所述预设数据来源包括根据所述上次改善方案获得的数据;为导入的医疗健康数据建立数据唯一标识;将语义相同但表达方式不同的词汇映射为标语词汇;提供数据元、数据指标以及数据指标维度的标准定义。
18.可选地,对数据清洗的结果再次进行数据预处理、数据挖掘处理、数据存储处理以及数据质量验证处理,形成可被使用的数据,包括:对数据清洗的结果再次进行数据预处理,将数据预处理的结果中的需求数据进行第二次分级分类,获得第二分级分类结果,将预处理的结果的全部数据进行第三次分级分类,获得第三分级分类结果;其中,数据预处理过程中建立基于患者信息的主索引和/或基于疾病信息的数据模型,预处理的结果包括基于患者信息的主题数据集和/或基于疾病信息的数据模型;对所述第二分级分类结果进行数据挖掘处理,再对数据挖掘处理的结果进行第四次分级分类,获得第四分级分类结果;其中,数据挖掘处理的结果中包括个人或多人的患病类型及其概率,和/或患病部位及其概率;对所述第三分级分类结果和所述第四分级分类结果进行第一次数据存储处理,并对第一次存储处理后的数据进行第五次分级分类,获得第五分级分类结果;根据数据质量需求,对所述第五分级分类结果进行数据质量验证处理,再对数据质量验证的结果进行第六次分级分类,获得第六分级分类结果;对所述第六分级分类结果进行第二次数据存储处理,形成可被使用的数据。
19.可选地,对数据清洗的结果再次进行数据预处理,包括:
20.对数据清洗的结果进行数据聚合;所述数据聚合包括以下一个或多个:关联多数据源的相同实体,去除冗余属性,检测数据值的冲突并给出对应处理;进行多表联合,连接方式包括左连接、右连接、全连接和内连接;根据自定义规则,对数据进行聚合;根据自定义规则,对数据进行筛选;对数据流中的数据进行全部字段或部分字段替换;根据对应标准对
数据流中的复合字段进行分割并将分割结果放置到对应的新列;
21.对数据聚合的结果进行码值匹配;码值匹配过程包括以下一个或多个:对药品、疾病、手术、检验、检查、收费、机构和科室进行码值标准化标注;进行标准到标准的码值映射匹配;进行基于人工智能引擎的智能推荐;
22.对所述码值匹配的结果建立基于患者信息的主索引,获得基于患者信息的主题数据集;建立基于患者信息的主索引,包括以下一个或多个:进行基于规则的患者主索引识别,并对患者主索引准确度进行分级管理;进行基于人工智能模型的患者主索引识别;
23.和/或,
24.对所述码值匹配的结果建立基于疾病信息的数据模型;所述数据模型的建立过程包括以下一个或多个:配置、生成元数据模板,并基于所述元数据模板的进行元数据信息同步;将医疗健康组织数据模型映射到标准数据模型;复制相同医疗健康组织数据模型的模板。
25.可选地,对分级分类结果进行数据存储,包括:根据分级分类结果的数据类型,以及分级分类结果的存储要求,将分级分类结果按照预设存储性能进行存储;其中,分级分类结果包括所述第三分级分类结果和所述第四分级分类结果,或者,分级分类结果包括第六分级分类结果;所述数据类型包括:关系型数据、文本数据、影像数据、结构化数据以及半结构化数据;所述存储要求包括:文件存储、对象存储、异地备份以及关系型数据库;所述预设存储性能包括高可用和水平扩展。
26.可选地,根据数据质量需求,对所述第五分级分类结果进行数据质量验证处理,包括:获得数据质量需求,所述数据质量需求包括数据管理目标、质量考核规则以及质量考核方案;获得数据验证指标,所述数据质量验证指标包括一致性、准确性、完整性、规范性、关联性以及自定义指标;根据所述数据质量需求以及所述数据验证指标,对所述第五分级分类结果进行数据质量验证处理;其中,数据质量验证处理过程包括:确定数据内涵规则,根据所述内涵规则对所述第五分级分类结果进行内涵分析;所述内涵规则表示数据之间的医学逻辑。
27.在一些实施例中,健康医疗数据的管理系统包括数据采集管理模块、数据清洗模块、生成模块、获得模块、更新模块、数据处理管理模块、数据挖掘管理模块、数据存储管理模块以及数据质量管理模块;
28.所述数据采集管理模块用于采集根据上次改善方案获得的数据,并将采集的数据进行第一次分级分类,以获得第一分级分类结果;其中,分级分类过程是按照数据来源进行分类,按照数据密级进行分级的过程;所述上次改善方案是根据上次数据清洗报告确定的;
29.所述数据清洗模块用于根据设置的规则对所述第一分级分类结果进行数据清洗;设置的规则包括以下一个或多个:检验字段类型、最大值、最小值、字符串最大长度、字符串最小长度、缺失值和数值精度;所述数据清洗包括以下一个或多个:进行空值插补、去重和字段过滤的一种或多种操作,进行离散化处理连续数据及稀疏化处理分类数据;
30.所述生成模块用于生成本次数据清洗报告;所述本次数据清洗报告包括数据存在的问题、问题的来源位置以及问题发生的频次;
31.所述获得模块用于在所述本次数据清洗报告中的问题发生的频次大于或等于预设阈值的情况下,根据问题与改善方案的对应关系,获得与所述本次数据清洗报告的数据
存在的问题对应的本次改善方案;所述本次改善方案包括临床信息系统前端录入模板和/或规范数据标准;
32.所述更新模块用于利用所述本次改善方案更新所述本次数据清洗报告的问题的来源位置处的数据录入或采集方式,以使下次采集到根据本次改善方案获得的数据;
33.所述数据处理管理模块、所述数据挖掘管理模块、所述数据存储管理模块以及所述数据质量管理模块,用于对数据清洗的结果再次进行数据预处理、数据挖掘处理、数据存储处理以及数据质量验证处理,形成可被使用的数据。
34.在一些实施例中,电子设备包括处理器和存储有程序指令的存储器,所述处理器被配置为在执行所述程序指令时,执行前述实施例提供的健康医疗数据的管理方法。
35.在一些实施例中,存储介质存储有程序指令,所述程序指令在运行时执行前述实施例提供的健康医疗数据的管理方法。
36.本技术实施例提供的健康医疗大数据的管理方法、系统、电子设备和存储介质,可以实现以下技术效果:
37.在上次采集数据之后,通过上次改善方案优化数据源中的数据,在本次采集数据源中的数据之后,采集的数据进行第一次分级分类以及数据清洗,并生成本次数据清洗报告,基于本次数据清洗报告,再次生成本次改善方案,并基于本次改善方案优化数据源中的数据,以便在下次采集数据时,能够采集质量更佳的数据,如此,数据采集过程和数据清洗过程形成闭环,每采集一次数据,进行一次数据清洗,优化一次数据源中的数据,这有利于在数据源提高健康医疗大数据的质量。
38.以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本技术。
附图说明
39.一个或一个以上实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件视为类似的元件,并且其中:
40.图1是本技术实施例提供的一种健康医疗数据的管理方法的流程示意图;
41.图2是本技术实施例提供的一种健康医疗数据的管理方法的流程示意图;
42.图3是本技术实施例提供的一种采集数据过程的示意图;
43.图4是本技术实施例提供的一种数据预处理过程的示意图;
44.图5是本技术实施例提供的一种数据质量验证处理过程的示意图;
45.图6是本技术实施例提供的一种健康医疗数据的管理系统的示意图;
46.图7是本技术实施例提供的一种电子设备的示意图。
具体实施方式
47.为了能够更加详尽地了解本技术实施例的特点与技术内容,下面结合附图对本技术实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本技术实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或一个以上实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
48.本技术实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
49.除非另有说明,术语“多个”表示两个以上。
50.本技术实施例中,字符“/”表示前后对象是一种“或”的关系。例如,a/b表示: a或b。
51.术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,a和/ 或b,表示:a或b,或,a和b这三种关系。
52.本技术实施例中的分级分类,包含根据数据来源对数据进行分类处理,以及根据数据密级对数据进行分级处理。其中,不同类别的数据的来源不同;不同级别的数据的保密级别不同。
53.以下对数据来源以及数据密级进行示例性说明:
54.数据来源可划分为:个人属性、健康状况、医疗应用、医疗支付、卫生资源以及公共卫生6类;如表1所示,数据密级可划分为:可完全公开使用的、可在较大范围内供访问使用的、可在中等范围内供访问使用的、可在较小范围内供访问使用的以及仅在极小范围内且在严格控制条件下供访问使用的5个级别。
55.表1数据密级及其对应的使用范围
[0056][0057]
上述数据来源以及数据密级仅为示例性说明,不对本技术实施例提供的健康医疗数据的管理方法构成具体限定,本领域技术人员可根据数据来源的实际分类要求以及数据的保密等级(使用范围)的实际分级要求确定符合实际情况的数据来源的类别以及数据的保密密级。
[0058]
在健康医疗数据的应用场景中,数据源中含有在临床信息系统前端手工录入的数据,以及通过检测设备自动采集的数据。在本技术实施例中,数据源获得数据、在数据源采集数据、以及数据清洗过程形成信息闭环:数据清洗过程一方面构成了健康医疗数据的管理方法的基本数据处理过程,另一方面还生成数据清洗报告,该数据清洗报告可用于生成改善方案,该改善方案具有提高数据源中数据的质量的作用,利用该信息闭环实现在数据源上提高健康医疗数据的质量。
[0059]
图1是本技术实施例提供的一种健康医疗数据的管理方法的流程示意图。
[0060]
结合图1所示,健康医疗数据的管理方法包括:
[0061]
s101、采集根据上次改善方案获得的数据,并将采集的数据进行第一次分级分类,以获得第一分级分类结果。
[0062]
其中,分级分类过程是按照数据来源进行分类,按照数据密级进行分级的过程;上次改善方案是根据上次数据清洗报告确定的。
[0063]
例如,可在个人属性、健康状况、医疗应用、医疗支付、卫生资源以及公共卫生6 类数据来源对数据进行分类;可按照表1中所示的分级标准,对数据进行分级。
[0064]
上次数据清洗报告,是在上次执行健康医疗数据的管理方法的过程中,获得的。
[0065]
s102、根据设置的规则对第一分级分类结果进行数据清洗。
[0066]
设置的规则包括以下一个或多个:检验字段类型、最大值、最小值、字符串最大长度、字符串最小长度、缺失值和数值精度。
[0067]
数据清洗包括以下一个或多个:进行空值插补、去重和字段过滤的一种或多种操作,进行离散化处理连续数据及稀疏化处理分类数据。
[0068]
s103、生成本次数据清洗报告。
[0069]
本次数据清洗报告包括数据存在的问题、问题的来源位置以及问题发生的频次。
[0070]
其中,数据存在的问题包括但不限于:值对应属性错误、属性间依赖关系破坏、记录值缺失、数据重复记录、数据矛盾记录以及数据参照错误。
[0071]
可选地,生成本次数据清洗报告,包括:在数据清洗过程中,记录对数据成功执行的清洗操作,成功执行的清洗操作所对应的问题;记录成功执行的清洗操作对应的数据在第一分级分类结果中的数据来源;统计成功执行的清洗操作所对应的问题以及数据来源,获得本次数据清洗报告。
[0072]
清洗操作包括但不限于:进行空值插补、去重和字段过滤的一种或多种操作,或者,进行离散化处理连续数据及稀疏化处理分类数据。
[0073]
以下以空置插补这种清洗操作为例,示例性说明成功执行清洗操作的具体含义:检测数据中是否存在空值,如果数据中存在空值,则进行空值插补,将这种情况确定为成功执行清洗操作;如果数据中不存在控制,则不进行空值插补,将这种情况确定为未成功执行清洗操作。
[0074]
在一些实际应用中,数据清洗报告还可包括处理的结果以及有效性验证。
[0075]
s104、在本次数据清洗报告中的问题发生的频次大于或等于预设阈值的情况下,根据问题与改善方案的对应关系,获得与本次数据清洗报告的数据存在的问题对应的本次改善方案。
[0076]
问题与改善方案的对应关系,可预先存储在数据库中,在获得本次数据清洗报告的数据存在的问题时,通过检索数据库,即可获得与本次数据清洗报告的数据存在的问题对应的本次改善方案。
[0077]
本次改善方案包括临床信息系统前端录入模板和/或规范数据标准。
[0078]
临床信息系统前端录入模板指的是录入患者信息所采用的模板;规范数据标准包括但不限于数据指标以及数据指标维度。其中,数据指标指的医疗健康数据的数据指标,例如,正常的血糖浓度范围、异常的血糖浓度范围;数据指标维度指的是数据指标的标准单
位,例如血糖浓度统一采用1g/ml。
[0079]
s105、利用本次改善方案更新本次数据清洗报告的问题的来源位置处的数据录入或采集方式,以便下次采集到根据本次改善方案获得的数据。
[0080]
这里的下次采集到根据本次改善方案获得的数据,指的是在下次执行健康医疗数据的管理方法时执行的数据采集步骤。
[0081]
另外,将采集的数据进行第一次分级分类,以获得第一分级分类结果,不仅使本健康医疗数据的管理方法符合行业内的相关规定,并且,由于分级分类包含按照数据来源进行分类的过程,这样,第一分级分类结果更有利于快速地定位到本次数据清洗报告的问题的来源位置。
[0082]
s106、对数据清洗的结果再次进行数据预处理、数据挖掘处理、数据存储处理以及数据质量验证处理,形成可被使用的数据。
[0083]
在上次采集数据之后,通过上次改善方案优化数据源中的数据,在本次采集数据源中的数据之后,采集的数据进行第一次分级分类以及数据清洗,并生成本次数据清洗报告,基于本次数据清洗报告,再次生成本次改善方案,并基于本次改善方案优化数据源中的数据,以便在下次采集数据时,能够采集质量更佳的数据,如此,数据采集过程和数据清洗过程形成闭环,每采集一次数据,进行一次数据清洗,优化一次数据源中的数据,这有利于在数据源提高健康医疗大数据的质量。
[0084]
图2是本技术实施例提供的一种健康医疗数据的管理方法的流程示意图。
[0085]
结合图2所示,健康医疗数据的管理方法包括:
[0086]
s201、采集根据上次改善方案获得的数据,并将采集的数据进行第一次分级分类,以获得第一分级分类结果。
[0087]
其中,分级分类过程是按照数据来源进行分类,按照数据密级进行分级的过程;上次改善方案是根据上次数据清洗报告确定的。
[0088]
s202、根据设置的规则对第一分级分类结果进行数据清洗。
[0089]
设置的规则包括以下一个或多个:检验字段类型、最大值、最小值、字符串最大长度、字符串最小长度、缺失值和数值精度;数据清洗包括以下一个或多个:进行空值插补、去重和字段过滤的一种或多种操作,进行离散化处理连续数据及稀疏化处理分类数据。
[0090]
s203、生成本次数据清洗报告。
[0091]
本次数据清洗报告包括数据存在的问题、问题的来源位置以及问题发生的频次。
[0092]
s204、在本次数据清洗报告中的问题发生的频次大于或等于预设阈值的情况下,根据问题与改善方案的对应关系,获得与本次数据清洗报告的数据存在的问题对应的本次改善方案。
[0093]
本次改善方案包括临床信息系统前端录入模板和/或规范数据标准。
[0094]
s205、利用本次改善方案更新本次数据清洗报告的问题的来源位置处的数据录入或采集方式,以便下次采集到根据本次改善方案获得的数据。
[0095]
s206、对数据清洗的结果再次进行数据预处理,将数据预处理的结果中的需求数据进行第二次分级分类,获得第二分级分类结果,将预处理的结果的全部数据进行第三次分级分类,获得第三分级分类结果。
[0096]
其中,数据预处理过程中建立基于患者信息的主索引和/或基于疾病信息的数据
模型,预处理的结果包括基于患者信息的主题数据集和/或基于疾病信息的数据模型。
[0097]
例如,基于患者信息的主索引可以是患者姓名、身份证号、医保卡号或医院管理编号,基于患者信息的主题数据集包括但不限于患者性别、年龄、籍贯、家庭住址、既往病史以及生理参数。
[0098]
基于疾病信息的数据模型,包含与某种疾病关联的各项参数。例如,基于糖尿病的数据模型包括与糖尿病关联的血糖参数、不明原因的体重下降参数等。
[0099]
上述需求数据,指的是需要进行数据挖掘处理的数据;实际应用场景不同,需求数据不同,本领域技术人员可根据实际应用场景确定对应的需求数据。
[0100]
由于预处理的结果包括基于患者信息的主题数据集和/或基于疾病信息的数据模型,因此,第二次分级分类和第三次分级分类是按照数据来源进行分类,以及,按照主题数据集和/或数据模型的类别进行分类,按照数据密级进行分级的过程。
[0101]
s207、对第二分级分类结果进行数据挖掘处理,再对数据挖掘处理的结果进行第四次分级分类,获得第四分级分类结果。
[0102]
其中,数据挖掘处理的结果中包括个人或多人的患病类型及其概率,和/或患病部位及其概率。
[0103]
在对第二分级分类结果进行数据挖掘处理之后,由于数据挖掘处理的结果中包含个人或多人的患病类型及其概率,和/或患病部位及其概率,这使得数据敏感性发生了变化,例如,获得了某人的患糖尿病的概率,该信息的敏感性增加,这种情况下,对数据挖掘处理的结果进行第四次分级分类,更有利于使健康医疗数据更加符合分级分类标准,提高健康医疗数据的质量。
[0104]
可选地,对第二分级分类结果进行数据挖掘处理,包括以下一个或多个:
[0105]
通过统计学分析第二分级分类结果,获得个人或多人的患病类型及其概率,和/或患病部位及其概率;
[0106]
通过机器学习算法对第二分级分类结果进行分类,获得个人或多人的患病类型及其概率,和/或患病部位及其概率。
[0107]
其中,通过统计学分析第二分级分类结果,包括但不限于:计算第二分级分类结果的方差,计算第二分级分类结果的协方差矩阵,计算第二分级分类结果的标准差。
[0108]
通过机器学习算法对第二分级分类结果进行分类,包括但不限于:利用文本分析算法对第二分级分类结果进行分类,利用分类/聚类算法对第二分级分类结果进行分类,利用回归算法对第二分级分类结果进行分类,利用机器推荐算法对第二分级分类结果进行分类,利用关联分析算法对第二分级分类结果进行分类。
[0109]
由于数据挖掘处理的结果中包括个人或多人的患病类型及其概率,和/或患病部位及其概率,因此,第四次分级分类是按照数据来源进行分类,按照主题数据集和/或数据模型的类别进行分类,按照患病类型和/或患病部位进行分类,以及按照数据密级进行分级的过程。
[0110]
进一步地,可对第二分级分类结果进行特征工程处理,再通过机器学习算法对特征工程处理后的结果进行分类,获得个人或多人的患病类型及其概率,和/或患病部位及其概率。
[0111]
其中,对第二分级分类结果进行特征工程处理,包括但不限于:对第二分级分类结
果进行特征离散处理,对第二分级分类结果进行随机前抽样处理,对第二分级分类结果进行特征向量分割处理;并且,特征工程处理算法可进行算法工程化复用。
[0112]
在实际应用过程中,数据挖掘处理过程还可包括以下一个或多个:
[0113]
通过多种评价指标评估算法模型结果、多种可视化方式展示已有模型结果;
[0114]
通过模板、案例展示及算法的教程式解释等,指导模型创建;
[0115]
通过python、java、r等多种编程语言直接编写或接口调用的形式自定义算法,且能够兼容二次开发语言;能够查阅模型训练任务执行过程的日志记录。
[0116]
这样,可提高运维人员使用体验。
[0117]
s208、对第三分级分类结果和第四分级分类结果进行第一次数据存储处理,并对第一次存储处理后的数据进行第五次分级分类,获得第五分级分类结果。
[0118]
其中,第五次分级分类是按照数据来源进行分类,按照主题数据集和/或数据模型的类别进行分类,按照患病类型和/或患病部位进行分类,按照健康医疗数据的加密信息、调用信息进行分类,以及按照数据密级进行分级的过程。
[0119]
可选地,对第三分级分类结果和第四分级分类结果进行第一次数据存储处理,包括:根据第三分级分类结果和第四分级分类结果的数据类型,以及第三分级分类结果和第四分级分类结果的存储要求,将第三分级分类结果和第四分级分类结果按照预设存储性能进行存储;其中,数据类型包括:关系型数据、文本数据、影像数据、结构化数据以及半结构化数据;存储要求包括:文件存储、对象存储、异地备份以及关系型数据库;预设存储性能包括高可用和水平扩展。
[0120]
上述高可用,并非是具体数值的“高”,而是表示高可用性(high availability,ha) 指的是通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性。
[0121]
在实际存储过程中,对存储性能还可包括以下一个或多个:
[0122]
能够进行海量数据的快速读写、查询操作;
[0123]
能够进行集群吞吐大于100mb/s的批读写、实时写入等;
[0124]
能够存储列式数据,且进行毫秒级查询和写入;
[0125]
能够存储行数据,且可异地备份元数据;
[0126]
能够进行集群的自动弹性伸缩。
[0127]
s209、根据数据质量需求,对第五分级分类结果进行数据质量验证处理,再对数据质量验证的结果进行第六次分级分类,获得第六分级分类结果。
[0128]
其中,第六次分级分类是按照数据来源进行分类,按照主题数据集和/或数据模型的类别进行分类,按照患病类型和/或患病部位进行分类,按照健康医疗数据的加密信息、调用信息进行分类,按照数据质量验证的结果进行分类,以及按照数据密级进行分级的过程。加密信息包括加密的数据类别及体量;调用信息包括调用数据的类别、频次以及用户。
[0129]
可选地,对第五分级分类结果进行数据质量验证处理,包括:根据第五分级分类结果的数据类型,以及第五分级分类结果的存储要求,将第五分级分类结果按照预设存储性能进行存储;其中,数据类型包括:关系型数据、文本数据、影像数据、结构化数据以及半结构化数据;存储要求包括:文件存储、对象存储、异地备份以及关系型数据库;预设存储性能包括高可用和水平扩展。
[0130]
s210、对第六分级分类结果进行第二次数据存储处理,形成可被使用的数据。
[0131]
可选地,对第六分级分类结果进行第一次数据存储处理,包括:根据第六分级分类结果的数据类型,以及第六分级分类结果的存储要求,将第六分级分类结果按照预设存储性能进行存储;其中,数据类型包括:关系型数据、文本数据、影像数据、结构化数据以及半结构化数据;存储要求包括:文件存储、对象存储、异地备份以及关系型数据库;预设存储性能包括高可用和水平扩展。
[0132]
在数据采集过程、数据预处理过程、数据挖掘处理过程、数据存储处理过程以及数据质量验证处理过程的每个数据处理过程之后,均进行数据的分级分类管理,这样,对一个数据处理过程的处理结果进行分级分类调整,再将分级分类调整结果输入至下一个数据处理过程中,除数据采集过程之外的每个数据处理过程的输入数据,均为分级分类后的数据,实现在医疗健康数据的管理全生命周期的分级分类管理,使每个数据处理过程中的数据均更加符合数据分级分类标准,提高了最终的可被使用的数据的质量。并且,在本技术提供的健康医疗数据的管理方法中,将数据预处理的结果划分出需求数据,将需求数据送入数据挖掘处理过程,将数据挖掘处理的结果以及数据预处理后的全部数据均进行分级分类,并将分级分类结果进行数据存储处理,这进一步地实现精细化的健康医疗数据的分级分类管理,更有利于所存储数据的分级分类的准确性,提高了最终的可被使用的数据质量;同时,由于数据存储处理过程中,同时存储了第三分级分类结果以及第四分级分类结果,在进行数据质量验证处理之前,对存储的数据进行一次分级分类,对第三分级分类结果以及第四分级分类结果同时进行分级分类,有利于数据质量验证处理过程对符合分级分类标准的数据进行数据验证,获得更加符合分级分类标准的数据质量验证结果,提高了最终的可被使用的数据的质量。
[0133]
图3是本技术实施例提供的一种采集数据过程的示意图。
[0134]
结合图3所示,采集根据上次改善方案获得的数据,包括:
[0135]
s301、在预设数据源按照预设导入方式导入医疗健康数据。
[0136]
其中,预设数据来源包括关系型数据库、大数据体系和实时数据源接口;预设方式包括离线数据导入,或者,单表或批量数据导入,或者,自动定时导入,或者,全量以及增量数据导入;预设数据来源包括根据上次改善方案获得的数据。
[0137]
上述关系型数据库包括但不限于:mysql、oracle、sql server及达梦国产数据库。
[0138]
大数据体系包括但不限于:hive、hdfs、mongodb和postgres。
[0139]
实时数据源接口包括但不限于:kafka、orcala cdc、mysql binlog、sqlserver cdc 和rabbitmq。
[0140]
在一些具体应用中,导入的医疗健康数据的类型包括:结构化数据、非结构化数据和半结构化数据。
[0141]
在导入数据的过程中,还可对文件进行汇聚,汇聚文件的类型包括但不限于:ftp、 excel和csv。
[0142]
s302、为导入的医疗健康数据建立数据唯一标识。
[0143]
在后期进行数据预处理过程中,该数据唯一标识便于建立基于患者信息的主索引,或者,建立基于疾病类型的数据模型。
[0144]
s303、将语义相同但表达方式不同的词汇映射为标语词汇。
[0145]
例如,在籍贯信息中,将“男孩”、“男”等,均映射为“男性”,可采用现有的语义分析算法,实现上述映射过程,这里不再一一赘述。
[0146]
这样映射之后,便于进行后期的分级分类过程以及数据预处理过程、数据挖掘处理过程、数据存储处理过程、数据质量验证处理过程。
[0147]
s304、提供数据元、数据指标以及数据指标维度的标准定义。
[0148]
其中,提供数据元指的数据唯一标识;数据指标指的医疗健康数据的数据指标,例如,正常的血糖浓度范围、异常的血糖浓度范围;数据指标维度指的是数据指标的标准单位,例如血糖浓度统一采用1g/ml。
[0149]
采用上述方式可实现数据采集。
[0150]
在一些具体应用中,还可提供以可视化配置的方式完成数据采集的源端和目标端、管理同步任务以及任务监控等功能;提供源端、目标端数据字段的可视化映射;提供可视化实现数据元管理、数据指标管理、数据标准维度管理、数据字典。这样,便于健康医疗数据的管理系统的维护人员对该管理系统进行监控和维护,提高了用户的使用体验。
[0151]
图4是本技术实施例提供的一种数据预处理过程的示意图。
[0152]
结合图4所示,对数据清洗的结果再次进行数据预处理,包括:
[0153]
s401、对数据清洗的结果进行数据聚合。
[0154]
数据聚合包括以下一个或多个:
[0155]
关联多数据源的相同实体,去除冗余属性,检测数据值的冲突并给出对应处理;
[0156]
进行多表联合,连接方式包括左连接、右连接、全连接和内连接;根据自定义规则,对数据进行聚合;
[0157]
根据自定义规则,对数据进行筛选;对数据流中的数据进行全部字段或部分字段替换;
[0158]
根据对应标准对数据流中的复合字段进行分割并将分割结果放置到对应的新列。
[0159]
s402、对数据聚合的结果进行码值匹配。
[0160]
码值匹配过程包括以下一个或多个:对药品、疾病、手术、检验、检查、收费、机构和科室进行码值标准化标注;进行标准到标准的码值映射匹配;进行基于人工智能引擎的智能推荐。
[0161]
s403、对码值匹配的结果建立基于患者信息的主索引,获得基于患者信息的主题数据集。
[0162]
其中,建立基于患者信息的主索引,包括以下一个或多个:
[0163]
进行基于规则的患者主索引识别,并对患者主索引准确度进行分级管理;
[0164]
进行基于人工智能模型的患者主索引识别。
[0165]
s404、对码值匹配的结果建立基于疾病信息的数据模型。
[0166]
数据模型的建立过程包括以下一个或多个:配置、生成元数据模板,并基于元数据模板的进行元数据信息同步;将医疗健康组织数据模型映射到标准数据模型;复制相同医疗健康组织数据模型的模板。
[0167]
在具体应用过程中,数据预处理过程中可只包括建立基于疾病信息的数据模型的步骤,不包括获得基于患者信息的主体数据集的步骤;或者,数据预处理过程可只包括获得基于患者信息的主体数据集的步骤,不包括建立基于疾病信息的数据模型的步骤;或者,数
据预处理过程可同时包括建立基于疾病信息的数据模型的步骤,以及基于疾病信息的数据模型的步骤。
[0168]
在上述实施例中,仅以数据预处理过程可同时包括建立基于疾病信息的数据模型的步骤,以及基于疾病信息的数据模型的步骤进行示例性说明,本领域技术人员可根据实际需求,确定符合实际需求的数据预处理过程。
[0169]
在具体应用过程中,在数据预处理过程还可包括以下一个或多个:
[0170]
进行全量和增量的任务调度,自定义任务执行周期,实现不同数据源之间的数据流转;
[0171]
使用sql、java或其他程序语言的自定义规则配置;
[0172]
通过自定义数据处理过程中数据质量校验函数,实现数据处理过程中的数据规则快速配置和校验;
[0173]
进行数据统一服务,针对单表或多表提供以类sql的形式进行查询并返回符合条件的数据;
[0174]
进行服务应用程序接口(application programming interface,api)的生命周期管理,能够可视化生成管理api;
[0175]
对服务api进行报表分析。
[0176]
对数据进行智能标签处理,包括创建标签模型、标签加工、衍生标签管理等;通过sql语言开发,进行编辑、查看、删除等;
[0177]
对数据标签进行运营:进行标签上线/下线等标签全生命周期管理、标签资产公开管理;
[0178]
进行数据标签服务,以api服务化方式封装标签服务,供内外部应用调用使用,以提高健康医疗数据的管理系统的管理维护人员的使用体验;
[0179]
进行数据标签分析,对标签生产和使用情况分析,明确标签总数、api总数、api 性能等分析,以提高健康医疗数据的管理系统的管理维护人员的使用体验。
[0180]
图5是本技术实施例提供的一种数据质量验证处理过程的示意图。
[0181]
结合图5所示,根据数据质量需求,对第五分级分类结果进行数据质量验证处理,包括:
[0182]
s501、获得数据质量需求。
[0183]
数据质量需求包括数据管理目标、质量考核规则以及质量考核方案。
[0184]
在具体应用过程中,根据医疗健康数据的应用场景及数据管理目标,有权限用户能够提出质量管理方案,并自定义质量考核规则和质量考核方案。
[0185]
数据管理目标、质量考核规则和质量考核方案可预先存储在数据库中,在开始进行数据质量验证处理时,通过读取数据库,即可获得数据质量需求;或者,可实时响应于用户输入,获得数据质量需求。
[0186]
该步骤可为用户提供可视化界面,使用户能够自定义数据质量规则分类及管理数据质量规则的版本,实现质量规则管理。
[0187]
s502、获得数据验证指标。
[0188]
数据质量验证指标包括一致性、准确性、完整性、规范性、关联性以及自定义指标。
[0189]
数据质量验证指标可存储在数据库中,在需要进行数据质量验证处理时,可通过
读取数据库中的数据,获得数据验证指标;或者,可实时响应用户输入,获得数据验证指标。
[0190]
s503、根据数据质量需求以及数据验证指标,对第五分级分类结果进行数据质量验证处理。
[0191]
其中,数据质量验证处理过程包括:确定数据内涵规则,根据内涵规则对第五分级分类结果进行内涵分析;内涵规则表示数据之间的医学逻辑。
[0192]
这样,实现针对健康医疗数据的质量验证处理。
[0193]
在实际应用中,对第五分级分类结果进行数据质量验证处理,还可包括以下一个或多个:
[0194]
设定符合逻辑数据的核验规则,进行规则校验;
[0195]
开展数据质量校验任务管理,如执行数据质量稽核任务、配置调度信息、设定检核任务的执行周期并执行调度、(实时)监控数据质量稽核任务、可查看历史任务执行情况;
[0196]
定期或不定期方式执行质量控制任务,并生成相关问题报告;
[0197]
当数据质量出现问题时,能够发出质量报警,并追溯形成机制,且进行多种形式消息推送;
[0198]
利用医疗知识图谱、人工智能等技术,实现对医疗数据质量的内涵分析,提升数据内容的质量;
[0199]
记录校验结果的质量问题,并生成评分报告;对数据加工汇聚后形成结果分析,并生成影响报表;
[0200]
根据检核结果,进行质量结果分析,包括汇总数据列表、错误汇总列表、质量得分分析、检核规则分析、问题波动分析等,并生成对问题数据的质量提高建议,指导数据质量提升工作;
[0201]
对数据内涵管理规则进行可视化的配置管理。
[0202]
图6是本技术实施例提供的一种健康医疗数据的管理系统的示意图。
[0203]
结合图6所示,健康医疗数据的管理系统包括数据采集管理模块61、数据清洗模块62、生成模块63、获得模块64、更新模块65、数据处理管理模块66、数据挖掘管理模块67、数据存储管理模块68、数据质量管理模块69;
[0204]
数据采集管理模块61用于采集根据上次改善方案获得的数据,并将采集的数据进行第一次分级分类,以获得第一分级分类结果;其中,分级分类过程是按照数据来源进行分类,按照数据密级进行分级的过程;上次改善方案是根据上次数据清洗报告确定的;
[0205]
数据清洗模块62用于根据设置的规则对第一分级分类结果进行数据清洗;设置的规则包括以下一个或多个:检验字段类型、最大值、最小值、字符串最大长度、字符串最小长度、缺失值和数值精度;数据清洗包括以下一个或多个:进行空值插补、去重和字段过滤的一种或多种操作,进行离散化处理连续数据及稀疏化处理分类数据;
[0206]
生成模块63用于生成本次数据清洗报告;本次数据清洗报告包括数据存在的问题、问题的来源位置以及问题发生的频次;
[0207]
获得模块64用于在本次数据清洗报告中的问题发生的频次大于或等于预设阈值的情况下,根据问题与改善方案的对应关系,获得与本次数据清洗报告的数据存在的问题对应的本次改善方案;本次改善方案包括临床信息系统前端录入模板和/或规范数据标准;
[0208]
更新模块65用于利用本次改善方案更新本次数据清洗报告的问题的来源位置处
的数据录入或采集方式,以便下次采集到根据本次改善方案获得的数据;
[0209]
数据处理管理模块66、数据挖掘管理模块67、数据存储管理模块68以及数据质量管理模块69,用于对数据清洗的结果再次进行数据预处理、数据挖掘处理、数据存储处理以及数据质量验证处理,形成可被使用的数据。
[0210]
可选地,生成模块63包括第一记录单元、第二记录单元和统计单元;第一记录单元用于在数据清洗过程中,记录对数据成功执行的清洗操作,成功执行的清洗操作所对应的问题;第二记录单元用于记录成功执行的清洗操作对应的数据在第一分级分类结果中的数据来源;统计单元用于统计成功执行的清洗操作所对应的问题以及数据来源,获得本次数据清洗报告。
[0211]
可选地,数据采集管理模块61包括导入单元、标识建立单元、映射单元和定义单元;导入单元用于在预设数据源按照预设导入方式导入医疗健康数据;其中,预设数据来源包括关系型数据库、大数据体系和实时数据源接口;预设方式包括离线数据导入,或者,单表或批量数据导入,或者,自动定时导入,或者,全量以及增量数据导入;预设数据来源包括根据上次改善方案获得的数据;标识建立单元用于为导入的医疗健康数据建立数据唯一标识;映射单元用于将语义相同但表达方式不同的词汇映射为标语词汇;定义单元用于提供数据元、数据指标以及数据指标维度的标准定义。
[0212]
可选地,数据处理管理模块,用于对数据清洗的结果再次进行数据预处理,将数据预处理的结果中的需求数据进行第二次分级分类,获得第二分级分类结果,将预处理的结果的全部数据进行第三次分级分类,获得第三分级分类结果;其中,数据预处理过程中建立基于患者信息的主索引和/或基于疾病信息的数据模型,预处理的结果包括基于患者信息的主题数据集和/或基于疾病信息的数据模型;
[0213]
数据挖掘管理模块,用于对第二分级分类结果进行数据挖掘处理,再对数据挖掘处理的结果进行第四次分级分类,获得第四分级分类结果;其中,数据挖掘处理的结果中包括个人或多人的患病类型及其概率,和/或患病部位及其概率;
[0214]
数据存储管理模块,用于对第三分级分类结果和第四分级分类结果进行第一次数据存储处理,并对第一次存储处理后的数据进行第五次分级分类,获得第五分级分类结果;
[0215]
数据质量管理模块,用于根据数据质量需求,对第五分级分类结果进行数据质量验证处理,再对数据质量验证的结果进行第六次分级分类,获得第六分级分类结果;
[0216]
数据存储管理模块,还用于对第六分级分类结果进行第二次数据存储处理,形成可被使用的数据。
[0217]
可选地,数据处理管理模块66包括数据聚合单元、码值匹配单元,以及,主索引单元和/或模型建立单元;数据聚合单元用于对数据清洗的结果进行数据聚合;数据聚合包括以下一个或多个:关联多数据源的相同实体,去除冗余属性,检测数据值的冲突并给出对应处理;进行多表联合,连接方式包括左连接、右连接、全连接和内连接;根据自定义规则,对数据进行聚合;根据自定义规则,对数据进行筛选;对数据流中的数据进行全部字段或部分字段替换;根据对应标准对数据流中的复合字段进行分割并将分割结果放置到对应的新列;码值匹配单元用于对数据聚合的结果进行码值匹配;码值匹配过程包括以下一个或多个:对药品、疾病、手术、检验、检查、收费、机构和科室进行码值标准化标注;进行标准到标准的码值映射匹配;进行基于人工智能引擎的智能推荐;主索引单元用于对码值匹配的结
果建立基于患者信息的主索引,获得基于患者信息的主题数据集;建立基于患者信息的主索引,包括以下一个或多个:进行基于规则的患者主索引识别,并对患者主索引准确度进行分级管理;进行基于人工智能模型的患者主索引识别;模型建立单元用于对码值匹配的结果建立基于疾病信息的数据模型;数据模型的建立过程包括以下一个或多个:配置、生成元数据模板,并基于元数据模板的进行元数据信息同步;将医疗健康组织数据模型映射到标准数据模型;复制相同医疗健康组织数据模型的模板。
[0218]
可选地,数据存储管理模块68具体用于根据分级分类结果的数据类型,以及分级分类结果的存储要求,将分级分类结果按照预设存储性能进行存储;其中,分级分类结果包括第三分级分类结果和第四分级分类结果,或者,分级分类结果包括第六分级分类结果;数据类型包括:关系型数据、文本数据、影像数据、结构化数据以及半结构化数据;存储要求包括:文件存储、对象存储、异地备份以及关系型数据库;预设存储性能包括高可用和水平扩展。
[0219]
可选地,数据质量管理模块69包括第一获得单元、第二获得单元和质量验证单元;第一获得单元用于获得数据质量需求,数据质量需求包括数据管理目标、质量考核规则以及质量考核方案;第二获得单元用于获得数据验证指标,数据质量验证指标包括一致性、准确性、完整性、规范性、关联性以及自定义指标;质量验证单元用于根据数据质量需求以及数据验证指标,对第五分级分类结果进行数据质量验证处理;其中,数据质量验证处理过程包括:确定数据内涵规则,根据内涵规则对第五分级分类结果进行内涵分析;内涵规则表示数据之间的医学逻辑。
[0220]
图7是本技术实施例提供的一种电子设备的示意图。结合图7所示,电子设备包括:
[0221]
处理器(processor)71和存储器(memory)72,还可以包括通信接口(communicationinterface)73和总线74。其中,处理器71、通信接口73、存储器72可以通过总线74 完成相互间的通信。通信接口73可以用于信息传输。处理器71可以调用存储器72中的逻辑指令,以执行前述实施例提供的健康医疗数据的管理方法。
[0222]
此外,上述的存储器72中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
[0223]
存储器72作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本技术实施例中的方法对应的程序指令/模块。处理器71通过运行存储在存储器 72中的软件程序、指令以及模块,从而执行功能应用以及数据处理,即实现上述方法实施例中的方法。
[0224]
存储器72可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器72可以包括高速随机存取存储器,还可以包括非易失性存储器。
[0225]
本技术实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令设置为执行前述实施例提供的健康医疗数据的管理方法。
[0226]
本技术实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行前述实施例提供的健康医疗数据的管理方法。
[0227]
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计
算机可读存储介质。
[0228]
本技术实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或一个以上指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术实施例中方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:u盘、移动硬盘、只读存储器 (read-only memory,rom)、随机读取存储器(random access memory,ram)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
[0229]
以上描述和附图充分地示出了本技术的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本技术中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个
”ꢀ
(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。另外,当用于本技术中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising) 等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
[0230]
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本技术实施例的范围。技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0231]
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本技术实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0232]
附图中的流程图和框图显示了根据本技术实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个
模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或一个以上用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

技术特征:
1.一种健康医疗数据的管理方法,其特征在于,包括:采集根据上次改善方案获得的数据,并将采集的数据进行第一次分级分类,以获得第一分级分类结果;其中,分级分类过程是按照数据来源进行分类,按照数据密级进行分级的过程;所述上次改善方案是根据上次数据清洗报告确定的;根据设置的规则对所述第一分级分类结果进行数据清洗;设置的规则包括以下一个或多个:检验字段类型、最大值、最小值、字符串最大长度、字符串最小长度、缺失值和数值精度;所述数据清洗包括以下一个或多个:进行空值插补、去重和字段过滤的一种或多种操作,进行离散化处理连续数据及稀疏化处理分类数据;生成本次数据清洗报告;所述本次数据清洗报告包括数据存在的问题、问题的来源位置以及问题发生的频次;在所述本次数据清洗报告中的问题发生的频次大于或等于预设阈值的情况下,根据问题与改善方案的对应关系,获得与所述本次数据清洗报告的数据存在的问题对应的本次改善方案;所述本次改善方案包括临床信息系统前端录入模板和/或规范数据标准;利用所述本次改善方案更新所述本次数据清洗报告的问题的来源位置处的数据录入或采集方式,以便下次采集到根据本次改善方案获得的数据;对数据清洗的结果再次进行数据预处理、数据挖掘处理、数据存储处理以及数据质量验证处理,形成可被使用的数据。2.根据权利要求1所述的管理方法,其特征在于,生成本次数据清洗报告,包括:在数据清洗过程中,记录对数据成功执行的清洗操作,成功执行的清洗操作所对应的问题;记录成功执行的清洗操作对应的数据在所述第一分级分类结果中的数据来源;统计成功执行的清洗操作所对应的问题以及数据来源,获得所述本次数据清洗报告。3.根据权利要求1或2所述的管理方法,其特征在于,采集根据上次改善方案获得的数据,包括:在预设数据源按照预设导入方式导入医疗健康数据;其中,所述预设数据来源包括关系型数据库、大数据体系和实时数据源接口;所述预设方式包括离线数据导入,或者,单表或批量数据导入,或者,自动定时导入,或者,全量以及增量数据导入;所述预设数据来源包括根据所述上次改善方案获得的数据;为导入的医疗健康数据建立数据唯一标识;将语义相同但表达方式不同的词汇映射为标语词汇;提供数据元、数据指标以及数据指标维度的标准定义。4.根据权利要求1或2所述的管理方法,其特征在于,对数据清洗的结果再次进行数据预处理、数据挖掘处理、数据存储处理以及数据质量验证处理,形成可被使用的数据,包括:对数据清洗的结果再次进行数据预处理,将数据预处理的结果中的需求数据进行第二次分级分类,获得第二分级分类结果,将预处理的结果的全部数据进行第三次分级分类,获得第三分级分类结果;其中,数据预处理过程中建立基于患者信息的主索引和/或基于疾病信息的数据模型,预处理的结果包括基于患者信息的主题数据集和/或基于疾病信息的数据模型;对所述第二分级分类结果进行数据挖掘处理,再对数据挖掘处理的结果进行第四次分
级分类,获得第四分级分类结果;其中,数据挖掘处理的结果中包括个人或多人的患病类型及其概率,和/或患病部位及其概率;对所述第三分级分类结果和所述第四分级分类结果进行第一次数据存储处理,并对第一次存储处理后的数据进行第五次分级分类,获得第五分级分类结果;根据数据质量需求,对所述第五分级分类结果进行数据质量验证处理,再对数据质量验证的结果进行第六次分级分类,获得第六分级分类结果;对所述第六分级分类结果进行第二次数据存储处理,形成可被使用的数据。5.根据权利要求4所述的管理方法,其特征在于,对数据清洗的结果再次进行数据预处理,包括:对数据清洗的结果进行数据聚合;所述数据聚合包括以下一个或多个:关联多数据源的相同实体,去除冗余属性,检测数据值的冲突并给出对应处理;进行多表联合,连接方式包括左连接、右连接、全连接和内连接;根据自定义规则,对数据进行聚合;根据自定义规则,对数据进行筛选;对数据流中的数据进行全部字段或部分字段替换;根据对应标准对数据流中的复合字段进行分割并将分割结果放置到对应的新列;对数据聚合的结果进行码值匹配;码值匹配过程包括以下一个或多个:对药品、疾病、手术、检验、检查、收费、机构和科室进行码值标准化标注;进行标准到标准的码值映射匹配;进行基于人工智能引擎的智能推荐;对所述码值匹配的结果建立基于患者信息的主索引,获得基于患者信息的主题数据集;建立基于患者信息的主索引,包括以下一个或多个:进行基于规则的患者主索引识别,并对患者主索引准确度进行分级管理;进行基于人工智能模型的患者主索引识别;和/或,对所述码值匹配的结果建立基于疾病信息的数据模型;所述数据模型的建立过程包括以下一个或多个:配置、生成元数据模板,并基于所述元数据模板的进行元数据信息同步;将医疗健康组织数据模型映射到标准数据模型;复制相同医疗健康组织数据模型的模板。6.根据权利要求4所述的管理方法,其特征在于,对分级分类结果进行数据存储,包括:根据分级分类结果的数据类型,以及分级分类结果的存储要求,将分级分类结果按照预设存储性能进行存储;其中,分级分类结果包括所述第三分级分类结果和所述第四分级分类结果,或者,分级分类结果包括第六分级分类结果;所述数据类型包括:关系型数据、文本数据、影像数据、结构化数据以及半结构化数据;所述存储要求包括:文件存储、对象存储、异地备份以及关系型数据库;所述预设存储性能包括高可用和水平扩展。7.根据权利要求4所述的管理方法,其特征在于,根据数据质量需求,对所述第五分级分类结果进行数据质量验证处理,包括:获得数据质量需求,所述数据质量需求包括数据管理目标、质量考核规则以及质量考核方案;获得数据验证指标,所述数据质量验证指标包括一致性、准确性、完整性、规范性、关联性以及自定义指标;根据所述数据质量需求以及所述数据验证指标,对所述第五分级分类结果进行数据质
量验证处理;其中,数据质量验证处理过程包括:确定数据内涵规则,根据所述内涵规则对所述第五分级分类结果进行内涵分析;所述内涵规则表示数据之间的医学逻辑。8.一种健康医疗数据的管理系统,其特征在于,包括:数据采集管理模块,用于采集根据上次改善方案获得的数据,并将采集的数据进行第一次分级分类,以获得第一分级分类结果;其中,分级分类过程是按照数据来源进行分类,按照数据密级进行分级的过程;所述上次改善方案是根据上次数据清洗报告确定的;数据清洗模块,用于根据设置的规则对所述第一分级分类结果进行数据清洗;设置的规则包括以下一个或多个:检验字段类型、最大值、最小值、字符串最大长度、字符串最小长度、缺失值和数值精度;所述数据清洗包括以下一个或多个:进行空值插补、去重和字段过滤的一种或多种操作,进行离散化处理连续数据及稀疏化处理分类数据;生成模块,用于生成本次数据清洗报告;所述本次数据清洗报告包括数据存在的问题、问题的来源位置以及问题发生的频次;获得模块,用于在所述本次数据清洗报告中的问题发生的频次大于或等于预设阈值的情况下,根据问题与改善方案的对应关系,获得与所述本次数据清洗报告的数据存在的问题对应的本次改善方案;所述本次改善方案包括临床信息系统前端录入模板和/或规范数据标准;更新模块,用于利用所述本次改善方案更新所述本次数据清洗报告的问题的来源位置处的数据录入或采集方式,以使下次采集到根据本次改善方案获得的数据;数据处理管理模块、数据挖掘管理模块、数据存储管理模块以及数据质量管理模块,用于对数据清洗的结果再次进行数据预处理、数据挖掘处理、数据存储处理以及数据质量验证处理,形成可被使用的数据。9.一种电子设备,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在执行所述程序指令时,执行如权利要求1至7任一项所述的健康医疗数据的管理方法。10.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时执行如权利要求1至7任一项所述的健康医疗数据的管理方法。

技术总结
本申请涉及健康医疗大数据处理技术领域,公开了一种健康医疗数据的管理方法。该管理方法包括:采集根据上次改善方案获得的数据,将采集的数据进行第一次分级分类,获得第一分级分类结果;根据设置的规则对第一分级分类结果进行数据清洗;生成本次数据清洗报告;在本次数据清洗报告中的问题发生的频次大于或等于预设阈值的情况下,获得与本次数据清洗报告的数据存在的问题对应的本次改善方案;利用本次改善方案更新本次数据清洗报告的问题的来源位置处的数据录入或采集方式;对数据清洗的结果再次进行数据预处理、数据挖掘处理、数据存储处理以及数据质量验证处理,形成可被使用的数据。采用该管理方法可在数据源提高健康医疗数据的质量。数据的质量。数据的质量。


技术研发人员:武雅文
受保护的技术使用者:中国信息通信研究院
技术研发日:2022.07.04
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-7718.html

最新回复(0)