一种基于自然语言处理的医疗设备信息整合方法及系统与流程

专利2025-08-07  17


本发明涉及医疗信息化领域,具体而言,涉及一种基于自然语言处理的医疗设备信息整合方法及系统。


背景技术:

1、医疗设备信息整合旨在将不同制造商、不同类型的医疗设备的相关信息进行收集、处理、标准化整合,以提升医疗服务质量及运营效率;然而,医疗设备产生的数据类型多样,传统方法往往依赖于各个设备独立的软件或系统进行信息管理,难以对不同类型不同制造商的多源异构数据进行有效整合;此外,尽管大多数设备在数据导出时都包含元数据文件,能够在一定程度上表达数据文件的基本信息,但这些元数据文件的内容却存在显著差异;不仅不同设备间的元数据文件内容各不相同,即便是同类设备,由于制造商的不同,其元数据文件的内容也会有所区别,进一步增加了信息整合的困难。


技术实现思路

1、有鉴于此,本发明旨在提供一种基于自然语言处理的医疗设备信息整合方法及系统,旨在解决医疗设备数据类型多样,现有整合方法难以对不同类型不同制造商的医疗设备数据进行有效整合的问题。

2、一种基于自然语言处理的医疗设备信息整合方法,包括以下步骤:

3、s1:从多个设备的软件中导出数据文件与对应的元数据并进行预处理,得到预处理后的数据文件和元数据;

4、s2:构建语义理解模型对元数据进行解析,并将解析后的元数据填入关系型数据库;同时,构建文件系统并将元数据对应的数据文件存入文件系统;

5、s3:建立关系型数据库的索引并与各设备的数据表进行关联;

6、s4:构建查询语句生成模型,查询医疗设备信息,并保存查询日志;

7、s5:分析查询日志中的高频内容,对关系型数据库的索引进行更新;

8、进一步地,所述s1步骤从多个设备的软件中导出数据文件与对应的元数据并进行预处理,得到预处理后的数据文件与元数据,包括:

9、s11:对导出的数据文件与对应的元数据进行去重并删除空文件,同时,将缺失值填补为“nan”,得到初步预处理后的数据文件和元数据;

10、s12:对于初步预处理后的数据文件和元数据,添加唯一标识符作为关联标识,得到预处理后的数据文件和元数据。

11、进一步地,所述s2步骤构建语义理解模型对元数据进行解析,并将解析后的元数据填入关系型数据库;同时,构建文件系统并将元数据对应的数据文件存入文件系统,包括:

12、s21:采用正则表达式,将预处理后的元数据转换为表格数据;所述表格数据的列为数据类别,行为数据数量;

13、s22:构建语义理解模型,所述语义理解模型包括数据理解部分、实体对齐部分,其中语义理解部分的计算方式为:

14、f1=cnn(xt)

15、f2=maxpoling(f1)+averagepooling(f1)

16、f3=transformer(bilstm(xt))+bilstrm(xt)

17、f4=mlp(concat(f2,f3))

18、其中,f1为第一卷积特征,cnn()为卷积神经网络操作,xt为输入数据,t为时间步索引,f2为第二卷积特征,maxpooling()为最大池化操作,averagepooling()为全局平均池化操作,f3为语义时序特征,transformer()为transformer操作,bilstm()为双向长短时记忆网络操作,f4为融合语义特征,concat()为拼接操作,mlp()为全连接层操作;

19、语义理解模型的计算方式统一表示为:

20、f4=comprehense(xt)

21、其中,comprehense()为语义理解模型操作;

22、传统方法通常依赖基于规则的文本匹配的方法来解析元数据,这些方法在处理复杂、异构的医疗设备元数据时效果不佳,容易因为规则设定不完全导致无法解析,而即使设定了大量的规则,面对不同厂商不同类型的医疗设备,也仍然无法枚举所有的情况;而本发明的语义理解模型结合了卷积神经网络的局部特征提取能力、池化操作的特征降维能力、transformer的全局上下文理解能力以及双向长短时记忆网络的时序建模能力,能够全面、准确地理解元数据中的复杂语义信息,提高解析的准确性和完整性,即使面对元数据中未曾见过的表述方式,也能够分析其含义,并将其填入关系型数据库中;

23、s23:对表格数据,以列为单位,输入语义理解模型的数据理解部分,计算得到融合语义特征,作为各设备的列名特征向量;

24、s24:将各设备的列名特征向量输入语义理解模型的实体对齐部分,进行实体对齐,得到设备列名之间的语义距离,实体对齐部分的计算方式为:

25、

26、

27、其中,为第一、二个设备之间列名的语义相似度,为第一个设备的列名特征向量,为第二个设备的列名特征向量,∥∥为取模长操作,为第一、二个设备列名之间的语义距离,β为余弦调节参数,exp()为取自然常数的指数操作,γ为模长调节参数,||为取绝对值操作;

28、s25:遍历所有设备列名之间的语义距离,存储在距离矩阵中;然后遍历距离矩阵,找到所有语义距离小于类别阈值的列名特征向量对,类别阈值的计算方式为:

29、t=μ-α·σ

30、其中,t为类别阈值,μ为当前所有语义距离的平均值,α为权重系数,σ为当前所有语义距离的标准差;

31、对于语义距离小类别阈值的列名特征向量,合并为新的列名特征向量,合并的方式为取两个向量的平均值,合并后更新距离矩阵;

32、对于语义距离大于或等于类别阈值的列名特征向量,保留为新的独立类别;按上述步骤处理完所有列名特征向量后,得到总设备属性列名;

33、对于转换为表格形式的元数据,列名代表了元数据中所描述的某个属性或字段的;s25步骤通过计算设备列名之间的语义距离,并利用阈值判断来合并相似的列名特征向量,有效处理多样化的医疗设备各类属性,为后续的数据库构建、数据查询和日志分析提供了数据基础;

34、s26:根据总设备属性列名构建关系型数据库;同时,计算总设备属性列名与各设备的列名特征向量的相似度,并与相似度最高的列名进行匹配,然后将对应的元数据存入关系型数据库;

35、s27:构建文件系统,并将各设备元数据对应的数据文件存入文件系统;同时,复制文件地址,存入关系型数据库;

36、进一步地,所述s3步骤建立关系型数据库的索引并与各设备的数据表进行关联,包括:

37、s31:选择b+树作为索引类型,以设备编号为字段,为b+树的每个节点分配空间,存储设备编号和指向数据表记录的指针;

38、s32:从b+树的根节点开始,按照升序排序,将设备编号和指向数据表记录的指针插入到b+树的叶子节点中,并进行存储;

39、s33:重复步骤s32,直到所有的设备编号都被插入到b+树中;

40、s34:将构建好的b+树索引存储到关系型数据库中,并与各设备的数据表进行关联。

41、进一步地,所述s4步骤构建查询语句生成模型,查询医疗设备信息,并保存查询日志,包括:

42、s41:构建查询语句生成模型,计算方式为:

43、fsql=comprehense(sql)

44、fx=comprehense(x)

45、htrans=transformer(concat(fsql,fx))

46、zt=sigmoid(w1htrans)

47、

48、

49、其中,fsql为sql融合语义特征,fx为自然语言融合语义特征,sql为sql查询语句,x为用户输入的自然语言,htrans为拼接特征,zt为时间步下的重置更新门,sigmoid()为sigmoid函数,w1为重置更新参数矩阵,为t时间步下的隐状态,tanh()为双曲正切函数,w2为隐状态参数矩阵,ht-1为t-1时间步下的语句生成特征,ht为t时间步下的语句生成特征;sql的全称是“structured query language”,中文翻译为“结构化查询语言”,是一种用于访问和处理数据库的标准的计算机语言,允许用户查询、更新和管理数据库中的数据;

50、再对t时间步下的语句生成特征ht,采用top-k sampling的方式进行解码,得到sql查询语句;

51、传统的数据库查询方法通常需要用户手动编写sql语句,耗时耗力而且容易报错,导致查询失败;而本发明通过构建查询语句生成模型,并对门控循环单元的重置门与更新门进行合并,得到重置更新门,简化了计算结构,降低了每个时间步的计算量,在训练和推理时占用的内存也更少;

52、然后,采用transformer对sql语句和自然语言的融合语义特征进行编码,使得模型在生成sql查询语句时,既能够充分利用自然语言的理解能力,又能够捕捉查询语句中的时序依赖关系,实现了自然语言到sql语句的自动转换,大大提高了查询效率;

53、s42:利用构建好的查询语句生成模型,将用户输入的自然语言转换为sql查询语句并发送到数据库,记录并保存查询日志;所述查询日志包括用户输入的自然语言、sql查询语句、查询语句的执行时间与查询结果。

54、进一步地,所述s5步骤构分析查询日志中的高频内容,对关系型数据库的索引进行更新,包括:

55、s51:统计每条查询语句在日志中出现的频率,从最高频率的查询语句开始逐个累加频率,直到频率累加和首次超过总查询频率的30%时停止,最后将这些累加频率之和大于30%的查询语句作为高频查询语句;

56、s52:统计高频查询语句的执行时间,并根据每条查询语句的频率与执行时间,计算索引权重,计算方式为:

57、

58、其中,weight为索引权重,f为各高频查询语句的频率,time为高频查询语句的执行时间,max()为取最大值,min()为取最小值;

59、s53:根据索引权重,为高频查询语句中的字段添加新的复合索引,并更新到整个b+树中;

60、本发明针对高频查询语句,综合考虑查询频率和执行时间两个关键因素来计算索引权重,更准确地识别出需要优化的索引;同时,为高频查询语句中的字段添加了新的复合索引,并更新了整个b+树,为数据库提供了更好的数据访问性能。

61、本发明还公开了一种基于自然语言处理的医疗设备信息整合系统,包括:

62、数据导出与预处理模块:从多个设备的软件中导出数据文件与对应的元数据并进行预处理,得到预处理后的数据文件和元数据;

63、语义理解与数据库构建模块:构建语义理解模型对元数据进行解析,并将解析后的元数据填入关系型数据库;同时,构建文件系统并将元数据对应的数据文件存入文件系统;

64、索引建立与关联模块:建立关系型数据库的索引并与各设备的数据表进行关联;

65、查询语句生成模块:构建查询语句生成模型,查询医疗设备信息,并保存查询日志;

66、索引分析与更新模块:分析查询日志中的高频内容,对关系型数据库的索引进行更新。

67、与现有技术相比,本发明的优点在于:

68、(1)本发明针对现有医疗设备整合方法难以对不同类型、不同制造商的医疗设备数据进行有效整合的问题,构建语义理解模型对元数据进行解析,构建文件系统并将元数据对应的数据文件存入文件系统,实现了数据文件与元数据的关联存储;同时,分析查询日志中的高频内容,并对关系型数据库的索引进行更新,提高了数据整合的效率。

69、(2)本发明构建了语义理解模型,以语义理解的方式来解析元数据,结合卷积神经网络的局部特征提取能力、池化操作的特征降维能力、transformer的全局上下文理解能力以及双向长短时记忆网络的时序建模能力,准确理解元数据中的语义信息;相较于传统的基于规则的文本匹配方法,本发明能够整合历史情况中未曾出现过的元数据类型,并将其填入关系型数据库中;

70、(3)本发明对门控循环单元的重置门与更新门进行合并,得到重置更新门,简化了计算结构,并以此为基础构建了查询语句生成模型,根据用户输入的自然语言,自动生成关系型数据库的查询语句,提供了更高效的数据查询方式,提高了数据查询的效率。

71、(4)本发明对查询日志进行分析,首先统计出高频查询语句,然后基于统计量,综合考虑频率与执行时间,计算出高频查询语句的索引权重,最后根据索引权重,为高频查询语句中的字段添加新的复合索引,为数据库提供了更好的数据访问性能。


技术特征:

1.一种基于自然语言处理的医疗设备信息整合方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于自然语言处理的医疗设备信息整合方法,其特征在于,所述s1步骤包括:

3.根据权利要求1所述的基于自然语言处理的医疗设备信息整合方法,其特征在于,所述s2步骤包括:

4.根据权利要求2所述的基于自然语言处理的医疗设备信息整合方法,其特征在于,所述s2步骤包括:

5.根据权利要求4所述的基于自然语言处理的医疗设备信息整合方法,其特征在于,所述s3步骤包括:

6.根据权利要求1所述的基于自然语言处理的医疗设备信息整合方法,其特征在于,所述s4步骤包括:

7.根据权利要求5所述的基于自然语言处理的医疗设备信息整合方法,其特征在于,所述s4步骤包括:

8.根据权利要求7所述的基于自然语言处理的医疗设备信息整合方法,其特征在于,所述s5步骤包括:

9.一种基于自然语言处理的医疗设备信息整合系统,其特征在于,包括:


技术总结
本发明公开了一种基于自然语言处理的医疗设备信息整合方法及系统,包括S1:从多个设备的软件中导出数据文件与对应的元数据并进行预处理,得到预处理后的数据文件和元数据;S2:构建语义理解模型对元数据进行解析,并将解析后的元数据填入关系型数据库;同时,构建文件系统并将元数据对应的数据文件存入文件系统;S3:建立关系型数据库的索引并与各设备的数据表进行关联;S4:构建查询语句生成模型,查询医疗设备信息,并保存查询日志;S5:分析查询日志中的高频内容,对关系型数据库的索引进行更新;本发明旨在解决医疗设备数据类型多样,现有整合方法难以对不同类型不同制造商的医疗设备数据进行有效整合的问题。

技术研发人员:张肖欢,陆建功,郭伟
受保护的技术使用者:无锡星羽创意科技有限公司
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-16684.html

最新回复(0)