1.本发明涉及一种面向辅助诊断的知识图谱构建方法,属于互联网与人工智能技术领域。
背景技术:2.目前各国人民都在不同程度上遭受着各类疾病的困扰,而疾病领域的防治工作高度依赖于医务人员或专家的经验和知识,因病理复杂、医疗资源有限等问题,社会为公众提供全面有效的疾病防治举措仍有着不小的挑战。所以使用计算机辅助疾病的高风险预测是一个有前途且意义重大的研究课题,可以有效缓解医疗资源紧缺的压力,并促进疾病防治工作。
3.随着互联网及人工智能时代的到来,医疗信息化与智慧医疗成为助推传统医疗稳步发展的新方向。在实际就诊中,电子病历逐步取代手写病历,在心血管疾病患者就诊过程中积累了以电子病历、健康记录等为代表的大量结构化与非结构化数据,这些数据是疾病领域重要的医疗信息资源,为该领域的数据挖掘与数据分析任务提供了强有力的数据基础。此外,在智慧医疗中辅助诊断系统广受医疗服务提供商的重视,其各类产品被广泛应用在不同疾病场景中,而基于知识图谱的诊断辅助系统开发更是该领域中的研究热点之一,知识图谱的知识关系与存储特性可以有效地从众多疾病医疗数据中提炼有效信息,以它作为医生的辅助工具对于提升医生的工作效率、解放生产力、缓解医疗资源紧缺以及自动化研究与预防心血管疾病都具有重大意义。但是因为疾病数据多源异构的问题,难以准确地构建出面向疾病辅助诊断的知识图谱,因此,如何设计一种有效的方法来处理多维异构疾病相关数据,准确构建出面向疾病辅助诊断的知识图谱成为一个极其重要的问题。
技术实现要素:4.针对如何有效组织多源异构的疾病数据问题,本发明提出一种面向辅助诊断的知识图谱构建方法,首先提出基于multi-attention结构的知识抽取算法以及基于包装器的知识抽取方法,对医学网站公开数据与电子病历数据进行高效准确的抽取工作,然后提出针对多源异构数据特点的多方案知识融合策略,解决了知识冗余、存在歧义问题,最后给出针对多源异构数据特点的知识表示与优化方案,完成面向疾病辅助诊断的知识图谱构建。
5.为实现上述发明目的,本发明通过以下技术方案来实现:
6.一种面向辅助诊断的知识图谱构建方法,包括以下步骤:
7.步骤1,构建心血管疾病语料库,使用基于包装器的知识抽取方法对专业医学网站公开数据进行抽取工作,构建原始语料库;
8.步骤2,使用基于multi-attention结构的知识抽取算法对非结构化医疗记录数据进行抽取工作,补充疾病语料库;
9.步骤3,使用针对多源异构数据特点的多方案知识融合策略对抽取的数据信息进行实体消歧、实体链接、知识合并;通过基于聚类算法的实体消歧、基于pandans的知识合并
和基于fusion相似度的实体链接解决知识冗余、歧义问题;
10.步骤4,进一步进行数据优化,通过知识表示与图数据库存储完成面向心血管疾病辅助诊断的知识图谱构建工作。
11.进一步地,所述步骤1具体包括如下步骤:
12.利用基于包装器的知识抽取完成面向专业医学网站半结构化数据的知识抽取;包装器是一种基于规则的文本信息抽取模型,包括:规则库、规则执行模块和信息转换模块;爬取工作时构造user-agent集合,在每次请求时随机选一个user-agent;并在每次抓取后用time.sleep暂停几秒再进行下次爬虫,最后将抽取的信息保存为csv文件供后续处理。
13.进一步地,所述步骤2具体包括如下步骤:
14.利用基于多头注意力结构的bert-bi-lstm-crf模型完成面向电子病历等医疗记录非结构化数据的知识抽取;模型分为三层:bert预训练模型、bi-lstm语义融合层和crf最优化输出层;标注好的数据输入模型后首先经过第一层bert预训练模型,结合多头注意力模型实现文本向量化,在抽取过程中同时关注不同位置来输入不同表示子空间的信息,而且多个注意力层并行计算;之后将文本的向量表示序列输入第二层bi-lstm语义融合层,进行进一步的语义编码获得全局的序列特征;最后数据进入第三层crf最优化输出层,使得输出不仅是概率最大的也是最符合语义的标签序列。
15.进一步的,所述步骤3具体包括如下步骤:
16.采用了改进的k-means算法,自动完成聚类类别个数的确定工作,进行聚类消歧;通过pandas将重叠的结构化数据合并到现有的知识库;采用fusion相似度的计算方法将从非结构化数据或半结构化数据中提取的实体对象与知识库中相应正确的实体对象进行链接。
17.进一步的,所述改进的k-means算法流程如下:
18.要处理的文件n初始化簇数,k为患有不同疾病d1、d2的收集文件,为的整数部分;根据下式选择一个初始聚合点
[0019][0020]
将聚合点s存放在集合中,将索引和最小距离存放在集合s'中;计算两个聚类点之间最小距离的差值,存入集合s”;从寻找距离差最大的s”点开始,将之前的聚合点保存到集合s中;从这个聚类中心k开始,应用k-means聚类算法得到聚类结果;能够自动获得k个聚类中心,并得到最终的文档集,完成消歧任务。
[0021]
进一步的,所述步骤4具体包括如下步骤:
[0022]
采用基于向量方差算法通过去除与域无关的节点和它们包含的关系完成对知识图谱的进一步优化,通过领域专家进行补充和修正来完成知识表示,使用neo4j图数据库对知识图谱进行可视化储存。
[0023]
进一步的,所述向量方差算法包括如下流程:
[0024]
将关系集视为有向图,其中si是包含在fj中的节点,n是si中链接的数量,ek表示从si到fj的路径上的边,其权重为w(ek),e{e1,e2,
…en
}表示从节点si到fj的路径集,p{p1,p2,
…
pm}表示从节点si到fj的整个路径;使用以下公式计算节点si到fj的隶属度:
[0025][0026][0027][0028]
并通过设置阈值移除与域无关的节点及其包含的关系。
[0029]
与现有技术相比,本发明具有如下有益效果:
[0030]
本发明能够处理多维异构疾病相关数据,准确地构建出面向疾病辅助诊断的知识图谱。相比其他方法,本发明方法聚焦疾病数据的多源异构特性,针对的提出了多方案知识抽取、知识融合、优化策略,能够挖掘更深层的疾病数据,构建出更加适用于疾病辅助诊断的知识图谱。
附图说明
[0031]
图1为本发明提供的一种面向辅助诊断的知识图谱构建方法的整体框架。
[0032]
图2为实现本发明提供的基于包装器的知识抽取的工作流程。
[0033]
图3为本发明中的基于multi-attention结构的知识抽取模型工作示例。
[0034]
图4为本发明中的实体链接模块流程。
具体实施方式
[0035]
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
[0036]
以心血管疾病为例,本方法提供的一种面向辅助诊断的知识图谱构建方法,其整体框架如图1所示,具体实施步骤如下:
[0037]
步骤1,构建心血管疾病语料库,使用基于包装器的知识抽取方法对专业医学网站公开数据进行高效准确的抽取工作,构建原始语料库。
[0038]
利用基于包装器的知识抽取完成面向半结构化数据的知识抽取。包装器是一种基于规则的文本信息抽取模型,其规则集易于建立且抽取精度高,因而适用于半结构化数据的知识抽取。包装器一般由以下三部分组成:规则库、规则执行模块和信息转换模块,包装器的工作流程如图2所示。其中,规则库用于爬取规则的存储,规则执行模块用于从规则库中提取相应规则进行执行,信息转换模块将爬取信息进行数据库储存;医学实体的属性知识结构是属性-值对,因网站数据包含规整的属性-值对信息及半结构化数据,使用包装器可以更好地从医学网站获取。
[0039]
因本方法所需知识的专业性较强,以专家人工编辑的“39健康网”作为数据源之一来保证知识图谱的完整性。本实验采取了两种措施来完成爬取工作,一是构造user-agent集合,在每次请求时随机选一个user-agent;二是在每次抓取后用time.sleep暂停几秒再进行下次爬虫。此外,本发明采用threading模块实现多线程爬虫以并行处理数据抓取及处理任务,提高爬虫效率。在抓取数据时,通过request.get向服务器发送请求,获取网页的
html文本;然后采用beautifulsoup库bs4模块将html文本解析为方便读取的“lxml”格式;最后将抽取的信息分别保存为csv文件。
[0040]
步骤2,使用基于multi-attention结构的知识抽取算法对电子病历等医疗记录数据进行高效准确的抽取工作,补充疾病语料库。
[0041]
利用基于多头注意力结构的bert-bi-lstm-crf模型完成面向电子病历等医疗记录非结构化数据的知识抽取。模型整体分为三层:bert预训练模型、bi-lstm语义融合层和crf最优化输出层,其工作示例如图3所示。编码层bert模型采用双向transformer作为编码器,transformer基于注意力机制对文本进行建模,有较好地并行计算能力以及捕获长距离文本特征的能力。
[0042]
标注好的数据输入模型后首先经过第一层bert预训练模型,结合多头注意力模型实现文本向量化,在抽取过程中同时关注不同位置来输入不同表示子空间的信息,而且多个注意力层并行计算。本发明引入多头注意力结构对于经典bert模型进行优化,可将查询和一组键值对映射到输出上去,即利用查询与相应键计算分配给每个值的权重值的加权和。伸缩注意力机制(scaled dotproduct attention)层的输出通过式(1)计算:
[0043][0044]
其中,输入有三个,分别表示查询矩阵,键矩阵和值矩阵。d是bilstm层隐藏单元的大小等于dh,本实验设置q=k=v=h,h={h1,h2,h3,
…hn
}为bilstm层的输出。多头注意力层首先通过不同的投影层将查询、键和值线性投影h次,每个投影层计算如式(2)所示。然后h个投影层并行执行式(1)所示的缩放的点乘注意力,最后将这些h个注意力的结果相联起来再次投影以得到最终输出,如式(3)所示。
[0045][0046]
h'=(head1,head2,head3,
…
,headh)woꢀꢀꢀ
(3)
[0047]
这之中,都是投影层参数矩阵,投影层参数矩阵中的dk=2dh/h,也是可训练的参数。bert模型主要使用掩码语言模型mlm和下一句预测nsp两个任务进行联合训练。mlm任务受完形填空的启发,在训练过程中随机选择15%的词,其中80%用“mask”符号掩盖,10%替换为其他随机的词,10%保留原始词,使用未被掩盖的词来预测被掩盖的词,模型可以利用上下文信息,将一个词左右两侧的信息都输入模型以预测当前词。nsp任务的输入是两个句子a和b,训练模型的两个句子有50%的概率是上下文连续的,50%的概率是不连续的,使用模型预测句子b是否为句子a的下一句,以判断句子关系。bert模型在调整阶段通过增加分割符或输出层的方式针对不同的下游任务对模型进行微调,bert可以应用在句子对分类任务、句子分类任务、问答任务和标注任务等任务上,具有通用性的特点,性能效果优化。
[0048]
经过bert预训练模型得到的文本的向量表示序列输入第二层bi-lstm语义融合层,进行进一步的语义编码获得全局的序列特征。语义融合层是由一个bilstm神经网络层和注意力机制组成。bilstm建模方式指的是对同样连接着输出层的向前和向后两个方向的句子进行操作,目的是得到的输出层中同时包括向前、向后的上下文信息,而注意力机制则
用于关注候选知识和上下文。lstm解决了传统rnn中梯度爆炸和梯度消失的问题。而bilstm不仅可以接管前一次序的信息,还可以接管后一次序的信息。bilstm本质是两个lstm单元在前向和后向的组合,那么每个单元在t时刻的最终状态被表示为
[0049]
在知识抽取模型中,bilstm使用上下文知识进行扩展,将实体数据纳入隐藏层进行模型训练。候选知识的权重反映了第j个候选知识x
t
在当前情境环境中的相关性或重要性,采用公式(4)进行双线性计算:
[0050][0051]
矩阵参数wk是在训练中学习的,然后结合候选知识集k,知识整合向量v
t
通过公式(5)表示为:
[0052][0053]
其中∑aj=1,将bilstm的隐藏状态与知识整合向量v
t
相结合,利用公式(6)得到混合向量h'
t
:
[0054]
h'
t
=h
t
+v
t
ꢀꢀꢀ
(6)
[0055]
如果当前词没有候选知识,即候选知识集为空集,对于序列语义,应该区分出每个上下文语义对于候选知识的重要性,对于一个序列的语义,每个上下文语义相对于候选知识的重要性应该被区分出来。利用bi-lstm单元中的中间门来关注知识会使bi-lstm的结构变得复杂,并增加了额外的学习参数,并且bilstm的缺点是信息量随序列长度的增加而减少。因此本发明在bi-lstm之后配置了一个关注机制,该关注机制减少了序列距离,进一步保留了序列中的上下文信息和候选知识,以进一步加强对候选知识和上下文信息的关注,其计算方法如公式(7-10):
[0056]
m=tanh(h+k)
ꢀꢀꢀ
(7)
[0057]
β=softmax(w
t
m)
ꢀꢀꢀ
(8)
[0058]
γ'=hβ
t
ꢀꢀꢀ
(9)
[0059]
γ=tanh(γ')
ꢀꢀꢀ
(10)
[0060]
其中h={h1,h2,h3,
…hn
}是bilstm神经网络隐层的输出,β为权重矩阵,w为参数矩阵,softmax为归一化指数函数,tanh为激活函数,最后输出是结合知识特征的加权变化后的深度特征γ。之后输出将被导入分类器,分类器选择最大概率值作为该序列的标签输出,由于softmax分类器输出的独立性,输出序列将是无序的,没有考虑句子的局部特征,这就导致了训练模型的低准确性,因此将采用crf模型来全面考虑句子的隐藏序列规则。
[0061]
经过语义融合层处理的数据进入第三层crf最优化输出层,使得输出不仅是概率最大的也是最符合语义的标签序列。最优化输出层是crf层,对于心血管疾病的知识抽取任务,考虑相邻标注的依赖关系是必要的,crf是一个由无向图表示的联合概率分布的图模型,局部特征被归一化为全局特征,通过计算整个序列的概率分布来解决部分标注偏差的问题。以z={z1,z2,z3,
…zn
}为输入,通过使用过去和未来的标签预测最可能的标签序列y={y1,y2,y3,
…yn
}。让μ表示crf层的参数集。然后,参数集可以通过最大化对数似然(公式
11)来计算。
[0062]
l(μ)=∑
(s,y)∈dataset
log
p
(y|z,μ)
ꢀꢀꢀ
(11)
[0063]
其中,y是句子s的对应标签序列,概率p是s和μ给定y时的条件概率。s
μ
(z,y)是给定句子的标签序列y的得分,根据公式(12),由过渡得分矩阵a和tanh层的输出z相加而得。条件概率p可以作为s
μ
(z,y)的归一化来计算。
[0064][0065]
其中是当前字符w
t
带有标签y
t
的概率,是前一个字符w
t-1
带有标签y
t-1
之后w
t
带有标签y
t
的概率。通过动态规划,本发明可以在所有训练集上进行最大化对数似然,如公式(11),并通过使用viterbi算法使得分最大化来找到任何输入句子的最佳标签序列,如公式(12)。有了最优化输出层,模型可以有效地利用过去和未来的标签来预测当前的标签,同时可以获得标签的隐藏约束规则,有效得到全局最优解,识别实体的准确性将大大增强。
[0066]
步骤3,为了解决知识冗余和歧义问题,使用针对多源异构数据特点的多方案知识融合策略对抽取的数据信息进行实体消歧、实体链接、知识合并;
[0067]
在这个操作过程中,知识融合主要的对象是图谱中三元组中的实体、属性和关系,实体消歧旨在解决多义现象。在早期的消歧方法中,大多通过比较词项的上下文语言环境,将外部词典引入词义消歧。而词项的解释与词典之间的重复词项的数量决定了该词项的正确含义。尽管如此,这种无监督的方法仍然可以解释文章和词汇表中的词汇项目,但其匹配度要求太高,不适合复杂知识的消歧。鉴于传统的k-means算法在进行消歧任务时需要事先确定聚类类别数量,确定类别个数对于多源异构数据是有着诸多不确定性的,传统算法易造成局部收敛的问题,同时为了更好的保障辅助诊断系统的严谨性,因此实体类别的聚类采用了改进的k-means算法,自动完成聚类类别个数的确定工作,进行聚类消歧。对未来要添加的数据使用聚类算法,可以显着降低人工消歧的难度。
[0068]
本发明对聚类算法的优化原理是使用max-min原则来选取初始聚点,首先选取fusion相似度最小的两个对象x
i1
和x
i2
为前两个聚点,之后对其他所有对象中数据点xk计算到x
i1
和x
i2
的距离d,其他聚点满足递推公式(13),例如第m+1个聚点满足:
[0069][0070]
改进后的k-means聚类算法具体流程如下:要处理的文件n初始化簇数,k为患有不同疾病d1、d2的收集文件,为的整数部分;根据公式(14)选择一个初始聚合点将聚合点s存放在集合中,将索引和最小距离存放在集合s'中;计算两个聚类点之间最小距离的差值,存入集合s”;从寻找距离差最大的s”点开始,将之前的聚合点保存到集合s中;从这个聚类中心k开始,应用k-means聚类算法得到聚类结果。那么可以自动获得k个聚类中心,并得到最终的文档集,更加便捷地完成消歧任务。
[0071][0072]
给定两组a、b,fusion系数定义为a和b的交集大小与a和b的并集大小之比。同时仍然需要关注知识重叠问题,这不仅会使知识的查询时间变长也会增加系统运行负荷,降低
工作效率。因此,本发明在知识存储之前,将本发明构建过程中产生的心血管疾病重叠知识进行合并,删减掉之中重复的三元组,以此提高系统效率。pandas是一种具备series和dataframe两种强大的数据结构的成熟的数据分析技术,可以提供便捷高效的数据操作,可以有效用在合并处理与简化数据的方面,为了更加方便迅速的完成知识合并任务,本发明使用pandas完成知识合并任务,在得到结构化数据后,通过pandas将重叠的结构化数据合并到现有的知识库,该项任务主要关注模式层、数据层两个层面的知识合并。其中以39医学网站为基础知识将其他来源的重叠知识进行,利用pandas将上文工作流程中得到的csv文件以dataframe结构进行读取,选取其他数据源的dataframe中的所对应的属性名称,增添到39医学网站dataframe中首先完成对模式层的知识合并,接着选取其他数据源dataframe中的非空值来填充医学网站dataframe中相应实体的空值,完成数据层的知识合并。
[0073]
实体链接是指从非结构化数据或半结构化数据中提取的实体对象与知识库中相应正确的实体对象进行链接的操作。其基本思想是根据给定的实体对象从知识库中选择一组候选实体对象,然后通过相似度计算将它们链接到正确的实体对象上。对于相似度的计算,本发明采用fusion相似度的计算方法,适用于广泛的稀疏数据,可以比较有限样本集之间的相似度和差异,其中系数越大,样本相似度越高,见公式(14)与(15)。实体链接的设计目的在于知识图谱中两种实体不一致,容易导致检索失败的情况,例如在系统工作过程中对实体“病态窦房结综合征”进行检索,但是在本发明知识图谱中与之对应实体其实是“病窦综合征”,就势必会发生在知识图谱中检索失败的情况。所以本发明通过实体链接,将ner模块得到的实体与本发明知识图谱中存在的模块进行链接。具体采用的方法是,例如将命名实体识别获取的实体“病态窦房结综合征”拆成[“病”,“态”,“窦”,“房”,“结”,“综”,“合”,“征”];检索出对应实体类别中所有相关的实体,组成实体列表;完成去重之后将之构建成候选实体集合;计算ner实体与候选实体之间的fusion相似度;得到相似度最大的候选实体。本模块的工作流程示意图如图4所示。
[0074]
图中第六步使用fusion对命名实体识别模块实体与候选集合中每个实体的短语向量进行相似度计算,输出相似度最大的候选实体。假设ner实体的短语向量为a=[a1,a2,
…
,an],候选实体的短语向量为b=[b1,b2,
…
,bn],二者的余弦相似度如公式(15)所示:
[0075][0076]
步骤4,进一步进行数据优化,通过知识表示与图数据库存储完成面向心血管疾病辅助诊断的知识图谱构建工作。
[0077]
进行了基于向量方差算法的知识图谱优化。该向量方差算法主要通过去除与域无关的节点和它们包含的关系完成对知识图谱的优化。本发明将关系集视为有向图,其中si是包含在fj中的节点,n是si中链接的数量,ek表示从si到fj的路径上的边,其权重为w(ek),e{e1,e2,
…en
}表示从节点si到fj的路径集,p{p1,p2,
…
pm}表示从节点si到fj的整个路径。本发明使用公式(16-18)计算节点si到fj的隶属度,并通过设置阈值移除与域无关的节点及其包含的关系。
[0078][0079][0080][0081]
知识图谱的构建离不开实体、关系及属性的设计,本发明以心血管疾病为例,通过领域专家进行补充与修正针对面向心血管疾病辅助诊断领域的知识图谱设计了5种实体,5种关系,12种属性。最后,以三元形式引入实体融合后,可以使用neo4j图数据库对知识图谱进行可视化,为后续辅助诊断工作提供一个高准确率和高覆盖率的知识图谱。neo4j使用图表来表示数据及其关系,它的基本单位是实体、关系和属性,可以直观地看成是知识图谱中实体之间的关系。对于数据查询,由于cypher语言的高检索效率和索引邻接的使用,可以实现快速高效的目标访问,显着提高查询速度,为下次检索提供便利。
[0082]
将数据导入图数据库有多种方法,本发明选择将数据转成csv格式,再通过图数据库语言完成数据的读取工作。另外neo4j附带的导入工具可以实现本地数据快速导入,存储成功的的知识图谱可以通过系统进行展示,并可以加以应用进行辅助诊断任务。
[0083]
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
技术特征:1.一种面向辅助诊断的知识图谱构建方法,其特征在于,包括以下步骤:步骤1,构建心血管疾病语料库,使用基于包装器的知识抽取方法对专业医学网站公开数据进行抽取工作,构建原始语料库;步骤2,使用基于multi-attention结构的知识抽取算法对非结构化医疗记录数据进行抽取工作,补充疾病语料库;步骤3,使用针对多源异构数据特点的多方案知识融合策略对抽取的数据信息进行实体消歧、实体链接、知识合并;通过基于聚类算法的实体消歧、基于pandans的知识合并和基于fusion相似度的实体链接解决知识冗余、歧义问题;步骤4,进一步进行数据优化,通过知识表示与图数据库存储完成面向心血管疾病辅助诊断的知识图谱构建工作。2.根据权利要求1所述的面向辅助诊断的知识图谱构建方法,其特征在于,所述步骤1具体包括如下步骤:利用基于包装器的知识抽取完成面向专业医学网站半结构化数据的知识抽取;包装器是一种基于规则的文本信息抽取模型,包括:规则库、规则执行模块和信息转换模块;爬取工作时构造user-agent集合,在每次请求时随机选一个user-agent;并在每次抓取后用time.sleep暂停几秒再进行下次爬虫,最后将抽取的信息保存为csv文件供后续处理。3.根据权利要求1所述的面向辅助诊断的知识图谱构建方法,其特征在于,所述步骤2具体包括如下步骤:利用基于多头注意力结构的bert-bi-lstm-crf模型完成面向电子病历等医疗记录非结构化数据的知识抽取;模型分为三层:bert预训练模型、bi-lstm语义融合层和crf最优化输出层;标注好的数据输入模型后首先经过第一层bert预训练模型,结合多头注意力模型实现文本向量化,在抽取过程中同时关注不同位置来输入不同表示子空间的信息,而且多个注意力层并行计算;之后将文本的向量表示序列输入第二层bi-lstm语义融合层,进行进一步的语义编码获得全局的序列特征;最后数据进入第三层crf最优化输出层,使得输出不仅是概率最大的也是最符合语义的标签序列。4.根据权利要求1所述的面向辅助诊断的知识图谱构建方法,其特征在于,所述步骤3具体包括如下步骤:采用了改进的k-means算法,自动完成聚类类别个数的确定工作,进行聚类消歧;通过pandas将重叠的结构化数据合并到现有的知识库;采用fusion相似度的计算方法将从非结构化数据或半结构化数据中提取的实体对象与知识库中相应正确的实体对象进行链接。5.根据权利要求3所述的面向辅助诊断的知识图谱构建方法,其特征在于,所述改进的k-means算法流程如下:要处理的文件n初始化簇数,k为患有不同疾病d1、d2的收集文件,为的整数部分;根据下式选择一个初始聚合点据下式选择一个初始聚合点将聚合点s存放在集合中,将索引和最小距离存放在集合s'中;计算两个聚类点之间最小距离的差值,存入集合s”;从寻找距离差最大的s”点开始,将之前的聚合点保存到集合s
中;从这个聚类中心k开始,应用k-means聚类算法得到聚类结果;能够自动获得k个聚类中心,并得到最终的文档集,完成消歧任务。6.根据权利要求1所述的面向辅助诊断的知识图谱构建方法,其特征在于,所述步骤4具体包括如下步骤:采用基于向量方差算法通过去除与域无关的节点和它们包含的关系完成对知识图谱的进一步优化,通过领域专家进行补充和修正来完成知识表示,使用neo4j图数据库对知识图谱进行可视化储存。7.根据权利要求6所述的面向辅助诊断的知识图谱构建方法,其特征在于,所述向量方差算法包括如下流程:将关系集视为有向图,其中s
i
是包含在f
j
中的节点,n是s
i
中链接的数量,e
k
表示从s
i
到f
j
的路径上的边,其权重为w(e
k
),e{e1,e2,
…
e
n
}表示从节点s
i
到f
j
的路径集,p{p1,p2,
…
p
m
}表示从节点s
i
到f
j
的整个路径;使用以下公式计算节点s
i
到f
j
的隶属度:的隶属度:的隶属度:并通过设置阈值移除与域无关的节点及其包含的关系。
技术总结本发明公开了一种面向辅助诊断的知识图谱构建方法,该方法首先提出基于Multi-Attention结构的知识抽取算法以及基于包装器的知识抽取方法,对医学网站公开数据与电子病历数据进行高效准确的抽取工作,然后提出针对多源异构数据特点的多方案知识融合策略,解决了知识冗余、存在歧义问题,最后给出针对多源异构数据特点的知识表示与优化方案,完成面向心血管疾病辅助诊断的知识图谱构建。本发明方法聚焦疾病数据的多源异构特性,针对的提出了多方案知识抽取、知识融合、优化策略,能够挖掘更深层的疾病数据,准确地构建出更加适用于疾病辅助诊断的知识图谱。病辅助诊断的知识图谱。病辅助诊断的知识图谱。
技术研发人员:杨鹏 王超余 冷俊成 胡皓楠 解然
受保护的技术使用者:浙江华巽科技有限公司
技术研发日:2022.07.01
技术公布日:2022/11/1