本发明涉及数据挖掘,具体涉及一种基于生成式开集识别技术的新发传染病智能识别方法。
背景技术:
1、新发传染病是造成地区性或国际性公共卫生问题的新识别的和以往未知的传染病,它对人类的生命健康构成了严重威胁。随着经济全球化和世界人口的不断增长,世界各国之间经济交流和人口流动更加频繁,这同时也加速了传染病的传播速度并扩大了传播范围。
2、如何在新发传染病暴发早期及时识别其是新发传染病仍然是一个挑战。目前,有研究针对电子健康记录数据进行传染病的检测、风险预测及分类。此外,也有相关学者利用网络数据进行传染病的源头识别、风险因素识别、传播过程中关键节点的识别。然而,这些研究侧重于已知传染病的监测预警,难以识别出新发传染病。
技术实现思路
1、(一)解决的技术问题
2、针对现有技术的不足,本发明提供了一种基于生成式开集识别技术的新发传染病智能识别方法和系统,解决了现有技术无法识别出新发传染病的技术问题。
3、(二)技术方案
4、为实现以上目的,本发明通过以下技术方案予以实现:
5、第一方面,本发明提供一种基于生成式开集识别技术的新发传染病智能识别方法,包括:
6、获取并预处理电子健康记录数据,得到规范化数据,所述规范化数据包括结构化数据和非结构化数据;
7、分别对所述结构化数据和非结构化数据进行闭集识别,确定最优词嵌入方法、编码器网络和最优分类器;
8、基于所述编码器网络确定解码器网络,基于编码器网络、解码器网络和最优分类器构建传染病新发识别模型;
9、通过所述最优词嵌入方法对非结构化数据进行处理,获取句向量;通过所述传染病新发识别模型对句向量和结构化数据进行开集识别,识别出未知类作为新发传染病。
10、优选的,分别对所述结构化数据和非结构化数据进行闭集识别,确定最优词嵌入方法、编码器网络和最优分类器,包括:
11、分别使用不同的词嵌入方法获取非结构化数据的句向量,验证不同的词嵌入方法对分类效果的影响,并选择最优的词嵌入方法作为最优词嵌入方法;所述词嵌入方法包括tfidf、word2vec、glove、fasttext和cnn;
12、采用deepmicro中编码器的架构,即使用了一个中间隐藏层,设置不同的隐藏单元的数量,将隐藏层维度设置成不同单位,选择其中分类效果最好的架构作为编码器网络;
13、分别使用不同的分类器进行分类,使用损失函数最小作为最优分类器。
14、优选的,所述基于所述编码器网络确定解码器网络,包括:
15、基于编码器网络,采用变分自编码器生成解码器网络。
16、优选的,通过所述最优词嵌入方法对非结构化数据进行处理,获取句向量;通过所述传染病新发识别模型对句向量和结构化数据进行开集识别,识别出未知类作为新发传染病,包括
17、通过最优的最优词嵌入方法对非结构化数据处理,得到句向量表示为{v1,v2,...,vn},相关标签为{y1,y2,...,yn},
18、通过传染病新发识别模型对句向量和结构化数据进行处理,识别出已知类,分别计算各已知类的质心,记{ce1,ce2,...,cel}为已知类的质心集合;计算各类中的向量与质心之间的余弦相似度距离:
19、
20、
21、根据闭集各类分类情况,选定阈值τd,识别出未知类,计算公式如下:
22、
23、其中,0≤i≤n;0≤j≤l;ck表示已知类,ck∈{c1,c2,...,cl};cl+1为未知类,即新发传染病。
24、优选的,所述新发传染病识别方法还包括:
25、所述传染病新发识别模型输出重构误差,通过极值模型对重构误差分布的尾部进行建模,对传染病新发识别模型识别出的未知类进行估计,进一步划分已知类和未知类。
26、优选的,所述预处理包括:数据的去重、缺失值处理、和异常值处理。
27、第二方面,本发明提供一种基于生成式开集识别技术的新发传染病智能识别系统,包括:
28、数据获取及预处理模块,用于获取并预处理电子健康记录数据,得到规范化数据,所述规范化数据包括结构化数据和非结构化数据;
29、闭集识别模块,用于分别对结构化数据和非结构化数据进行闭集识别,确定最优词嵌入方法、编码器网络和最优分类器;
30、模型构建模块,用于基于编码器网络确定解码器网络,基于编码器网络、解码器网络和最优分类器构建传染病新发识别模型;
31、开集识别模块,用于通过最优词嵌入方法对非结构化数据进行处理,获取句向量;通过传染病新发识别模型对句向量和结构化数据进行开集识别,识别出未知类作为新发传染病。
32、优选的,所述新发传染病识别系统还包括:
33、二次划分模块,用于根据所述传染病新发识别模型输出的重构误差,通过极值模型对重构误差分布的尾部进行建模,对传染病新发识别模型识别出的未知类进行估计,进一步划分已知类和未知类。
34、第三方面,本发明提供一种存储介质,其存储有用于基于生成式开集识别技术的新发传染病智能识别方法构建的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的新发传染病识别方法。
35、第四方面,本发明提供一种电子设备,包括:
36、一个或多个处理器;
37、存储器;以及
38、一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的新发传染病识别方法。
39、(三)有益效果
40、本发明提供了一种基于生成式开集识别技术的新发传染病智能识别方法和系统。与现有技术相比,具备以下有益效果:
41、本发明开发了一个面向新发传染病监测的传染病新发识别模型,该模型的构建包括闭集分类阶段和新类识别阶段,能有效地在新发传染病暴发初期及时识别其为未知的传染病,有利于相关机构能在新发传染病暴发初期及时提供具体的医疗干预措施。
1.一种基于生成式开集识别技术的新发传染病智能识别方法,其特征在于,包括:
2.如权利要求1所述的基于生成式开集识别技术的新发传染病智能识别方法,其特征在于,分别对所述结构化数据和非结构化数据进行闭集识别,确定最优词嵌入方法、编码器网络和最优分类器,包括:
3.如权利要求1所述的基于生成式开集识别技术的新发传染病智能识别方法,其特征在于,所述基于所述编码器网络确定解码器网络,包括:
4.如权利要求1所述的基于生成式开集识别技术的新发传染病智能识别方法,其特征在于,通过所述最优词嵌入方法对非结构化数据进行处理,获取句向量;通过所述传染病新发识别模型对句向量和结构化数据进行开集识别,识别出未知类作为新发传染病,包括
5.如权利要求1~4任一所述的基于生成式开集识别技术的新发传染病智能识别方法,其特征在于,所述新发传染病识别方法还包括:
6.如权利要求1~4任一所述的基于生成式开集识别技术的新发传染病智能识别方法,其特征在于,所述预处理包括:数据的去重、缺失值处理、和异常值处理。
7.一种基于生成式开集识别技术的新发传染病智能识别系统,其特征在于,包括:
8.如权利要求7所述的基于生成式开集识别技术的新发传染病智能识别系统,其特征在于,所述新发传染病识别系统还包括:
9.一种存储介质,其特征在于,其存储有用于基于生成式开集识别技术的新发传染病智能识别方法构建的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~6任一项所述的新发传染病识别方法。
10.一种电子设备,其特征在于,包括: