1.本发明属于医疗技术领域,尤其涉及一种溃疡性结肠炎结构化报告的生成方法及系统。
背景技术:2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.溃疡性结肠炎(ulcerative colitis,uc)是以反复发作的腹痛腹泻、黏液脓血便为主要临床表现的慢性非特异性炎症,病变常呈连续性分布,可累及直肠、乙状结肠以至全结肠多个肠段,重症患者可有全身感染中毒症状,甚至危及生命。uc患者个体化特点强烈,国内外相关指南、文献繁多冗杂,诊治需基于多项复杂的临床评分和分型,进行多维度考虑,因此有必要建立炎症性肠病患者病例库,最终实现炎症性肠病智能识别诊疗决策。
4.然而uc缺乏诊断的金标准,主要结合临床表现、实验室检查、影像学检查、内镜检查和组织病理学表现进行综合分析,在排除感染性和其他非感染性结肠炎的基础上进行诊断,基于上述数据形成的病例库内容庞杂,完成一篇病例的建立耗时耗力且无法保证正确性。
5.非结构化实体属性值抽取的过程,即从非结构化文本中抽取出实体的属性及其属性值形成结构化数据。由于诊断报告镜下所见内容有文本语句少但信息量大的特点,而传统的实体关系抽取大都是给定关系类别,受到人工定义关系类型的限定以及训练语料的限制,很难应用到诊断报告文本转换成结构化报告中。
技术实现要素:6.为了解决上述背景技术中存在的技术问题,本发明提供一种溃疡性结肠炎结构化报告的生成方法及系统,其采用多标签文本分类的方法,通过多标签文本分类模型得到了每段文本内容所归属的类别,再分别针对每个类别对应的文本内容识别模型识别文本内容,得到对应结构化识别结果。
7.为了实现上述目的,本发明采用如下技术方案:
8.本发明的第一个方面提供一种溃疡性结肠炎结构化报告的生成方法。
9.一种溃疡性结肠炎结构化报告的生成方法,包括:
10.获取溃疡性结肠炎的报告文本内容;
11.基于报告文本内容,采用病灶实体识别模型,确定病灶实体位置和病灶实体内容;
12.基于病灶实体位置和病灶实体内容,采用多标签文本分类模型,得到病灶类别;
13.基于病灶类别,采用文本内容识别模型,得到文本内容,以生成溃疡性结肠炎结构化报告;
14.其中,所述确定病灶实体内容具体包括:以识别到的病灶实体内容的句子作为开始,检测下一个句子是否有病灶实体内容,若没有,则以上一个病灶实体内容作为该句话的
病灶实体内容,填充到句子的前端。
15.进一步地,在采用病灶实体识别模型之前还包括:对报告文本内容进行预处理,所述预处理包括对报告文本内容进行文本分词,去停用词处理。
16.更进一步地,在预处理之后包括,对预处理后的报告文本内容进行向量化表示。
17.更进一步地,针对向量化表示的报告文本内容进行特征提取,以降低特征维度。
18.进一步地,在确定病灶实体位置和病灶实体内容之后还包括:以病灶实体位置前后的文本为上下文,对相邻文本进行病灶实体文本填充处理。
19.进一步地,所述病灶类别包括:病变部位、黏膜红斑、黏膜血管纹理、黏膜脆性、糜烂溃疡、自发性出血和假性息肉。
20.进一步地,所述多标签文本分类模型采用bret模型。
21.进一步地,在得到病灶类别之后还包括对多标签文本分类模型进行验证,具体过程为:
22.对采集的溃疡性结肠炎检查过程所采集到的历史图像数据,进行病灶部位分类,训练部位分类模型;
23.标注病灶数据,制作训练样本数据;训练病灶识别模型;
24.对溃疡性结肠炎检查过程所采集到的图像数据再调用部位分类模型和病灶识别模型,对通过多标签文本分类模型得到病灶诊断结果进行二次验证。
25.本发明的第二个方面提供一种溃疡性结肠炎结构化报告的生成系统。
26.一种溃疡性结肠炎结构化报告的生成系统,包括:
27.数据获取模块,其被配置为:获取溃疡性结肠炎的报告文本内容;
28.实体识别模块,其被配置为:基于报告文本内容,采用病灶实体识别模型,确定病灶实体位置和病灶实体内容;
29.分类模块,其被配置为:基于病灶实体位置和病灶实体内容,采用多标签文本分类模型,得到病灶类别;
30.报告生成模块,其被配置为:基于病灶类别,采用文本内容识别模型,得到文本内容,以生成溃疡性结肠炎结构化报告;
31.其中,所述确定病灶实体内容具体包括:以识别到的病灶实体内容的句子作为开始,检测下一个句子是否有病灶实体内容,若没有,则以上一个病灶实体内容作为该句话的病灶实体内容,填充到句子的前端。
32.本发明的第三个方面提供一种计算机可读存储介质。
33.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的溃疡性结肠炎结构化报告的生成方法中的步骤。
34.本发明的第四个方面提供一种计算机设备。
35.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的溃疡性结肠炎结构化报告的生成方法中的步骤。
36.与现有技术相比,本发明的有益效果是:
37.本发明通过调取自然语言的诊断报告,将自然语言的诊断报告进行处理后形成结构化的溃疡性结肠炎结构化报告,以此构建病例库,提高了病例库生成的速度的同时,还提
高了每份溃疡性结肠炎结构化报告的准确性。
38.本发明采用多标签文本分类的方法,通过多标签文本分类模型得到了每段文本内容所归属的类别,再分别针对每个类别对应的文本内容识别模型识别文本内容,得到对应结构化识别结果,提供了非结构化内容转结构化内容的准确性。
附图说明
39.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
40.图1是本发明实施例示出的溃疡性结肠炎结构化报告的生成方法的流程图;
41.图2是本发明实施例示出的分类器示意图。
具体实施方式
42.下面结合附图与实施例对本发明作进一步说明。
43.应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
44.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
45.需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
46.实施例一
47.如图1所示,本实施例提供了一种溃疡性结肠炎结构化报告的生成方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。本实施例中,该方法包括以下步骤:
48.获取溃疡性结肠炎的报告文本内容;
49.基于报告文本内容,采用病灶实体识别模型,确定病灶实体位置和病灶实体内容;
50.基于病灶实体位置和病灶实体内容,采用多标签文本分类模型,得到病灶类别;
51.基于病灶类别,采用文本内容识别模型,得到文本内容,以生成溃疡性结肠炎结构化报告;
52.其中,所述确定病灶实体内容具体包括:以识别到的病灶实体内容的句子作为开始,检测下一个句子是否有病灶实体内容,若没有,则以上一个病灶实体内容作为该句话的病灶实体内容,填充到句子的前端。
53.本实施例的具体方案,可参考以下内容实现:
54.步骤1:收集大数据量真实的溃疡性结肠炎相关的报告文本内容,提取出镜下所见文本内容,对文本内容逐段、逐句拆分。由于诊断报告镜下所见内容有文本语句少但信息量大的特点,例如:黏膜血管纹理模糊、紊乱。再例如:进入回肠远端,可见散在溃疡糜烂面,取活检2块。这段文字既有病灶的部位、又有溃疡特征以及溃疡的数量。使用多标签文本分类方法进行文本识别,即将一个待分类的文本通过特定的分类器对该文本给定多个标签且这些标签有的存在一定关联、有的不存在关联。假定d={(xi,yi)}是训练集中的样本,利用设计的模型学习到一个映射f:x-》y,其中xi∈x,yi∈y是实例xi所对应的类别标签,如图2所示。
55.1.1对文本预处理,对非结构化内容进行文本分词,去停用词处理。预处理之后要进行向量化表示,通过文本向量化处理后得到的特征比较稀疏,维度较高。特征提取就是在保证文本语义表达完整的前提下,去除无用特征,保留有效特征,进行特征降维。
56.1.2文本中的病灶实体识别
57.由于诊断报告镜下所见内容有文本语句少但信息量大的特点,对报告文本内容进行病灶实体识别及填充处理,以解决把诊断报告内容分句拆分后,缺少了实体内容上下文的关联。
58.定义多个病灶实体标签:溃疡性结肠炎、出血、息肉、结肠早癌、结肠进展期癌,基于crf(条件随机场)训练病灶实体识别模型。调用病灶实体识别模型,得到每句文本的病灶实体位置,以病灶实体所在的位置前后的文本为上下文,对相邻文本进行病灶实体文本填充处理。以便后续分类模型能够抽取出更多知识点。其中,病灶实体识别模型可以采用现有的神经网络。
59.对诊断内容按句子拆分,调用病灶实体识别模型得到病灶实体内容。以识别到的实体内容的句子作为开始,检测下一个句子是否有实体内容,如果没有就以上一个实体内容作为该句话的实体内容,填充到句子的前端。
60.比如一段诊断内容:“于距肛缘20cm结肠有1枚大小约0.2x0.3cm扁平息肉,表面光滑,色同周围粘膜。经内镜下完全切除病变,术中过程顺利。”调用病灶实体识别模型后,文字第一句话识别出“息肉”这个病灶实体;第二句话没有识别到病灶实体,进行病灶实体填充处理。经调整后的内容修改为:于距肛缘20cm结肠有1枚大小约0.2x0.3cm扁平息肉,表面光滑,色同周围粘膜。息肉经内镜下完全切除病变,术中过程顺利。
61.1.3训练多标签文本分类模型
62.将预处理之后的文本(训练集)送入特定的分类器(模型)中进行训练,得到多标签
文本分类模型。这里分类器使用bret模型进行多标签文本分类训练,分类类别依次为:病变部位、黏膜红斑、黏膜血管纹理、黏膜脆性、糜烂溃疡、自发性出血、假性息肉。结合临床指南和大量历史诊断报告,确定上述分类类型及表征各对应类型的规则,如黏膜脆性分为光滑、轻度易脆、明显易脆。
63.步骤2:通过多标签文本分类模型得到了每段文本内容所归属的类别,下一步分别针对每个类别对应的文本内容识别模型识别文本内容,得到对应结构化识别结果。例如:黏膜血管纹理模糊、紊乱。这段文字使用bert分类模型识别出多标签类别里有黏膜血管纹理类别。再训练黏膜血管纹理类别对应的文本内容识别模型,分为“正常、减少和消失”,识别出为“减少”,填写到结构化报告黏膜血管纹理一栏中。这里使用fasttext文本分类算法,即在保证了准确率的情况下大大缩短了分类时间。
64.步骤3:基于影像识别的二次验证过程。获取溃疡性结肠炎检查过程所采集到的原始图像数据,分别训练肠镜部位识别模型和病灶识别模型。
65.3.1采集到的图像进行部位分类,分为:盲肠、升降结肠、横结肠、乙状结肠、直肠、未知等类别,训练部位分类模型。
66.3.2标注病灶数据,制作训练样本数据;训练病灶识别模型,可分成:溃疡性结肠炎、出血、息肉、结肠早癌、结肠进展期癌等病灶类别。
67.3.3文本分类模型二次验证过程。病灶的部位及病灶类型。对采集到的图像再调用部位分类模型和病灶识别模型,对步骤2通过多标签文本分类模型得到病灶诊断结果进行二次验证。
68.实施例二
69.本实施例提供了一种溃疡性结肠炎结构化报告的生成系统。
70.数据获取模块,其被配置为:获取溃疡性结肠炎的报告文本内容;
71.实体识别模块,其被配置为:基于报告文本内容,采用病灶实体识别模型,确定病灶实体位置和病灶实体内容;
72.分类模块,其被配置为:基于病灶实体位置和病灶实体内容,采用多标签文本分类模型,得到病灶类别;
73.报告生成模块,其被配置为:基于病灶类别,采用文本内容识别模型,得到文本内容,以生成溃疡性结肠炎结构化报告;
74.其中,所述确定病灶实体内容具体包括:以识别到的病灶实体内容的句子作为开始,检测下一个句子是否有病灶实体内容,若没有,则以上一个病灶实体内容作为该句话的病灶实体内容,填充到句子的前端。
75.此处需要说明的是,上述数据获取模块、实体识别模块、分类模块和报告生成模块与实施例一中的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
76.实施例三
77.本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的溃疡性结肠炎结构化报告的生成方法中的步骤。
78.实施例四
79.本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的溃疡性结肠炎结构化报告的生成方法中的步骤。
80.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
81.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
82.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
83.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
84.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random accessmemory,ram)等。
85.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:1.一种溃疡性结肠炎结构化报告的生成方法,其特征在于,包括:获取溃疡性结肠炎的报告文本内容;基于报告文本内容,采用病灶实体识别模型,确定病灶实体位置和病灶实体内容;基于病灶实体位置和病灶实体内容,采用多标签文本分类模型,得到病灶类别;基于病灶类别,采用文本内容识别模型,得到文本内容,以生成溃疡性结肠炎结构化报告;其中,所述确定病灶实体内容具体包括:以识别到的病灶实体内容的句子作为开始,检测下一个句子是否有病灶实体内容,若没有,则以上一个病灶实体内容作为该句话的病灶实体内容,填充到句子的前端。2.根据权利要求1所述的溃疡性结肠炎结构化报告的生成方法,其特征在于,在采用病灶实体识别模型之前还包括:对报告文本内容进行预处理,所述预处理包括对报告文本内容进行文本分词,去停用词处理。3.根据权利要求2所述的溃疡性结肠炎结构化报告的生成方法,其特征在于,在预处理之后包括,对预处理后的报告文本内容进行向量化表示。4.根据权利要求3所述的溃疡性结肠炎结构化报告的生成方法,其特征在于,针对向量化表示的报告文本内容进行特征提取,以降低特征维度。5.根据权利要求1所述的溃疡性结肠炎结构化报告的生成方法,其特征在于,在确定病灶实体位置和病灶实体内容之后还包括:以病灶实体位置前后的文本为上下文,对相邻文本进行病灶实体文本填充处理。6.根据权利要求1所述的溃疡性结肠炎结构化报告的生成方法,其特征在于,所述病灶类别包括:病变部位、黏膜红斑、黏膜血管纹理、黏膜脆性、糜烂溃疡、自发性出血和假性息肉。7.根据权利要求1所述的溃疡性结肠炎结构化报告的生成方法,其特征在于,在得到病灶类别之后还包括对多标签文本分类模型进行验证,具体过程为:对采集的溃疡性结肠炎检查过程所采集到的历史图像数据,进行病灶部位分类,训练部位分类模型;标注病灶数据,制作训练样本数据;训练病灶识别模型;对溃疡性结肠炎检查过程所采集到的图像数据再调用部位分类模型和病灶识别模型,对通过多标签文本分类模型得到病灶诊断结果进行二次验证。8.一种溃疡性结肠炎结构化报告的生成系统,其特征在于,包括:数据获取模块,其被配置为:获取溃疡性结肠炎的报告文本内容;实体识别模块,其被配置为:基于报告文本内容,采用病灶实体识别模型,确定病灶实体位置和病灶实体内容;分类模块,其被配置为:基于病灶实体位置和病灶实体内容,采用多标签文本分类模型,得到病灶类别;报告生成模块,其被配置为:基于病灶类别,采用文本内容识别模型,得到文本内容,以生成溃疡性结肠炎结构化报告;其中,所述确定病灶实体内容具体包括:以识别到的病灶实体内容的句子作为开始,检测下一个句子是否有病灶实体内容,若没有,则以上一个病灶实体内容作为该句话的病灶
实体内容,填充到句子的前端。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的溃疡性结肠炎结构化报告的生成方法中的步骤。10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的溃疡性结肠炎结构化报告的生成方法中的步骤。
技术总结本发明属于医疗技术领域,提供了一种溃疡性结肠炎结构化报告的生成方法及系统。该方法包括,获取溃疡性结肠炎的报告文本内容;基于报告文本内容,采用病灶实体识别模型,确定病灶实体位置和病灶实体内容;基于病灶实体位置和病灶实体内容,采用多标签文本分类模型,得到病灶类别;基于病灶类别,采用文本内容识别模型,得到文本内容,以生成溃疡性结肠炎结构化报告;所述确定病灶实体内容具体包括:以识别到的病灶实体内容的句子作为开始,检测下一个句子是否有病灶实体内容,若没有,则以上一个病灶实体内容作为该句话的病灶实体内容,填充到句子的前端。充到句子的前端。充到句子的前端。
技术研发人员:李真 赖永航 马田 张岩 马铭骏 刘静 左秀丽 李延青 杨晓云 冯健 陈栋栋 史珍珍
受保护的技术使用者:青岛美迪康数字工程有限公司
技术研发日:2022.06.30
技术公布日:2022/11/1