一种基于实体联合模型的军事领域命名实体识别方法与流程

专利2023-01-04  142



1.本发明涉及信息处理技术领域,具体涉及一种基于实体联合模型的军事领域命名实体识别方法。


背景技术:

2.命名实体识别(named entity recognition,ner)是自然语言处理领域的典型任务之一,旨在从文本内容中识别出描述具备特殊含义的实体名称及其类型,如人名、时间、目标、地点等,在问答系统、机器翻译、文本生成、知识图谱等领域有着广泛应用。目前命名实体识别在公开数据集上针对有限的实体类型识别已经取得了很好的效果,但在面向军事领域文本时则问题凸显,一方面是由于军事领域数据资源的封闭性,导致针对领域内实体标注数据资源匮乏导致算法训练模型很难直接开展,且由于领域内文本类型的特殊性无法将传统领域中较为成熟的技术直接迁移使用;另一方面,由于命名实体在军事领域文本中的不同文本、不同方向、不同人物等场景下的表述差异性强,表达粒度多样,缺乏规范性约束导致传统的实体训练模型不能很好的适配领域文本,仅仅依靠公开数据集中的实体类型无法满足实际应用需求。目前命名实体识别的方法根据不同实体的抽取特点主要包括基于字典、规则模型的方法、基于机器学习的方法以及基于深度学习的方法。
3.基于字典、规则模型的方法依赖于人工针对领域内命名实体的特点构建特定的规则模板集和领域字典库,采用模式匹配的方式实现领域文本中命名实体的识别。这种方法优点是针对文本中描述的特征显著、有较强的语言描述规则、上下文信息缺失(如表格类文本)的实体抽取,如时间、军事目标、任务、气象、水文信息等,往往抽取的实体准确率高,识别速度快,缺点是针对领域内命名实体识别需要长期的积累规则模板和字典集合,同时针对存在歧义、多义的某些命名实体识别效果差,此外长期的规则模板积累后还存在针对同一实体的规则冲突问题。
4.基于机器学习的方法将命名实体识别的问题转换为分类或序列标注的问题,其实现的过程需要利用人工对文本中的命名实体进行标注。主要流程是首先对文本语料进行预处理,并且利用标注工具进行人工标注,将文本中出现的不同类别的命名实体进行标注,然后针对机器训练模型进行特征选择,训练命名实体识别模型,最后利用训练的模型进行生语料中文本的命名实体识别。这种方法的优点是能够将文本中不可穷举的、上下文特征显著的命名实体进行识别,且识别效果较好,能够有效解决传统规则模型引起的实体歧义问题同时不需要专家系统去构建领域规则库,如人名、组织结构、地点等,缺点是机器学习模型在文本识别过程中需要标注大量语料,同时特征选择过程也需要人工干预,而且会存在实体识别边界不清晰的问题,如经常会在实体时将语句间的标点符号进行识别,同时对于实体类型的扩展性较差,往往一类军事文本的识别在新增命名实体时需要重新针对该类实体进行标注训练,时间周期较长。此外,由于军事领域内文本类型复杂多样,尤其是一些文本中的命名实体缺乏有效的上下文信息(命名实体前后文都是空格、或表格),利用传统机器学习模型进行命名实体抽取往往效果差强人意。
5.基于深度学习的方法进行命名实体识别是近年来研究的热点之一,该方法能够借助神经网络技术利用少量标注语料在不需要人工干预特征选择的情况下获得较高的命名实体识别效果。深度学习使用词向量表示词语、字向量表示字,解决了传统命名实体识别方法需要花费大量精力构建特征工程的问题,甚至会人工构建特征工程包含更多的语义信息。该方法与机器学习相比更近了一步,但在实际工程应用过程中也存在命名实体识别边界、针对细粒度的实体识别性能不足、实体类型扩展性弱、领域内实体识别局限性等问题。
6.目前,命名实体识别问题在很多开放数据集中针对常规的几类实体抽取已经取得了很高的准确率。但是,在面向军事领域文本的命名实体抽取时,受限于领域内实体表达的多样性、复杂性以及领域文本标注语料的匮乏性,导致现有的开放域实体抽取模型很难快速扩展应用的实体领域工程应用中。此外,现有的命名实体识别技术往往偏向于利用一套模型实现不同类型实体的抽取,忽略了模型抽取实体类型的适用性问题,如在军事领域文本的实体抽取中,利用规则模型就能够解决99%以上的时间、高度、速度等类别实体抽取问题。同时,还需注意的是现有的依赖于机器学习或深度学习模型所抽取实体在工程应用时缺乏有效的修正环节,往往模型针对同一类实体抽取的问题在短期未更正模型的情况会反复出现,无法得以有效解决。因此,急需研究一种可以针对领域内文本中不同实体描述特点的联合命名实体识别模型,并且可以实现模型识别后快速修正抽取结果。


技术实现要素:

7.针对现有技术中的上述不足,本发明提供的一种基于实体联合模型的军事领域命名实体识别方法解决了现有技术对军事领域文本的命名实体识别精度不高的问题。
8.为了达到上述发明目的,本发明采用的技术方案为:一种基于实体联合模型的军事领域命名实体识别方法,包括以下步骤:
9.s1、构建命名实体模型库;
10.s2、基于命名实体模型库创建应用配置;
11.s3、根据应用配置和文本特点配置命名实体模板;
12.s4、根据命名实体模板对输入的军事领域文本数据进行命名实体识别。
13.进一步地:所述步骤s1中命名实体模型库包括字典模型、规则模型、学习模型和三方模型。
14.进一步地:所述字典模型通过领域内特有的业务字典以特定的格式进行保存;所述规则模型通过对领域内具有特征表达显著的实体进行规则定义;所述学习模型针对领域实体中的部分实体通过采用人工标注的形式训练机器学习模型或深度学习模型进行创建;所述三方模型针对领域文本中的实体抽取通过对业内成熟的开源模型根据模型识别标准创建。
15.进一步地:所述应用配置的文件由三类标签组成,分别是service应用服务标签、bean实体组件标签、param实体参数标签。
16.进一步地:所述service应用服务标签用于唯一确定用户需要抽取的文本类型或应用场景名称。
17.进一步地:所述命名实体模板通过xml文件的形式配置和存储命名实体联合模型,由service应用服务标签、bean实体组件标签以及param实体参数标签三级构成。
18.进一步地:所述应用服务标签包括一个属性名称name,表示利用该类联合模型进行实体抽取的适用文本场景;
19.所述实体组件标签由desc和name两个属性组成,desc为当前配置实体的描述信息,反映所需抽取的实体说明,name表示当前需要抽取的实体标准名称,反映最终方法输出时的命名实体名称;
20.所述实体参数标签配置命名实体抽取时所用到的各类模型,包括name、 method、classname三个属性,name表示现有实体抽取模型中存在的命名实体名称,method表示当前实体抽取时所用到的模型类型,取值包括dic字典、rule 规则、crf crf模型、self自定义模型,通过配置不同的模型名称,在进行命名实体抽取时便会加载不同类型的模型,classname表示抽取模型用到的一些附加参数,如crf模型的模型路径名称,自定义模型的类路径。
21.进一步地:所述步骤s4的具体步骤为:
22.s41、将输入的军事领域文本数据通过预处理进行规范化;
23.s42、利用文本分类模型按照文本内容所表达的特征将现有文本进行分类,输出文本类型名称;
24.s43、获取实体配置信息,根据文本类型名称加载命名实体模板中的具体服务标签及对应的组件与参数配置信息;
25.s44、根据实体配置信息,调用不同的模型分别与文本中的命名实体进行抽取,获得实体抽取结果;
26.s45、针对不同模型抽取同类实体过程中出现的重复抽取或边界问题进行实体融合,去除抽取重复项信息,获得实体融合结果;
27.s46、针对实体融合结果进行实体增强,有效解决利用现有模型抽取后的实体结果无法修改的问题,只需通过自定义增强函数即可实现对实体抽取结果的反馈修改。
28.进一步地:所述实体增强的具体步骤为:
29.s461、输入一条实体抽取记录,获取实体类别;
30.s462、根据实体类别获取对应的实体增强函数;
31.s463、依次调用实体增强函数对该实体是否符合规则进行判断;
32.s464、当实体增强函数验证结果为该条实体记录需要修改,则记该条实体记录的状态值为true,直接在增强函数中进行修改并结束该步骤,若该条实体记录不合规需要进行删除,则记该条实体记录的状态值为false,并删除当前实体记录。
33.本发明的有益效果为:本发明以场景化和实体模式配置化的方式为核心进行实体抽取配置,应用人员可根据实际应用的具体任务灵活决定实体抽取应用场景、不同场景下实体抽取的类型、针对不同实体类型选择不同的抽取模型,简单易行,使得实体抽取模型不局限于某类实体或某类文本中,极大的增强了不同领域内实体抽取模型的扩展性和灵活性。
34.本发明采用联合抽取模型和实体融合的方法针对复杂多样的实体进行抽取。采用联合模型的方式能够吸纳不同模型的优势,充分实现抽取模型的互补性,通过定义的统一接入标准兼容实体抽取领域涉及的字典、规则模型、自训练的机器学习模型、深度学习模型以及开放域的三方模型,能够有效的解决现有实体抽取模型据局限性问题。通过实体融合
的方式,将利用联合模型抽取命名实体根据模型优先级进行合并处理,不仅能够提高模型抽取的准确性,而且也能有效规避因单一模型抽取的实体信息不全或实体抽取多字等问题。
35.本发明通过自定义实体增强的方法能够解决实体模型固化后抽取效果无法修正的问题。通过增强函数的方式,能够将某类实体抽取过程中经常出现的错误进行有效规避,实现在不改变现有模型的情况下进行快速修正模型,提升模型效果,从而提高实体抽取模型在工程中的实际应用价值。
附图说明
36.图1为命名实体识别流程图;
37.图2为命名实体识别联合模型配置图;
38.图3为命名实体识别实体增强流程图。
具体实施方式
39.下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
40.如图1所示,一种基于实体联合模型的军事领域命名实体识别方法,包括以下步骤:
41.s1、构建命名实体模型库,作为文本实体抽取应用配置的基础资源选项;
42.根据创建方式的不同,实体模型库包括字典模型、规则模型、学习模型、三方模型。字典模型通过领域内特有的业务字典以特定的格式进行保存,规则模型通过对领域内具有特征表达显著的实体进行规则定义,学习模型针对领域实体中的部分实体通过采用人工标注的形式训练机器学习模型或深度学习模型进行创建,三方模型通常是针对领域文本中常用的一些实体抽取通过对业内成熟的开源模型根据模型识别标准创建。创建完成的实体模型库作为文本实体抽取应用配置的基础资源选项。
43.s2、基于命名实体模型库创建应用配置,根据领域文本中描述的实体类型及其特征不同,个性化配置实体抽取模型;应用配置文件由三类标签组成,分别是service(应用服务)、bean(实体组件)、param(实体参数)。service标签用户唯一确定用户需要抽取的文本类型或应用场景名称,如"综合文本抽取"或"通用文本抽取",bean标签反应。
44.s3、根据应用配置和文本特点配置命名实体模板,如图2所示;
45.军事领域中的文本类型多样,不同的文本所表达的命名实体类别、特点也各有差异,为了能过支持对不同文本中命名实体的差异性识别,需要根据对文本特点配置命名实体模板。本发明提供的命名实体模板通过xml文件的形式配置和存储命名实体联合模型,主要由服务标签(service)、组件标签(bean)以及参数标签(param)三级构成。服务标签包含一个属性名称name,表示该利用该类联合模型进行实体抽取的适用文本场景;组件标签由desc和name两个属性组成,desc为当前配置实体的描述信息,反映所需抽取的实体说明,name表示当前需要抽取的实体标准名称,反映最终方法输出时的命名实体名称,如针对“军
兵种”、“军种”两类实体抽取模型抽取的实体最终以“军种”的标准名称进行输出;参数标签主要配置命名实体抽取时所用到到的各类模型,主要包括name、method、classname三个属性,name表示现有实体抽取模型中存在的命名实体名称,如字典模型中存在的“军兵种”实体,method表示当前实体抽取时所用到的模型类型,取值包括dic(字典)、rule(规则)、crf(crf模型)、self(自定义模型),通过配置不同的模型名称,在进行命名实体抽取时便会加载不同类型的模型,classname表示抽取模型运到的一些附加参数,如crf模型的模型路径名称,自定义模型的类路径等。
46.s4、根据命名实体模板对输入的军事领域文本数据进行命名实体识别。
47.主要包括六个步骤。第一,首先进行预处理,将输入的军事领域文本数据通过预处理进行规范化,预处理主要包括中文全半角转换、中英文标点符号统一、文本格式规范性操作等;第二进行文本分类,利用文本分类模型按照文本内容所表达的特征将现有文本进行分类,输出文本类型名称;第三,获取实体配置信息,根据第二步中的文本分类信息加载命名实体配置模板中的具体服务标签及对应的组件与参数配置信息;第四,根据命名实体配置信息,调用不同的模型分别对文本中的命名实体进行抽取,获得实体抽取结果,实体抽取结果中包含实体名称、实体类型、实体起始索引、实体抽取方式等信息;第五,针对不同模型抽取同类实体过程中可能出现的重复抽取或边界问题进行实体融合,去除抽取重复项信息,获得实体融合结果;第六,针对实体融合结果进行实体增强,实体增强方法能够有效解决利用现有模型抽取后的实体结果无法修改的问题,只需通过自定义增强函数即可实现对实体抽取结果的反馈修改,实体增强方法处理过程如下:
48.如图3所示,实体增强方法处理流程,针对实体抽取列表中的每一条实体记录:
49.1)输入一条实体抽取记录,获取实体类别;
50.2)根据实体类型获取对应的实体增强函数名称;
51.3)依次调用实体增强函数对该实体是否符合规则进行判断;
52.4)实体增强函数验证结果分为两种情况:
53.a)若该条实体记录需要修改(索引修改,实体内容修改,实体类型修改),实体记录的状态值为true,直接在增强函数中进行修改并返回;
54.b)若该条实体记录不合规需要进行删除,则记该条实体记录的状态值为 false并返回;
55.5)若实体记录的状态值为true,则流程结束;
56.6)若实体记录的状态值为false,则删除当前实体记录,实体检索索引-1;
57.其中,实体增强函数是由一系列自定义的方法构成,每个方法判断实体合规的某一种具体情况,如实体中是否包含标点符号,实体长度是否超过限制等。
58.实体增强函数实现了对命名实体抽取结果的自定义修改,解决了长期以来命名实体抽取结果依赖模型生成而无法修改结果的问题,通过实体增强方法能够有效解决在模型更新周期较长的情况下现有模型抽取实体出错的问题,提升命名实体抽取准确率。通过实体增强函数抽取的结果最终将作为军事领域文本中命名实体抽取结果输出。

技术特征:
1.一种基于实体联合模型的军事领域命名实体识别方法,其特征在于,包括以下步骤:s1、构建命名实体模型库;s2、基于命名实体模型库创建应用配置;s3、根据应用配置和文本特点配置命名实体模板;s4、根据命名实体模板对输入的军事领域文本数据进行命名实体识别。2.根据权利要求1所述的基于实体联合模型的军事领域命名实体识别方法,其特征在于,所述步骤s1中命名实体模型库包括字典模型、规则模型、学习模型和三方模型。3.根据权利要求2所述的基于实体联合模型的军事领域命名实体识别方法,其特征在于,所述字典模型通过特有的业务字典以特定的格式进行保存;所述规则模型通过对具有特征表达显著的实体进行规则定义;所述学习模型针对领域实体中的部分实体通过采用人工标注的形式训练机器学习模型或深度学习模型进行创建;所述三方模型针对领域文本中的实体抽取通过对业内成熟的开源模型根据模型识别标准创建。4.根据权利要求1所述的基于实体联合模型的军事领域命名实体识别方法,其特征在于,所述应用配置的文件由三类标签组成,分别是service应用服务标签、bean实体组件标签、param实体参数标签。5.根据权利要求4所述的基于实体联合模型的军事领域命名实体识别方法,其特征在于,所述service应用服务标签用于唯一确定用户需要抽取的文本类型或应用场景名称。6.根据权利要求1所述的基于实体联合模型的军事领域命名实体识别方法,其特征在于,所述命名实体模板通过xml文件的形式配置和存储命名实体联合模型,由service应用服务标签、bean实体组件标签以及param实体参数标签三级构成。7.根据权利要求1所述的基于实体联合模型的军事领域命名实体识别方法,其特征在于,所述应用服务标签包括一个属性名称name,表示利用该类联合模型进行实体抽取的适用文本场景;所述实体组件标签由desc和name两个属性组成,desc为当前配置实体的描述信息,反映所需抽取的实体说明,name表示当前需要抽取的实体标准名称,反映最终方法输出时的命名实体名称;所述实体参数标签配置命名实体抽取时所用到的各类模型,包括name、method、classname三个属性,name表示现有实体抽取模型中存在的命名实体名称,method表示当前实体抽取时所用到的模型类型,取值包括dic字典、rule规则、crf crf模型、self自定义模型,通过配置不同的模型名称,在进行命名实体抽取时便会加载不同类型的模型,classname表示抽取模型用到的一些附加参数,如crf模型的模型路径名称,自定义模型的类路径。8.根据权利要求1所述的基于实体联合模型的军事领域命名实体识别方法,其特征在于,所述步骤s4的具体步骤为:s41、将输入的军事领域文本数据通过预处理进行规范化;s42、利用文本分类模型按照文本内容所表达的特征将现有文本进行分类,输出文本类型名称;s43、获取实体配置信息,根据文本类型名称加载命名实体模板中的具体服务标签及对应的组件与参数配置信息;
s44、根据实体配置信息,调用不同的模型分别与文本中的命名实体进行抽取,获得实体抽取结果;s45、针对不同模型抽取同类实体过程中出现的重复抽取或边界问题进行实体融合,去除抽取重复项信息,获得实体融合结果;s46、针对实体融合结果进行实体增强,有效解决利用现有模型抽取后的实体结果无法修改的问题,只需通过自定义增强函数即可实现对实体抽取结果的反馈修改。9.根据权利要求8所述的基于实体联合模型的军事领域命名实体识别方法,其特征在于,所述实体增强的具体步骤为:s461、输入一条实体抽取记录,获取实体类别;s462、根据实体类别获取对应的实体增强函数;s463、依次调用实体增强函数对该实体是否符合规则进行判断;s464、当实体增强函数验证结果为该条实体记录需要修改,则记该条实体记录的状态值为true,直接在增强函数中进行修改并结束该步骤,若该条实体记录不合规需要进行删除,则记该条实体记录的状态值为false,并删除当前实体记录。

技术总结
本发明公开了一种基于实体联合模型的军事领域命名实体识别方法,包括以下步骤:S1、构建命名实体模型库;S2、基于命名实体模型库创建应用配置;S3、根据应用配置和文本特点配置命名实体模板;S4、根据命名实体模板对输入的军事领域文本数据进行命名实体识别。本发明以场景化和实体模式配置化的方式为核心进行实体抽取配置,应用人员可根据实际应用的具体任务灵活决定实体抽取应用场景、不同场景下实体抽取的类型、针对不同实体类型选择不同的抽取模型,简单易行,使得实体抽取模型不局限于某类实体或某类文本中,极大的增强了不同领域内实体抽取模型的扩展性和灵活性。实体抽取模型的扩展性和灵活性。实体抽取模型的扩展性和灵活性。


技术研发人员:朱瑞军
受保护的技术使用者:中国电子科技集团公司第十研究所
技术研发日:2022.06.14
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-139.html

最新回复(0)