1.本发明涉及一种命名实体识别技术,特别是一种基于小样本学习的环评领域命名实体识别技术。
背景技术:2.随着人工智能技术的快速发展,智能辅助写作技术已经广泛应用于人类生产生活的各个领域,例如合同自动生成、法律文书校对、作文纠错等。命名实体识别(named entity recognition,简称ner)作为自然语言处理技术的一个基本问题,是智能辅助写作系统的前置步骤和核心环节之一,负责从非结构化的文本中抽取具有特定意义的实体。其识别结果决定了智能辅助写作系统给出修改建议的准确性,从而直接影响用户对系统的满意度。在环境评价领域,由于需要预测的实体类型属于新类型,缺乏标注数据,大量人工标注样本价格昂贵,常规ner技术无法适用。
3.对于小样本ner技术,常用的方法分为两步。第一步,利用少量人工标记的样本作为监督信号,从大规模的未标记数据中获取有用的结构信息或伪标签信息,从而将未标记数据转化为可用数据。第二步,联合标注数据和转换后的数据训练ner模型。最常用的ner模型结构由预训练的编码器、双向长短时记忆网络(bi-directional long-short term memory,简称bilstm)和条件随机场(conditional random field,简称crf)构成。模型的具体训练方法有很多,根据第一步提取信息的方式和第二步训练的方法的不同,常用的方法可以分为以下三种:
4.方法一(参考论文:snell j,swersky k,zemel r.prototypical networks for few-shot learning[j].2017.):
[0005]
这种方法可被迁移到小样本ner任务,利用元学习解决小样本ner问题。该方案使用原型网络(prototypical network),假设相同实体类型的所有实体在表示空间中具有接近的嵌入向量距离,从而将这些向量的中心作为实体类型的嵌入向量表示。在预测阶段,通过比较单词的嵌入向量与候选实体类型的嵌入向量之间的距离,将距离最短的实体类型作为预测值。
[0006]
方法二(参考论文:jiang h,zhang d,cao t,et al.named entity recognition with small strongly labeled and large weakly labeled data[j].2021.):
[0007]
这种方法可被迁移到小样本ner任务,从数据角度解决小样本ner问题。该方案使用远程监督(distant supervision),基于一定的假设规则将未标注的数据转变为含有噪声的伪标签数据。为了保证模型的准确性,需要对伪标签数据进行去噪。最后,联合标注数据与伪标签数据,以监督学习的方式训练ner模型。
[0008]
方法三(参考:jiang h,zhang d,cao t,et al.named entity recognition with small strongly labeled and large weakly labeled data[j].2021.):
[0009]
这种方法可被迁移到小样本ner任务,从泛化性角度解决小样本ner问题。该方案使用自训练(self-training),可以分阶段、迭代地逐步提升模型的泛化性。在每轮迭代中,
使用高质量的样本保证教师(teacher)模型的准确度,然后将高质量样本和伪标签数据混合,并加入训练噪声,训练出泛化性更强的学生(student)模型。
[0010]
现有的小样本ner方法可以使用少量的标注样本,结合大规模的未标注语料进行联合训练,获得高精度的ner模型。但是它们的方案或基于某些过于简单化的假设,或对混合数据的使用方式比较单一,所以在环评领域等现实的应用场景中不能很好地应用。具体而言,对于基于元学习的方法,该方法假设属于同一实体类型的实体的嵌入向量在表示空间中是接近的。但是,在现实场景中,即使属于同一种实体类型,不同实体本身包含具体的语义,在表示空间的分布很难保证一定聚合在一起,因而无法保证最接近实体嵌入向量的实体类型就是它真正所属的实体类型。对于先转换伪标签数据再去噪的方法,这种方法基于有限的规则假设获得伪标签,规则往往严重缺失或部分偏颇。与真实标签相比,获得的伪标签数据可能存在分布偏移,即使去噪也无法从根本上纠正,从而可能严重影响学习模型的准确性。对于自训练方法,该方法用高精度数据迭代、分阶段地扩展伪标签数据,逐步提高模型的泛化能力,以减少可能出现的数据分布偏差。然而,这种方法受到筛选伪标签数据的过程的限制。常见的方法是计算标注数据分布与预测标记数据分布的差异作为置信度,只选择置信度高的数据参与下一阶段的训练。但是,人工标注数据的标签可能与真实分布不一致,导致置信度出现偏差,严重影响学习模型的准确性。
技术实现要素:[0011]
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于小样本学习的环评领域命名实体识别技术。
[0012]
为了解决上述技术问题,本发明公开了一种基于小样本学习的环评领域命名实体识别技术,包括以下步骤:
[0013]
步骤1,获取环评领域文件中的语料,对语料进行预处理;对预处理后的语料进行人工标注,对每种实体类型至少标注10个样本,得到人工标注样本和未标注样本;
[0014]
步骤2,人工收集并整理环评领域中的实体,以词表的形式保存到实体库;对实体库进行扩充;
[0015]
步骤3,建立命名实体识别(named entity recognition,ner)模型(参考:参考论文:luo y,xiao f,zhao h.hierarchical contextualized representation for named entity recognition[j].2019.),所述模型由预训练编码器、双向长短时记忆网络bilstm和条件随机场crf构成;其中,预训练编码器的获取方法包括:获取通用领域预训练好的编码器,在环评领域对语料进行预训练,得到预训练编码器;
[0016]
步骤4,利用人工标注样本和未标注样本分阶段训练命名实体识别ner模型;得到训练好的命名实体识别ner模型;
[0017]
步骤5,在预测阶段,利用扩充后的实体库修正命名实体识别ner模型的预测结果;得到最终识别结果,完成基于小样本学习的环评领域命名实体识别。
[0018]
本发明步骤1中,对语料进行预处理的方法包括:
[0019]
对语料进行预处理:删除语料中不完整的语句,清理语料中包含公式的复杂结构的语句,对语料去重并统一转换编码;人工筛选语料,如果包含目标实体类型的实体则保留备用,否则取下一条语料,直到每种目标实体类型都筛选出至少10条语料。
[0020]
步骤1中,对预处理后的语料进行人工标注的方法包括:
[0021]
对预处理后的语料进行人工标注:人工标注经过预处理得到的语料,采用bio方式(bio是一种标注方法,将每个词标注为b-x、i-x或o。其中,b-x代表实体x的开头,i-x代表实体x的其余部分,o代表不属于任何实体。)进行标注(参考:参考论文:sang e f t k,de meulder f.introduction to the conll-2003shared task:language-independent named entity recognition[j].arxiv,2003.),标注好的语料即为所述人工标注样本,未标注的语料即为所述未标注样本。
[0022]
步骤2中,对实体库进行扩充的方法包括:
[0023]
步骤2-1,从实体库中获取实体t,构建实体词表t;
[0024]
步骤2-2,从步骤1中得到的未标注样本中随机筛选足量(足量指满足扩充实体库需要的样本数。假设预期将实体库扩充k倍,则需要随机筛选5k的样本构成样本集s)的句子作为样本集s,样本集s中包含样本s;对照实体词表t,计算样本s中包含实体的数量,并按照数量将样本集中所有的样本从大到小排序;选择前k个样本构造实体扩充的原样本集s
′
;
[0025]
步骤2-3,对原样本集s
′
中的样本s
′
做数据增强,通过同义词替换及回译的方法,得到增强后的样本s
′
p
;计算s
′
p
的困惑度以及与原样本s
′
的余弦相似度,仅当s
′
p
的困惑度低于阈值s
ppl
且与原样本的余弦相似度高于阈值s
sim
时,s
′
p
作为合格的增强样本保留备用,否则丢弃;
[0026]
步骤2-4,对比合格的增强样本s
′
p
与原样本s
′
,考察发生改动的连续文字区域t
span
,计算t
span
的词性,若词性为名词的概率高于阈值p
noun
,则表示t
span
是一个新实体,将增强样本s
′
p
与原样本s
′
保存到介质中备用,并将t
span
加入实体库;
[0027]
对原样本集s
′
中所有样本进行步骤2-3和步骤2-4的操作。
[0028]
步骤3中,预训练编码器的获取方法包括:
[0029]
步骤3-1,获取通用领域预训练好的编码器encoder
pre
,进行预训练任务,即使用步骤1中所述预处理后的语料对通用领域预训练好的编码器继续预训练2轮,将预训练好的编码器encoder
cont
保存备用。
[0030]
步骤3中,预训练编码器的获取方法包括:
[0031]
步骤3-2,获取步骤2中得到的原样本集合s
′
和增强样本集合s
′
p
,对步骤3-1中保存的预训练好的编码器encoder
cont
,使用屏蔽实体语言建模(masked entity language modeling,简称masked entity)任务预训练2轮,即按照屏蔽语言建模masked lm((masked language modeling,简称masked lm))策略屏蔽实体再预测出实体(参考:devlin j,chang m w,lee k,et al.bert:pre-training of deep bidirectional transformers for language understanding[j].2018.),向预训练好的编码器中注入实体语义知识;得到预训练编码器encoder
entity
。
[0032]
步骤3中,预训练编码器的获取方法包括:
[0033]
步骤3-3,使用步骤3-2中得到的预训练编码器encoder
entity
与双向长短时记忆网络bilstm和条件随机场crf组装成命名实体识别ner模型;使用人工标注样本,在训练阶段将实体的嵌入向量拼接到人工标注样本的嵌入向量上,使用监督训练的方法微调整个命名实体识别ner模型,其中损失函数为负对数似然损失。
[0034]
步骤4中,利用人工标注样本和未标注样本分阶段训练命名实体识别ner模型的方
法包括:
[0035]
步骤4-1,获取人工标注样本s
fewsh
,每种实体类型选取对应样本10条,构造标注的小样本训练集从步骤1中所述未标注样本中选取语句(按照标注的样本量从语料中随机选取5倍的未标注样本,不需要特殊处理。),构造未标注的训练集
[0036]
步骤4-2,使用小样本训练集以监督学习的方法训练ner模型,训练好的模型作为教师模型,保存备用;
[0037]
步骤4-3,在未标注训练集上,以教师模型进行预测,生成伪标签,构成伪标签数据集合s
pseudo
;对s
pseudo
中的每条伪标签数据s
pseudo
计算置信度(一种常见的置信度衡量方法是比较标注的实体标签分布与预测标签分布之间的kl散度(kullback-leibler divergence),),并将伪标签数据按照置信度从大到小排序;选取前n个置信度高的伪标签数据加入标注数据集得到扩充标注数据集;其中,n的取值与训练教师模型的大小的比例为3到5倍;
[0038]
步骤4-4,复制教师模型的结构和网络参数得到学生模型,获取扩充标注数据集,引入噪声训练学生模型,引入的噪声为训练学生模型时的梯度噪声,或者对训练数据进行插入、打乱以及删除操作后引入的数据噪声;
[0039]
步骤4-5,将学生模型作为下一轮迭代的教师模型,重复步骤4-2至步骤4-4,训练出新的学生模型,迭代2轮或3轮后得到的学生模型作为最终的命名实体识别ner模型。
[0040]
步骤5中,利用实体库修正命名实体识别ner模型的预测结果的方法包括:
[0041]
步骤5-1,输入待预测实体的目标样本s
pred
,使用训练好的命名实体识别ner模型预测,得到候选的实体t
cand
。
[0042]
步骤5中,利用实体库修正命名实体识别ner模型的预测结果的方法包括:
[0043]
步骤5-2,获取实体库中的实体与候选实体t
cand
进行对比,计算与候选实体t
cand
重合比例最大的实体t
po
以及对应的重合比例p
overlap
;若p
overlap
大于阈值s
po
,且实体t
po
在s
pred
中存在,则修正模型的预测结果为t
po
;否则不修正,预测结果仍为t
cand
;完成基于小样本学习的环评领域命名实体识别。
[0044]
有益效果:
[0045]
从技术层面来说,本发明的技术方案(1)除了使用人工标注的少量样本,还使用收集的实体库指导训练ner模型,并利用算法自动从语料扩充实体库,以较小代价为模型训练提供更多的监督信息;(2)使用多种辅助任务预训练编码器,向编码器中注入环评领域专有知识、实体知识,并使用人工标注的少量样本微调ner模型,使实体经过编码器编码后得到的嵌入向量表示包含更多的语义信息,从而对环评领域的ner任务更有效;(3)通过自训练综合利用人工标注的少量样本和未标注的样本,迭代式、分阶段训练ner模型。该方法可以充分利用标注样本中的监督信息和未标注样本的语义信息,有效提升了模型的泛化性。同时,该方法也能限制每轮迭代中的伪标签数据分布偏移的程度,防止引入过量噪声降低模型的准确性;(4)使用实体库修正模型的预测结果,进一步提升了最终预测结果的准确性。
[0046]
从应用层面来说,本发明的技术方案(1)通过引用人工成本较低的实体库辅助人工成本较高的标注样本,在为模型提供等量监督信息的条件下能够显著减少需要的人工标
注样本数量,节省大量人工成本。(2)可以自动化地利用大规模未标注语料扩充实体库,大幅减少维护实体库完整性所需的人工成本。(3)使用可迭代的自训练方法,支持从增量的数据上继续训练模型,不需要从头开始训练,从而有助于随时间发展及时更新维护模型,提升模型的识别能力。
附图说明
[0047]
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
[0048]
图1为本发明总体流程示意图。
[0049]
图2为本发明中实体库扩充过程示意图。
[0050]
图3为本发明中编码器预训练过程示意图。
[0051]
图4为本发明中自训练过程示意图。
[0052]
图5为本发明中模型输出的修正过程示意图。
具体实施方式
[0053]
下面结合附图对具体实施例进行描述,本文实施了一个在环评领域综合利用人工标注的少量样本和人工整理实体库的训练ner模型的方法,其中ner模型采用最常用的结构,即由预训练编码器、bilstm和crf构成。如图1所示,具体步骤描述如下:
[0054]
步骤101,利用网络爬虫从政府网站和环评交流论坛下载环评申请书、审议文件等附件。打开文档,读取纯文本内容,只保留长度大于10的语句构建语料;预处理语料,删除不完整的语句,清理包含公式等复杂结构的语句,去重、统一转换编码后存储到介质中;从介质中读取环评领域语料,人工筛选语料,如果包含目标实体类型的实体则保留备用,否则取下一条语料,直到每种目标实体类型都筛选出至少10条语料;人工标注筛选出的语料,采用bio方式进行标注,标注好的语料即人工标注的少量样本。bio是一种常用的标注方法,将每个词标注为b-x、i-x或o。其中,b-x代表实体x的开头,i-x代表实体x的其余部分,o代表不属于任何实体。
[0055]
步骤102,由环评领域的业务专家尽可能多收集、整理环评领域常用的实体,以词表的形式保存到实体库;使用算法自动扩充实体库的流程,如图2所示:
[0056]
步骤201,从实体库读取专家收集的实体t,构建实体词表t。
[0057]
步骤202,从环评文件语料库中随机筛选句子构造样本集s,假设预期将实体库扩充k倍,则需要随机筛选5k的样本构成样本集s;对照实体词表t,计算样本s中包含实体的数量,并按照包含实体的数量对样本集s中的所有样本从大到小排序;选择前k个样本构造实体扩充的原样本集s
′
。
[0058]
步骤203,对原样本集s
′
中的样本s
′
做数据增强,例如使用同义词替换、回译等方法,得到增强后的样本s
′
p
;计算s
′
p
的困惑度以及与原样本s
′
的余弦相似度,仅当s
′
p
的困惑度低于阈值s
ppl
且与原样本的余弦相似度高于阈值s
sim
时,s
′
p
作为合格的增强样本保留备用,否则丢弃。
[0059]
步骤204,对比合格的增强样本s
′
p
与原样本s
′
,考察发生改动的连续文字区域t
span
,计算t
span
的词性,若词性为名词的概率高于阈值p
noun
,则认为t
span
是一个新实体,将增
强样本s
′
p
与原样本s
′
保存到介质中备用,并将t
span
加入实体库。对原样本集中所有样本进行步骤203和步骤204的操作。
[0060]
步骤103,本实施例中ner模型采用最通用的结构,即由预训练编码器、bilstm和crf构成。本步骤获取通用领域预训练好的编码器,在环评领域语料上预训练。编码器预训练的步骤,如图3所示:
[0061]
步骤301,从开源网站下载通用领域预训练好的编码器encoder
pre
,例如从https://huggingface.co/下载中文bert作为encoder
pre
,使用屏蔽语言建模(masked language modeling,简称masked lm)预训练任务在预处理后的环评领域语料上继续预训练2轮,从而学习环评领域的专有知识。将预训练好的编码器encoder
cont
保存备用。
[0062]
步骤302,获取实体库扩充阶段保存的原样本集合s
′
和增强样本集合s
′
p
,获取上个步骤中保存的编码器encoder
cont
,使用屏蔽实体语言建模(masked entity language modeling,简称masked entity)任务预训练2轮,即按照masked lm类似的策略屏蔽实体再预测出实体,目的是向预训练的编码中注入实体语义知识。将预训练好的编码器encoder
entity
保存备用。
[0063]
步骤303,使用上个步骤预训练好的编码器encoder
entity
与bilstm、crf组装成ner模型。获取人工标注的少量样本,在训练阶段将实体的嵌入向量拼接到样本嵌入向量上,使用监督训练的方法微调整个ner模型,其中损失函数为负对数似然损失(negative log-likelihood loss,nll loss)。微调1轮或2轮后保存此时的编码器encoder
final
,作为最终的编码器备用。
[0064]
步骤104,综合利用人工标注样本和未标注样本迭代地分阶段训练ner模型的自训练过程,如图4所示:
[0065]
步骤401,获取人工标注的少量样本s
fewshot
,每种实体类型选取对应样本10条,保证样本均衡性,构造标注的小样本训练集按照已标注的样本量从环评领域语料中随机选取5倍的未标注样本,构造未标注的训练集
[0066]
步骤402,使用上个步骤构造的小样本训练集以监督学习的方法训练ner模型,模型采用最常用的结构,即由预训练编码器、bilstm和crf构成。训练好的模型作为教师模型,保存备用。
[0067]
步骤403,在上个步骤构造的未标注训练集上,以教师模型预测,生成伪标签,构成伪标签数据集合s
pseudo
;对s
pseudo
每条伪标签数据s
pseudo
计算置信度,一种常见的置信度衡量方法是比较标注的实体标签分布与预测标签分布之间的kl散度(kullback-leibler divergence),并将伪标签数据按照置信度从大到小排序;选取前n个置信度高的伪标签数据加入标注数据集从而扩充了标注数据集。其中,n的取值与训练教师模型的大小成比例,例如可以取3到5倍。
[0068]
步骤404,复制教师模型的结构和网络参数得到学生模型,获取上个步骤扩充的标注数据集引入噪声训练学生模型,得到泛化性能更强的模型。引入的噪声可以是训练时的梯度噪声,或者对训练数据插入、打乱以及删除引入的数据噪声。
[0069]
步骤405,将学生模型作为下一轮迭代的教师模型,重复步骤402、403、404训练出新的学生模型,可迭代2轮或3轮,得到的学生模型作为最终的ner模型。
[0070]
步骤105,在预测阶段,实际预测结果为实体库修正后的ner模型预测结果。修正过程,如图5所示:
[0071]
步骤501,输入待预测实体的样本s
pred
,使用训练好的ner模型预测,得到候选的实体t
cand
。
[0072]
步骤502,获取实体库中的实体与候选实体t
cand
对比,计算候选实体t
cand
重合比例最大的实体t
po
以及对应的重合比例p
overlap
。若p
overlap
大于一定的阈值s
po
,且实体t
po
在s
pred
中存在,则修正模型的预测结果为t
po
;否则不修正,预测结果仍为t
cand
。
[0073]
具体实现中,本技术提供计算机存储介质以及对应的数据处理单元,其中,该计算机存储介质能够存储计算机程序,所述计算机程序通过数据处理单元执行时可运行本发明提供的一种基于小样本学习的环评领域命名实体识别技术的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0074]
本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来,该计算机程序软件产品可以存储在存储介质中,包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机,服务器,单片机。muu或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0075]
本发明提供了一种基于小样本学习的环评领域命名实体识别技术的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
技术特征:1.一种基于小样本学习的环评领域命名实体识别技术,其特征在于,包括以下步骤:步骤1,获取环评领域文件中的语料,对语料进行预处理;对预处理后的语料进行人工标注,对每种实体类型至少标注10个样本,得到人工标注样本和未标注样本;步骤2,人工收集并整理环评领域中的实体,以词表的形式保存到实体库;对实体库进行扩充;步骤3,建立命名实体识别ner模型,所述模型由预训练编码器、双向长短时记忆网络bilstm和条件随机场crf构成;其中,预训练编码器的获取方法包括:获取通用领域预训练好的编码器,在环评领域对语料进行预训练,得到预训练编码器;步骤4,利用人工标注样本和未标注样本分阶段训练命名实体识别ner模型;得到训练好的命名实体识别ner模型;步骤5,在预测阶段,利用扩充后的实体库修正命名实体识别ner模型的预测结果;得到最终识别结果,完成基于小样本学习的环评领域命名实体识别。2.根据权利要求1所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤1中,对语料进行预处理的方法包括:对语料进行预处理:删除语料中不完整的语句,清理语料中包含公式的复杂结构的语句,对语料去重并统一转换编码;人工筛选语料,如果包含目标实体类型的实体则保留备用,否则取下一条语料,直到每种目标实体类型都筛选出至少10条语料。3.根据权利要求2所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤1中,对预处理后的语料进行人工标注的方法包括:对预处理后的语料进行人工标注:人工标注经过预处理得到的语料,采用bio方式进行标注,标注好的语料即为所述人工标注样本,未标注的语料即为所述未标注样本。4.根据权利要求3所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤2中,对实体库进行扩充的方法包括:步骤2-1,从实体库中获取实体t,构建实体词表t;步骤2-2,从步骤1中得到的未标注样本中随机筛选句子作为样本集s,样本集s中包含样本s;对照实体词表t,计算样本s中包含实体的数量,并按照数量将样本集中所有的样本从大到小排序;选择前k个样本构造实体扩充的原样本集s
′
;步骤2-3,对原样本集s
′
中的样本s
′
做数据增强,通过同义词替换及回译的方法,得到增强后的样本s
′
p
;计算s
′
p
的困惑度以及与原样本s
′
的余弦相似度,仅当s
′
p
的困惑度低于阈值s
ppl
且与原样本的余弦相似度高于阈值s
sim
时,s
′
p
作为合格的增强样本保留备用,否则丢弃;步骤2-4,对比合格的增强样本s
′
p
与原样本s
′
,考察发生改动的连续文字区域t
span
,计算t
span
的词性,若词性为名词的概率高于阈值p
noun
,则表示t
span
是一个新实体,将增强样本s
′
p
与原样本s
′
保存到介质中备用,并将t
span
加入实体库;对原样本集s
′
中所有样本进行步骤2-3和步骤2-4的操作。5.根据权利要求4所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤3中,预训练编码器的获取方法包括:步骤3-1,获取通用领域预训练好的编码器encoder
pre
,进行预训练任务,即使用步骤1中所述预处理后的语料对通用领域预训练好的编码器继续预训练2轮,将预训练好的编码
器encoder
cont
保存备用。6.根据权利要求5所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤3中,预训练编码器的获取方法包括:步骤3-2,获取步骤2中得到的原样本集合s
′
和增强样本集合s
′
p
,对步骤3-1中保存的预训练好的编码器encoder
cont
,使用屏蔽实体语言建模任务预训练2轮,即按照屏蔽语言建模masked lm策略屏蔽实体再预测出实体,向预训练好的编码器中注入实体语义知识;得到预训练编码器encoder
entity
。7.根据权利要求6所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤3中,预训练编码器的获取方法包括:步骤3-3,使用步骤3-2中得到的预训练编码器encoder
entity
与双向长短时记忆网络bilstm和条件随机场crf组装成命名实体识别ner模型;使用人工标注样本,在训练阶段将实体的嵌入向量拼接到人工标注样本的嵌入向量上,使用监督训练的方法微调整个命名实体识别ner模型,其中损失函数为负对数似然损失。8.根据权利要求7所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤4中,利用人工标注样本和未标注样本分阶段训练命名实体识别ner模型的方法包括:步骤4-1,获取人工标注样本s
fewsh
,每种实体类型选取对应样本10条,构造标注的小样本训练集从步骤1中所述未标注样本中选取语句,构造未标注的训练集步骤4-2,使用小样本训练集以监督学习的方法训练ner模型,训练好的模型作为教师模型,保存备用;步骤4-3,在未标注训练集上,以教师模型进行预测,生成伪标签,构成伪标签数据集合s
pseudo
;对s
pseudo
中的每条伪标签数据s
pseudo
计算置信度,并将伪标签数据按照置信度从大到小排序;选取前n个置信度高的伪标签数据加入标注数据集得到扩充标注数据集;其中,n的取值与训练教师模型的大小的比例为3到5倍;步骤4-4,复制教师模型的结构和网络参数得到学生模型,获取扩充标注数据集,引入噪声训练学生模型,引入的噪声为训练学生模型时的梯度噪声,或者对训练数据进行插入、打乱以及删除操作后引入的数据噪声;步骤4-5,将学生模型作为下一轮迭代的教师模型,重复步骤4-2至步骤4-4,训练出新的学生模型,迭代2轮或3轮后得到的学生模型作为最终的命名实体识别ner模型。9.根据权利要求8所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤5中,利用实体库修正命名实体识别ner模型的预测结果的方法包括:步骤5-1,输入待预测实体的目标样本s
pred
,使用训练好的命名实体识别ner模型预测,得到候选的实体t
cand
。10.根据权利要求9所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤5中,利用实体库修正命名实体识别ner模型的预测结果的方法包括:步骤5-2,获取实体库中的实体与候选实体t
cand
进行对比,计算与候选实体t
cand
重合比例最大的实体t
po
以及对应的重合比例p
overlap
;若p
overlap
大于阈值s
po
,且实体t
po
在s
pred
中存在,则修正模型的预测结果为t
po
;否则不修正,预测结果仍为t
cand
;完成基于小样本学习的
环评领域命名实体识别。
技术总结本发明公开了一种基于小样本学习的环评领域命名实体识别技术,包括:获取环评领域文件中的语料并预处理;对预处理后的语料进行人工标注,得到人工标注样本和未标注样本;人工收集并整理环评领域中的实体,以词表的形式保存到实体库;对实体库进行扩充;建立命名实体识别模型;利用人工标注样本和未标注样本分阶段训练命名实体识别模型;得到训练好的命名实体识别模型;在预测阶段,利用扩充后的实体库修正命名实体识别模型的预测结果。本发明综合利用少量人工标注样本和人工整理的实体库作为监督信号,分阶段逐步扩展伪标签数据,利用混合数据提高模型的泛化能力,以较少的人工标注的数据即可训练出较为高效的NER模型。注的数据即可训练出较为高效的NER模型。注的数据即可训练出较为高效的NER模型。
技术研发人员:张建兵 王久亮 褚有刚 黄书剑 戴新宇 陈家骏
受保护的技术使用者:南京大学
技术研发日:2022.07.21
技术公布日:2022/11/1