一种识别实体的方法、装置及电子设备与流程

专利2023-03-26  131



1.本技术涉及人工智能技术领域,尤其涉及一种识别实体的方法、装置及电子设备。


背景技术:

2.知识图谱作为一种语义网络,以数据结构图的形式描述实体与实体之间的关系。其中,实体可以是人、地方、组织、机构等等,关系可以是人与人之间的关系,人与组织的关系,组织与机构的关系等等。为构建如前所述的知识图谱,强化语义网络,需要在文本中进行实体抽取,并确定、建立实体与实体之间的关系。其中,实体抽取又称作命名实体识别(named entity recognition,ner),指识别文本中具有特定意义的实体,并标记出实体的位置和类别,进而抽取该实体的技术。
3.因此,在构建或补充知识图谱过程中,不论是实体抽取阶段,还是建立实体间关系阶段,都需要正确识别实体,并确定实体含义。目前,知识图谱的表达能力仍然较为简单,原因之一在于不能准确识别实体及实体含义,尤其是具有多重含义的实体,这导致实体识别错误率高,进而导致实体抽取准确率低的问题。


技术实现要素:

4.本技术提供了一种识别实体的方法、装置及电子设备,用以提升在文本中识别实体及实体含义的准确率。
5.第一方面,本技术提供一种识别实体的方法,包括:
6.通过实体识别模型确定指示所述待识别文本的待识别向量;其中,所述待识别向量包括待识别元素,所述待识别元素对应于所述待识别文本中的待识别词组;所述实体识别模型包括所述待识别词组与所述待识别元素之间的对应关系,所述待识别词组中目标词组与实体之间的对应关系,以及所述实体与实体含义之间的对应关系;
7.在所述待识别向量中,基于任一待识别元素与其它待识别元素之间的关系,在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义;其中,所述目标元素为对应于所述目标词组的待识别元素,所述目标含义指示所述目标词组在所述待识别文本中的含义;
8.确定所述目标元素指示的所述目标词组为实体,及所述目标含义为实体含义。
9.上述申请实施例中通过将待识别文本转化为包括待识别元素的待识别向量,该待识别元素对应于待识别文本的待识别词组,进而基于任一待识别元素与其它待识别元素的关系,在待识别向量中确定指示目标词组的待识别元素为目标元素,并确定该目标元素的目标含义为实体含义,即首先通过将待识别文本中的词组准确地划分,继而基于词组上下文语境,确定待识别文本中指示实体词组的目标词组,从而提升识别实体及实体含义的准确性。
10.一种可能的实施方式,所述实体识别模型包括bert模型,
11.则所述通过实体识别模型确定指示待识别文本的待识别向量,包括:
12.通过所述bert模型,针对所述待识别文本进行划分,确定所述待识别文本中的词组,以及对应于所述词组的词组向量和词性向量;其中,所述词组向量包括,指示所述词组的词组元素;所述词组元素的顺序与所述词组在所述待识别文本中的顺序一致;所述词性向量包括,指示所述词组词性的词性元素;所述词性元素的顺序与所述词组元素的顺序一致;
13.将所述词组向量和所述词性向量拼接,得到待识别向量;其中,所述待识别向量中的待识别元素指示,所述词组元素和对应于所述词组元素的所述词性元素。
14.一种可能的实施方式,所述在所述待识别向量中,基于任一待识别元素与其它所述待识别元素之间的关系,在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义,包括:
15.基于所述其它待识别元素所指示的词组元素和词性元素,以及所述其它待识别元素与所述任一待识别元素之间的位置关系,在所述待识别元素中确定所述目标元素,以及所述目标元素的候选含义;
16.将所述候选含义的数量以及所述待识别元素的数量导入分类器函数,确定每一所述候选含义的候选概率;
17.确定所述候选概率的值最大的所述候选含义为所述目标含义。
18.一种可能的实施方式,所述实体识别模型包括bilstm模型,
19.则所述基于所述其它待识别元素所指示的词组元素和词性元素,以及所述其它待识别元素与所述任一待识别元素之间的位置关系,在所述待识别元素中确定所述目标元素,以及所述目标元素的候选含义,包括:
20.将所述待识别向量正向输入所述bilstm模型中的前向lstm模型,得到第一中间向量;
21.将所述待识别向量反向输入所述bilstm模型中的后向lstm模型,得到第二中间向量;
22.将所述第一中间向量和第二中间向量融合,得到第三中间向量;
23.在第三中间向量中,基于任一中间元素的前向参考元素和后向参考元素,确定对应于所述目标元素的中间目标元素,以及所述中间目标元素的候选含义;其中,所述前向参考元素为,在所述第三中间向量中位于所述任一中间元素之前影响所述任一中间元素含义的元素;所述后向参考元素为,在所述第三中间向量中位于所述任一中间元素之后影响所述任一中间元素含义的元素。
24.一种可能的实施方式,所述实体识别模型通过如下方式训练得到:
25.基于分词模型处理测试文本,得到与所述测试文本对应的训练文本;其中,所述测试文本包括至少一个对应于所述实体的实体词组,所述分词模型包括词义语料库,所述训练文本包括所述测试文本中的预设词组、所述预设词组的预设词性、以及所述预设词组中对应于所述实体词组的预设实体含义;
26.将所述训练文本输入所述待训练模型,得到训练词组向量、训练词性向量,训练向量、训练实体元素的含义;其中,所述训练词组向量包括对应于所述训练文本中训练词组的训练词组元素,所述训练词性向量包括,指示所述训练词组词性的训练词性元素;所述训练向量包括,指示所述训练词组元素和所述训练词性元素的训练元素;所述训练实体元素的
含义指示基于所述待训练模型中的语料库所确定的训练实体元素的含义,所述训练实体元素指示所述实体词组;
27.确定所述训练词组向量与对应于所述预设词组的预设词组向量之间的第一误差,所述训练词性向量与对应于所述预设词性的预设词性向量之间的第二误差,所述训练向量与预设向量之间的第三误差,所述训练实体元素的含义与所述预设实体含义之间的第四误差;
28.基于所述第一误差,所述第二误差,所述第三误差,和所述第四误差,调整所述待训练模型的参数,直到所述第一误差、第二误差、第三误差、和第四误差均低于误差阈值,得到所述实体识别模型。
29.第二方面,本技术提供一种识别实体的装置,包括:
30.向量单元:用于通过实体识别模型确定指示待识别文本的待识别向量;其中,所述待识别向量包括待识别元素,所述待识别元素对应于所述待识别文本中的待识别词组;所述实体识别模型包括所述待识别词组与所述待识别元素之间的对应关系,所述待识别词组中目标词组与实体之间的对应关系,以及所述实体与实体含义之间的对应关系;
31.目标单元:用于在所述待识别向量中,基于任一待识别元素与其它待识别元素之间的关系,在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义;其中,所述目标元素为对应于所述目标词组的待识别元素,所述目标含义指示所述目标词组在所述待识别文本中的含义;
32.实体单元:用于确定所述目标元素所指示的所述目标词组为实体,及所述目标含义为实体含义。
33.一种可能的实施方式,所述实体识别模型包括bert模型,则所述向量单元具体用于通过所述bert模型,针对所述待识别文本进行划分,确定所述待识别文本中的词组,以及对应于所述词组的词组向量和词性向量;其中,所述词组向量包括,指示所述词组的词组元素;所述词组元素的顺序与所述词组在所述待识别文本中的顺序一致;所述词性向量包括,指示所述词组词性的词性元素;所述词性元素的顺序与所述词组元素的顺序一致;将所述词组向量和所述词性向量拼接,得到待识别向量;其中,所述待识别向量中的待识别元素指示,所述词组元素和对应于所述词组元素的所述词性元素。
34.一种可能的实施方式,所述目标单元具体用于基于所述其它待识别元素所指示的词组元素和词性元素,以及所述其它待识别元素与所述任一待识别元素之间的位置关系,在所述待识别元素中确定所述目标元素,以及所述目标元素的候选含义;将所述候选含义的数量以及所述待识别元素的数量导入分类器函数,确定每一所述候选含义的候选概率;确定所述候选概率的值最大的所述候选含义为所述目标含义。
35.一种可能的实施方式,所述实体识别模型包括bilstm模型,则所述目标单元还用于将所述待识别向量正向输入所述bilstm模型中的前向lstm模型,得到第一中间向量;
36.将所述待识别向量反向输入所述bilstm模型中的后向lstm模型,得到第二中间向量;将所述第一中间向量和第二中间向量融合,得到第三中间向量;在第三中间向量中,基于任一中间元素的前向参考元素和后向参考元素,确定对应于所述目标元素的中间目标元素,以及所述中间目标元素的候选含义;其中,所述前向参考元素为,在所述第三中间向量中位于所述任一中间元素之前影响所述任一中间元素含义的元素;所述后向参考元素为,
在所述第三中间向量中位于所述任一中间元素之后影响所述任一中间元素含义的元素。
37.一种可能的实施方式,所述装置还包括训练单元,所述训练单元具体用于基于分词模型处理测试文本,得到与所述测试文本对应的训练文本;其中,所述测试文本包括至少一个对应于所述实体的实体词组,所述分词模型包括词义语料库,所述训练文本包括所述测试文本中的预设词组、所述预设词组的预设词性、以及所述预设词组中对应于所述实体词组的预设实体含义;
38.将所述训练文本输入所述待训练模型,得到训练词组向量、训练词性向量,训练向量、训练实体元素的含义;其中,所述训练词组向量包括对应于所述训练文本中训练词组的训练词组元素,所述训练词性向量包括,指示所述训练词组词性的训练词性元素;所述训练向量包括,指示所述训练词组元素和所述训练词性元素的训练元素;所述训练实体元素的含义指示基于所述待训练模型中的语料库所确定的训练实体元素的含义,所述训练实体元素指示所述实体词组;确定所述训练词组向量与对应于所述预设词组的预设词组向量之间的第一误差,所述训练词性向量与对应于所述预设词性的预设词性向量之间的第二误差,所述训练向量与预设向量之间的第三误差,所述训练实体元素的含义与所述预设实体含义之间的第四误差;基于所述第一误差,所述第二误差,所述第三误差,和所述第四误差,调整所述待训练模型的参数,直到所述第一误差、第二误差、第三误差、和第四误差均低于误差阈值,得到所述实体识别模型。
39.第三方面,本技术提供一种可读存储介质,包括,
40.存储器,
41.所述存储器用于存储指令,当所述指令被处理器执行时,使得包括所述可读存储介质的装置完成如第一方面及任一种可能的实施方式所述的方法。
42.第四方面,本技术提供一种电子设备,包括:
43.存储器,用于存放计算机程序;
44.处理器,用于执行所述存储器上所存放的计算机程序时,以实现如第一方面及任一种可能的实施方式所述的方法。
附图说明
45.图1为本技术实施例所提供的一种识别实体的方法的流程示意图;
46.图2为本技术实施例所提供的待训练模型的结构示意图;
47.图3为本技术实施例中所提供的基于实体模型识别待识别文本的示意图;
48.图4为本技术实施例提供的一种识别实体的装置的结构示意图;
49.图5为本技术实施例提供的一种识别实体的电子设备的结构示意图。
具体实施方式
50.针对现有技术中识别实体及实体含义准确率低的问题,本技术提出一种识别实体方法:基于实体识别模型,首先准确划分待识别文本中词组,基于词组的上下文关系,即位于待识别词组之前的词组,以及位于待识别词组之后的词组,识别待识别文本中指示实体的目标词组,以及目标词组在待识别文本中的目标含义。
51.上述申请实施例中所提供的文本中实体的识别方法,在实体识别模型中通过结合
上下文语义进行双向语义识别,避免仅基于时序识别所导致的无法准确识别实体及实体含义的问题。
52.为了更好的理解上述技术方案,下面通过附图以及具体实施例对本技术技术方案做详细的说明,应当理解本技术实施例以及实施例中的具体特征是对本技术技术方案的详细的说明,而不是对本技术的技术方案的限定,在不冲突的情况下,本技术实施例以及实施例中的技术特征可以相互组合。
53.请参考图1,本技术提出一种识别实体的方法,用以提升识别实体及实体含义的准确性,该方法具体包括以下实现步骤:
54.步骤101:通过实体识别模型确定指示待识别文本的待识别向量。
55.其中,待识别向量包括待识别元素,待识别元素对应于待识别文本中的待识别词组,所述实体识别模型包括所述待识别词组与所述待识别元素之间的对应关系,所述待识别词组中目标词组与实体之间的对应关系,以及所述实体与实体含义之间的对应关系。
56.实际上,对于任一实体来说,尤其是指示某一实体的歧义词组,上述对应关系并非一一对应的。例如,词组“机关”,所指示的含义可以是:机械中的某个部分;办理事项的部门;计谋;或者用机械控制的某种装置
……
当词组“机关”指示“办理事项的部门”时,可作为实体。当词组“机关”指示“机关”时,则可以在知识图谱中不作为实体。因此,对于待识别文本中任一词组来说,在确定某一词组为实体后,还需在多个候选含义中进一步准确地筛选,以准确地确定实体含义,才可在文本中准确地抽取实体,从而准确地构建知识图谱。
57.为使实体识别模型能准确地识别实体以及实体含义,在使用实体识别模型进行实体的识别之前,需先针对待训练模型进行训练,得到实体识别模型,以进行实体及实体含义的识别。具体地训练方式可以是:
58.首先,构建语料库。本技术实施例中所构建的语料库包括开源语料以及行业语料。其中,开源语料包括《csc词义语料库》、《senseval词义语料库》。在开源语料中包括分词标记,词性标记,以及语义编码。其中,词性标记指示分词标记所标记的词组的词性,语义编码指示分词标记所标记的词组的语义的号码。
59.对于行业数据,若源自不对外开放的行业,本技术实施例中所提供的模型仅供行业/部门内部使用。例如,公安行业案件数据。因而针对诸如前述的行业数据在进行数据清洗后,可同样设置与开源语料一致的分词标记、词性标记、语义编码等标记。上述数据清洗指删除行业数据中无意义的数据。例如,标点符号。
60.以下针对分词标记、词性标记、语义编码进行举例说明。
61.例如,文本为:周某报警在北干街道有黑车。针对该文本进行分词标记可得:周某/报警/在/北干街道/有/黑车。针对该文本进行词性标记可得:周某/nr/报警/v/在/p/北干街道/n/有/p/黑车/n。其中,nr指示姓名,v指示动词,n指示名词,p指示介词。
62.语义编码标记可结合开源语料库,即根据分词标记所标记出的词组,在开源语料库中查询,获取相应的候选含义。例如,词组“黑车”,在开源语料库中查询,可得到两个候选含义,请参考表1。
63.表1
[0064][0065]
在构建语料库后,可进一步基于语料库中的语料以及与语料对应的标记针对待训练模型进行训练。
[0066]
首先,针对测试文本添加预设标签。获取包括至少一个对应于实体的实体词组的测试文本。将该未加标记的测试文本输入内嵌前述开源语料库和/或行业语料的分词模型中进行处理,得到对应于测试文本的训练本文。该训练文本中包括预设标签:测试文本中的预设词组,预设词组的预设词性,以及预设词组的预设语义,预设词组中包括与实体词组对应的预设实体词组,以及指示预设实体词组含义的预设实体含义。
[0067]
然后,将添加了预设标签的训练文本,输入待训练模型,得到测试文本中的训练词组、训练词性、训练文本、训练词组含义,指示实体词组的训练实体元素以及训练实体元素的含义。训练文本由训练词组组成。该训练词组含义指示训练文本中的训练词组的含义。
[0068]
接着可基于待训练模型输出的结果与预设标签之间的误差调整待训练模型的参数。基于训练词组与预设标签中预设词组之间的第一误差、训练词性与预设标签中的预设词性之间的第二误差,待训练文本与训练文本之间的第三误差,训练实体元素的含义与预设实体语义之间的第四误差,调整待训练模型的参数,直到第一误差、第二误差、第三误差、和第四误差均低于误差阈值,得到所述实体识别模型。
[0069]
在本技术的一种实施例中,待训练模型中包括bert(bidirectional encoder representation from transformers,双向编码表征模型)和bilstm(bi-directional long short-term memory,双向长-短时记忆模型)。其中,bert模型用于针对测试文本进行词组划分,以及并将测试文本转化为指示测试文本中词组的词组向量,以及指示测试文本中词组词性的词性向量。bilstm模型用于融合词组向量和词性向量,并进行双向语义识别,通过捕捉长距离地前后文的语义信息,以提高待训练模型对于文本识别的准确度。
[0070]
以下针对bert(bidirectional encoder representation from transformers,双向编码表征模型)和bilstm(bi-directional long short-term memory,双向长-短时记忆模型)进行简要介绍:bert模型是一个预训练的语言表征模型。bert模型采用mlm(masked language model,基于掩蔽的语言模型)进行预训练,并且采用双向transformer组件(即transformer encoder)构建mlm,因而可在进行下nsp(next sentence prediction,下句预测)的基础上生成能融合左右上下文信息的深层双向语言表征。bilstm模型由前向lstm模型和后向lstm模型组成,二者都可基于“门”和神经网络模型的链式结构,记忆长期信息并传递。前向lstm模型和后向lstm模型可分别从文本正向,和反向进行语义识别。例如,强、弱程度、褒、贬含义等识别。例如,“这个餐厅脏得不行不如隔壁好。”这个例子中,“不行”是针对“脏”的程度的修饰,若通过前向lstm和后向lsmt对这句话进行双向语义识别,可捕捉到不行的贬义含义,以及“不行”是针对于“脏”的修饰,因此,本技术实施例中结合bilstm通过捕捉双向语义依赖,可更为准确地识别目标词组的含义。
[0071]
因此,当待训练模型中包括bsert模型和bilstm模型时,可同时对二者进行训练:将未加标记的训练文本输入待训练模型,通过bert模型得到训练词组向量、训练词性向量、训练向量以及训练词组含义。该训练向量以训练元素为最小单元,训练元素指示训练文本
中的训练词组,以及对应于训练词组的训练词性。在确定词组向量和词性向量的同时,还可基于bert模型中的mlm模型,以第一设定数量的第一mask token(遮蔽符号)对某一设定位置上的词组向量进行替换,以第二设定数量的第二mask token(遮蔽符号)对该设定位置上的词组向量进行替换,第二mask token可以是随机生成的,同时确保训练文本中该位置上存在第三设定数量的词组向量不变化。上述第一设定数量、第二设定数量和第三设定数量之和为训练文本中该位置上词组向量的数量,或者是训练文本中每个句子/段落中该设定位置上的词组向量的数量之和。上述基于掩蔽的语言模型的训练可使得bert结合下句预测,准确地进行词组的划分,并准确确定任一词组的词性,即得到准确率高的词组向量和词性向量。进一步地,针对bilstm模型中的前向lstm模型和后向lstm模型进行训练,使得bilstm模型可在拼接词组向量和词性向量之后,通过前向lstm模型得到第一训练向量,同时通过后向lstm得到第二训练向量,融合第一训练向量和第二训练向量得到融合向量,在融合向量中包括多个融合元素,其中一个融合元素为训练实体元素,该训练实体元素对应于训练文本中指示实体的词组。因此,在bilstm模型确定融合向量中,还需进一步在融合向量中识别出前述训练实体元素,以及训练实体元素的含义。
[0072]
接着,确定所述训练词组向量与对应于所述预设词组的预设词组向量之间的第一误差,所述训练词性向量与对应于所述预设词性的预设词性向量之间的第二误差,所述训练向量与预设向量之间的第三误差,所述训练实体元素的含义与所述预设实体含义之间的第四误差。进而可根据第一误差、第二误差、第三误差反向调整待训练模型中bert模型的参数;根据第四误差反向调整待训练模型中bilstm模型的参数,直到第一误差、第二误差、第三误差、第四误差均低于误差阈值,则可确定bert模型和bilstm模型均满足训练要求:待训练模型能准确地将待识别文本转化为待识别向量,并进行分词标记、词性标记以及确定指示相应词组语义的语义编码,因而可将待训练模型作为实体识别模型。
[0073]
上述预设词组向量与预设词组一一对应,预设词性向量与预设词组的词性一一对应。本技术实施例中可通过交叉熵损失函数确定上述第一误差至第四误差。以下以第四误差的交叉熵损失函数为例进行说明:
[0074][0075]
其中,s为分类数量,即本技术实施例中目标元素的候选含义的数量;y为分类标签,因任一元素(词组)在文本中含义唯一,因而可将yi二值化为yi=1和yi=0。其中,i指示该元素在当前文本中的含义,则类别i所对应的yi值为1,否则,yi=0。p为待训练模型/实体识别模型针对该词组所确定的词组含义的概率。
[0076]
图2为本技术实施例所提供的待训练模型中的结构示意图。如图2所示,待训练模型包括bert表征层、bilstm模型和softmax分类器。其中,bilstm模型包括前向lstm模型和后向lstm模型。将训练文本输入待训练模型。训练文本首先进入实体识别模型中的bert模型所构成的bert表征层,得到指示训练文本中预设词组的训练词向量、训练词性向量。同时还可在bert表征层生成位置向量,用于指示词组向量/词性向量中任一元素的位置。将bert表征层生成的向量进行拼接,得到拼接向量。进而可将该拼接向量分别输入bilstm模型中的前向lstm模型和后向lstm模型,以得到第一训练向量和第二训练向量。接着融合第一训练向量和第二训练向量,得到融合向量。在融合向量中的融合元素中识别出指示实体词组
的训练实体元素,以及该训练实体元素的含义。最后就可利用softmax分类器唯一确定训练实体元素的含义,并结合交叉熵损失函数确定待训练模型的误差,并调整待训练模型的参数以降低误差,直到误差低于误差阈值,使得待训练模型经训练所得的实体识别模型能准确地识别待识别文本中的实体,以及实体的含义。
[0077]
进一步地,利用训练后的实体识别模型识别实体及实体含义,以下进行具体描述。
[0078]
具体来说,实体识别模型的bert模型首先可将待识别文本转化为待识别向量。图3为本技术实施例中所提供的基于实体模型识别待识别文本的示意图。如图3所示,在待识别文本输入实体识别模型后,首先基于实体识别模型中的bert模型针对待识别文本进行划分,以确定待识别文本中的词组,以及对应于词组的词组向量和词性向量。其中,词组向量包括指示待识别文本中词组的词组元素,且词组向量中词组元素的顺序与待识别文本中词组的顺序一致。词性向量包括指示待识别文本中的词组的词性元素,且词组向量中词性元素的顺序与词组向量中词组元素的顺序一致。也就是说,词性元素与词组元素之间为一一对应的关系。例如,待识别文本为“周某报警在北干街道有黑车。”输入实体识别模型后,得到识别语料为x={x1,x2,
……
,xm}。其中,x1为周,x2为某,
……
,xm为车,m为12,指示待识别文本的长度,即字数。进一步地,针对识别语料进行向量划分:首先可基于内嵌的词义语料库,对识别语料x进行划分,得到y={y1,y2,
……
,yn}。其中,y1可以是“周某”,也可以是“周某报”。进一步地,基于设置窗口,基于y中元素(y1……
yn)上下文语境逐一对y1、y2……yn
的参考序列进行提取,以确定相应词组的词性。例如,y2={报警},设置窗口t为t=2,则可得到序列y1={周某,报警,在},相应地词性向量为p1={nr,n,p},进而可确定语义编码为m1={sj32}。依次地,可确定对应于待识别文本的词组向量和词性向量。
[0079]
进一步地,可将词组向量和词性向量拼接得到待识别向量yp={(y1,p1),(y2,p2),
……
,(yn,pn)}。其中,待识别向量中的待识别元素指示词组元素和词性元素。例如,(yn,pn)指示词组元素为yn,词性元素为pn。继而输入bilstm模型,从而在待识别向量中识别出实体所对应的目标元素,以及对应于实体含义的目标含义,并输出。
[0080]
步骤102:在所述待识别向量中,基于任一待识别元素与其它待识别元素之间的关系,在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义。
[0081]
其中,其它待识别元素为所述待识别向量中不同于所述任一待识别元素的待识别元素,所述目标元素为对应于所述目标词组的待识别元素,所述目标含义指示所述目标词组在所述待识别文本中的含义。
[0082]
具体地,在基于实体识别模型中的bert模型确定待识别向量,输入bilstm模型中后,可进一步基于bilstm模型针对待识别向量中指示实体的目标元素进行识别及提取。
[0083]
具体地,在bilstm模型中,基于任一待识别元素所指示的词组元素和词性元素,以及其它待识别元素与该任一待识别元素之间的位置关系,在待识别向量中待识别元素识别出目标元素,并确定该目标元素的候选含义。由于bilstm模型中包括前向lstm模型和后向lstm模型。因而可将待识别向量正向输入bilstm模型中的前向lstm模型,得到第一中间向量。该第一中间向量为对应于时序,前向lstm正向识别待识别向量所包含的感情色彩,语境等特征信息得到第一中间向量。同时,将所述待识别向量反向输入bilstm模型中的后向lstm模型,得到第二中间向量。第二中间向量为倒叙方式,后向lstm反向识别待识别向量的感情色彩、语境等特征信息得到第二中间向量。进一步地,将第一中间向量和第二中间向量
融合,得到第三中间向量,在第三中间向量中确定与目标元素对应的中间目标元素。即基于结合正向、反向语境、感情色彩等信息所确定的第三中间向量,基于第三中间向量中任一中间元素的前向参考元素和后向参考元素,识别任一中间元素所包含的感情色彩等特征信息。进而可结合bilstm模型中中间目标元素与实体之间的对应关系,确定对应于目标元素的中间目标元素以及该目标元素的候选含义。其中,前向参考元素为,在所述第三中间向量中位于所述任一中间元素之前影响所述任一中间元素含义的元素;所述后向参考元素为,在所述第三中间向量中位于所述任一中间元素之后影响所述任一中间元素含义的元素。
[0084]
进一步地,bilstm模型中通过遗忘门、输入门、输出门进行信息的更新与输出,以准确地确定待识别文本中实体以及实体含义,“门”与“门”之间包括多个记忆单元(即神经元)用于对通过“门”的特征数据进行处理。其中,输入门为基于当前时刻输入的数据(即待识别向量),确定需要针对该数据需要提取的特征信息。该特征信息包括待识别向量所对应的待识别文本中词性、语境等特征信息。遗忘门接收bilstm模型所提取到的特征信息,并基于当前输入数据确定需要丢弃的特征信息,输出门用于对bilstm模型中神经单元所处理的数据进行过滤及融合,并基于隐藏层输出特征数据。
[0085]
因此,本技术实施例中可基于bilstm的隐藏层输出目标元素所指示的实体,以及目标元素所指示的实体含义。以下针对bilstm中的参数设置进行说明:设某时刻t的输入为i
t
。则实体识别模型中的bilstm执行以下步骤:
[0086]
(1)更新输入门
[0087]ft
=σ(w
xfvpt
+w
hfht-1
+w
cfct-1
+bf);
[0088]
(2)更新遗忘门
[0089]ft
=σ(w
xfvpt
+w
hfht-1
+w
cfct-1
+bf);
[0090]
(3)更新输出门
[0091]ot
=σ(w
xovpt
+w
hoht-1
+w
coct-1
+bo)。
[0092]
其中,σ为sigmoid函数,w为第一预设参数,b为第二预设参数。
[0093]
进一步地,假设t时刻对应于隐藏层ht的记忆单元的值为c
t
,c
t
可基于前一时刻t-1时刻记忆单元c
t-1
的值和隐藏层h
t-1
的值确定:c
t
=f
tct-1
+i
t tanh(w
xcvpt
+w
hcht-1
+bc)。
[0094]
则h
t
为t时刻隐藏层的值,h
t
=o
t tanh(c
t
)。即上述目标元素所指示的目标词组以及目标词组所指示的目标含义可由隐藏层输出。
[0095]
实际上,目标元素或对应于目标元素的中间目标元素所指示的实体的含义多为歧义,即某一实体所对应的目标含义可能有多个。因此,本技术实施例中设置分类器函数,该分类器函数可基于softmax函数设置:
[0096][0097]
其中,s为候选含义的数量,oi=w
t
h+b
t
,oi指示当前候选含义,i指示当前候选含义所对应的中间目标元素在第三中间向量的位置,oj指示任一中间元素在第三中间向量中的含义,j指示该任一中间元素在第三中间向量的位置,w
t
和b
t
分别为隐藏层的权重值和偏置值。
[0098]
也就是说,基于本技术实施例中所述的实体识别模型中的bilstm模型确定指示实体的目标元素和中间目标元素之后,以及相应的目标含义时,基于隐藏层确定指示实体含义的候选含义。并基于上述分类器函数唯一确定该实体在待识别文本中的目标含义。
[0099]
步骤103:确定所述目标元素指示的所述目标词组为实体,及所述目标含义为实体含义。
[0100]
上述步骤101-103所述的识别实体的方法,通过bert模型准确地对待识别文本进行表征:词组向量和词性向量,以及将二者拼接所得到的待识别向量。进一步地,利用bilstm模型基于待识别向量中任一待识别元素与其它待识别元素之间的关系,识别待识别向量中每一待识别元素的上下文语义,从而确定指示实体的目标元素,以及指示实体含义的目标含义,从而提升文本中识别实体的准确性。
[0101]
基于同一发明构思,本技术实施例中提供一种识别实体的装置,该装置与前述图1所示的识别实体的方法对应,该装置的具体实施方式可参见前述方法实施例部分的描述,重复之处不再赘述,参见图4,该装置包括:
[0102]
向量单元401:用于通过实体识别模型确定指示所述待识别文本的待识别向量。
[0103]
其中,所述待识别向量包括待识别元素,所述待识别元素对应于所述待识别文本中的待识别词组。所述实体识别模型包括所述待识别词组与所述待识别元素之间的对应关系,所述待识别词组中目标词组与实体之间的对应关系,以及所述实体与实体含义之间的对应关系。
[0104]
所述实体识别模型包括bert模型,则所述向量单元401具体用于通过所述bert模型,针对所述待识别文本进行划分,确定所述待识别文本中的词组,以及对应于所述词组的词组向量和词性向量;其中,所述词组向量包括,指示所述词组的词组元素;所述词组元素的顺序与所述词组在所述待识别文本中的顺序一致;所述词性向量包括,指示所述词组词性的词性元素;所述词性元素的顺序与所述词组元素的顺序一致;将所述词组向量和所述词性向量拼接,得到待识别向量;其中,所述待识别向量中的待识别元素指示,所述词组元素和对应于所述词组元素的所述词性元素。
[0105]
目标单元402:用于在所述待识别向量中,基于任一待识别元素与其它待识别元素之间的关系,在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义。
[0106]
其中,所述其它待识别元素为所述待识别向量中不同于所述任一待识别元素的待识别元素,所述目标元素为对应于所述目标词组的待识别元素,所述目标含义指示所述目标词组在所述待识别文本中的含义。
[0107]
目标单元402具体用于基于所述其它待识别元素所指示的词组元素和词性元素,以及所述其它待识别元素与所述任一待识别元素之间的位置关系,在所述待识别元素中确定所述目标元素,以及所述目标元素的候选含义;将所述候选含义的数量以及所述待识别元素的数量导入分类器函数,确定每一所述候选含义的候选概率;确定所述候选概率的值最大的所述候选含义为所述目标含义。
[0108]
实体识别模型包括bilstm模型,则目标单元402还用于将所述待识别向量正向输入所述bilstm模型中的前向lstm模型,得到第一中间向量;将所述待识别向量反向输入所述bilstm模型中的后向lstm模型,得到第二中间向量;将所述第一中间向量和第二中间向量融合,得到第三中间向量;在第三中间向量中,基于任一中间元素的前向参考元素和后向
参考元素,确定对应于所述目标元素的中间目标元素,以及所述中间目标元素的候选含义;其中,所述前向参考元素为,在所述第三中间向量中位于所述任一中间元素之前影响所述任一中间元素含义的元素;所述后向参考元素为,在所述第三中间向量中位于所述任一中间元素之后影响所述任一中间元素含义的元素。
[0109]
实体单元403:用于确定所述目标元素所指示的所述目标词组为实体,及所述目标含义为实体含义。
[0110]
所述实体识别的装置还包括训练单元,该训练单元具体用于基于分词模型处理测试文本,得到与所述测试文本对应的训练文本;其中,所述测试文本包括至少一个对应于所述实体的实体词组,所述分词模型包括词义语料库,所述训练文本包括所述测试文本中的预设词组、所述预设词组的预设词性、以及所述预设词组中对应于所述实体词组的预设实体含义;将所述训练文本输入所述待训练模型,得到训练词组向量、训练词性向量,训练向量、训练实体元素的含义;其中,所述训练词组向量包括对应于所述训练文本中训练词组的训练词组元素,所述训练词性向量包括,指示所述训练词组词性的训练词性元素;所述训练向量包括,指示所述训练词组元素和所述训练词性元素的训练元素;所述训练实体元素的含义指示基于所述待训练模型中的语料库所确定的训练实体元素的含义,所述训练实体元素指示所述实体词组;确定所述训练词组向量与对应于所述预设词组的预设词组向量之间的第一误差,所述训练词性向量与对应于所述预设词性的预设词性向量之间的第二误差,所述训练向量与预设向量之间的第三误差,所述训练实体元素的含义与所述预设实体含义之间的第四误差;基于所述第一误差,所述第二误差,所述第三误差,和所述第四误差,调整所述待训练模型的参数,直到所述第一误差、第二误差、第三误差、和第四误差均低于误差阈值,得到所述实体识别模型。
[0111]
基于同一发明构思,本技术实施例还提供一种可读存储介质,包括:
[0112]
存储器,
[0113]
所述存储器用于存储指令,当所述指令被处理器执行时,使得包括所述可读存储介质的装置完成如上所述的识别实体的方法。
[0114]
基于与上述识别实体的方法相同的发明构思,本技术实施例中还提供了一种电子设备,所述电子设备可以实现前述一种识别实体的方法的功能,请参考图5,所述电子设备包括:
[0115]
至少一个处理器501,以及与至少一个处理器501连接的存储器502,本技术实施例中不限定处理器501与存储器502之间的具体连接介质,图5中是以处理器501和存储器502之间通过总线500连接为例。总线500在图5中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线500可以分为地址总线、数据总线、控制总线等,为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。或者,处理器501也可以称为控制器,对于名称不做限制。
[0116]
在本技术实施例中,存储器502存储有可被至少一个处理器501执行的指令,至少一个处理器501通过执行存储器502存储的指令,可以执行前文论述识别实体的方法。处理器501可以实现图4所示的装置中各个模块的功能。
[0117]
其中,处理器501是该装置的控制中心,可以利用各种接口和线路连接整个该控制设备的各个部分,通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内
的数据,该装置的各种功能和处理数据,从而对该装置进行整体监控。
[0118]
在一种可能的设计中,处理器501可包括一个或多个处理单元,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。在一些实施例中,处理器501和存储器502可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
[0119]
处理器501可以是通用处理器,例如中央处理器(cpu)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的识别实体的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0120]
存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory,ram)、静态随机访问存储器(static random access memory,sram)、可编程只读存储器(programmable read only memory,prom)、只读存储器(read only memory,rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁性存储器、磁盘、光盘等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本技术实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
[0121]
通过对处理器501进行设计编程,可以将前述实施例中介绍的识别实体的方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行图1所示的识别实体的方法的步骤。如何对处理器501进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
[0122]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0123]
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0124]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0125]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0126]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(universal serial bus flash disk)、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0127]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

技术特征:
1.一种识别实体的方法,其特征在于,包括:通过实体识别模型确定指示待识别文本的待识别向量;其中,所述待识别向量包括待识别元素,所述待识别元素对应于所述待识别文本中的待识别词组;所述实体识别模型包括所述待识别词组与所述待识别元素之间的对应关系,所述待识别词组中目标词组与实体之间的对应关系,以及所述实体与实体含义之间的对应关系;在所述待识别向量中,基于任一待识别元素与其它待识别元素之间的关系,在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义;其中,所述目标元素为对应于所述目标词组的待识别元素,所述目标含义指示所述目标词组在所述待识别文本中的含义;确定所述目标元素指示的所述目标词组为实体,及所述目标含义为实体含义。2.如权利要求1所述的方法,其特征在于,所述实体识别模型包括bert模型,则所述通过实体识别模型确定指示待识别文本的待识别向量,包括:通过所述bert模型,针对所述待识别文本进行划分,确定所述待识别文本中的词组,以及对应于所述词组的词组向量和词性向量;其中,所述词组向量包括,指示所述词组的词组元素;所述词组元素的顺序与所述词组在所述待识别文本中的顺序一致;所述词性向量包括,指示所述词组词性的词性元素;所述词性元素的顺序与所述词组元素的顺序一致;将所述词组向量和所述词性向量拼接,得到待识别向量;其中,所述待识别向量中的待识别元素指示,所述词组元素和对应于所述词组元素的所述词性元素。3.如权利要求2所述的方法,其特征在于,所述在所述待识别向量中,基于任一待识别元素与其它所述待识别元素之间的关系,在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义,包括:基于所述其它待识别元素所指示的词组元素和词性元素,以及所述其它待识别元素与所述任一待识别元素之间的位置关系,在所述待识别元素中确定所述目标元素,以及所述目标元素的候选含义;将所述候选含义的数量以及所述待识别元素的数量导入分类器函数,确定每一所述候选含义的候选概率;确定所述候选概率的值最大的所述候选含义为所述目标含义。4.如权利要求3所述的方法,其特征在于,所述实体识别模型包括bilstm模型,则所述基于所述其它待识别元素所指示的词组元素和词性元素,以及所述其它待识别元素与所述任一待识别元素之间的位置关系,在所述待识别元素中确定所述目标元素,以及所述目标元素的候选含义,包括:将所述待识别向量正向输入所述bilstm模型中的前向lstm模型,得到第一中间向量;将所述待识别向量反向输入所述bilstm模型中的后向lstm模型,得到第二中间向量;将所述第一中间向量和第二中间向量融合,得到第三中间向量;在第三中间向量中,基于任一中间元素的前向参考元素和后向参考元素,确定对应于所述目标元素的中间目标元素,以及所述中间目标元素的候选含义;其中,所述前向参考元素为,在所述第三中间向量中位于所述任一中间元素之前影响所述任一中间元素含义的元素;所述后向参考元素为,在所述第三中间向量中位于所述任一中间元素之后影响所述任一中间元素含义的元素。
5.如权利要求1-4任一项所述的方法,其特征在于,所述实体识别模型通过如下方式训练得到:基于分词模型处理测试文本,得到与所述测试文本对应的训练文本;其中,所述测试文本包括至少一个对应于所述实体的实体词组,所述分词模型包括词义语料库,所述训练文本包括所述测试文本中的预设词组、所述预设词组的预设词性、以及所述预设词组中对应于所述实体词组的预设实体含义;将所述训练文本输入所述待训练模型,得到训练词组向量、训练词性向量,训练向量、训练实体元素的含义;其中,所述训练词组向量包括对应于所述训练文本中训练词组的训练词组元素,所述训练词性向量包括,指示所述训练词组词性的训练词性元素;所述训练向量包括,指示所述训练词组元素和所述训练词性元素的训练元素;所述训练实体元素的含义指示基于所述待训练模型中的语料库所确定的训练实体元素的含义,所述训练实体元素指示所述实体词组;确定所述训练词组向量与对应于所述预设词组的预设词组向量之间的第一误差,所述训练词性向量与对应于所述预设词性的预设词性向量之间的第二误差,所述训练向量与预设向量之间的第三误差,所述训练实体元素的含义与所述预设实体含义之间的第四误差;基于所述第一误差,所述第二误差,所述第三误差,和所述第四误差,调整所述待训练模型的参数,直到所述第一误差、第二误差、第三误差、和第四误差均低于误差阈值,得到所述实体识别模型。6.一种识别实体的装置,其特征在于,包括:向量单元:用于通过实体识别模型确定指示待识别文本的待识别向量;其中,所述待识别向量包括待识别元素,所述待识别元素对应于所述待识别文本中的待识别词组;所述实体识别模型包括所述待识别词组与所述待识别元素之间的对应关系,所述待识别词组中目标词组与实体之间的对应关系,以及所述实体与实体含义之间的对应关系;目标单元:用于在所述待识别向量中,基于任一待识别元素与其它待识别元素之间的关系,在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义;其中,所述目标元素为对应于所述目标词组的待识别元素,所述目标含义指示所述目标词组在所述待识别文本中的含义;实体单元:用于确定所述目标元素所指示的所述目标词组为实体,及所述目标含义为实体含义。7.如权利要求6所述的装置,其特征在于,所述实体识别模型包括bert模型,则所述向量单元具体用于通过所述bert模型,针对所述待识别文本进行划分,确定所述待识别文本中的词组,以及对应于所述词组的词组向量和词性向量;其中,所述词组向量包括,指示所述词组的词组元素;所述词组元素的顺序与所述词组在所述待识别文本中的顺序一致;所述词性向量包括,指示所述词组词性的词性元素;所述词性元素的顺序与所述词组元素的顺序一致;将所述词组向量和所述词性向量拼接,得到待识别向量;其中,所述待识别向量中的待识别元素指示,所述词组元素和对应于所述词组元素的所述词性元素。8.如权利要求7所述的装置,其特征在于,所述目标单元具体用于基于所述其它待识别元素所指示的词组元素和词性元素,以及所述其它待识别元素与所述任一待识别元素之间的位置关系,在所述待识别元素中确定所述目标元素,以及所述目标元素的候选含义;将所
述候选含义的数量以及所述待识别元素的数量导入分类器函数,确定每一所述候选含义的候选概率;确定所述候选概率的值最大的所述候选含义为所述目标含义。9.一种可读存储介质,其特征在于,包括,存储器,所述存储器用于存储指令,当所述指令被处理器执行时,使得包括所述可读存储介质的装置完成如权利要求1-5中任一项所述的方法。10.一种电子设备,其特征在于,包括:存储器,用于存放计算机程序;处理器,用于执行所述存储器上所存放的计算机程序时,以实现如权利要求1-5中任一项所述的方法。

技术总结
本申请公开了一种识别实体的方法、装置及电子设备,用以提升在文本中识别实体及实体含义的准确率。该方法包括:通过实体识别模型确定指示待识别文本的待识别向量;其中,所述实体识别模型包括所述待识别词组与所述待识别元素之间的对应关系,所述待识别词组中目标词组与实体之间的对应关系,以及实体与实体含义之间的对应关系;在所述待识别向量中,基于任一待识别元素与其它待识别元素之间的关系,在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义;其中,所述目标元素为对应于所述目标词组的待识别元素;确定所述目标元素指示的所述目标词组为实体,及所述目标含义为实体含义。义为实体含义。义为实体含义。


技术研发人员:操涛涛 刘伟棠 陈立力
受保护的技术使用者:浙江大华技术股份有限公司
技术研发日:2022.07.14
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-2030.html

最新回复(0)