一种基于句法依存和词汇语义相似度的关系抽取方法与流程

专利2024-10-11  57



1.本发明涉及文本处理技术领域,尤其涉及一种基于句法依存和词汇语义相似度的关系抽取方法。


背景技术:

2.关系抽取的目的是检测句子中两个实体之间的语义关系。关系抽取是知识图谱构建、知识图谱补全、信息抽取和检索任务中的一项重要任务。传统的基于特征和基于核函数的方法需要广泛的特征工程。最近的基于深度学习的神经网络模型(特别是注意机制)已经显示出相当好的表现:深层神经网络,如卷积神经网络(cnns)和递归神经网络(rnns)具有探索更复杂语义和自动从原始文本中提取特征的能力,被广泛应用于关系提取任务中。最近,注意机制被引入到深度神经网络中,以提高其性能。特别是,基于transformer的模型完全基于自我关注,并且表现出比传统递归神经网络更好的性能。
3.但现有方法存在如下缺陷:
4.(1)无法理解词语与给定实体的语义相似度;
5.(2)难以捕获单词和实体之间的远程依存关系,例如共同引用。
6.此外,深层神经网络通常需要足够的标记数据来训练其众多的模型参数。训练数据的稀缺性或低质量会限制模型识别复杂关系的能力,也会导致过度拟合问题。


技术实现要素:

7.本发明实施例提供一种基于句法依存和词汇语义相似度的关系抽取方法,利用句法依存和词汇相似度来增强注意机制、以消除对丰富标注训练数据的依赖,生成句子中两个实体之间的关系。
8.本发明实施例提供一种基于句法依存和词汇语义相似度的关系抽取方法,包括:
9.对于给定具有至少两个实体的句子:
10.利用双向lstm,生成所述句子中各词语的词向量;
11.利用卷积神经网络cnn生成所述句子的句子级别的全局性语义向量;
12.利用卷积神经网络cnn生成所述句子的实体级别的局部性语义向量;
13.计算所述句子中的词与实体之间的语义相似度;
14.基于词与实体之间的语义相似度确定词与实体之间的注意力向量;
15.拼接所述全局性语义向量、局部性语义向量以及所述注意力向量,输入至带有softmax激活函数的前馈神经网络模型,以确定所述句子中任意两个实体之间的关系。
16.在一些实施例中,利用双向lstm,生成所述句子中各词语的词向量包括;
17.拼接词语的词向量和实体标识向量,并将拼接后的向量输入双向lstm模型,以利用所述双向lstm模型输出各词语的词向量。
18.在一些实施例中,利用卷积神经网络cnn生成所述句子的句子级别的全局性语义向量包括:
19.拼接词语的位置向量以及所述双向lstm模型输出的词向量,作为cnn的输入;
20.定义句子级别卷积过滤向量,对于任一词,基于所述句子级别卷积过滤向量以及所述cnn的输出生成第一目标值;
21.使用最大池化模型,基于生成的第一目标值确定句子级别全局性语义向量。
22.在一些实施例中,利用卷积神经网络cnn生成所述句子的实体级别的局部性语义向量包括:
23.对于句子中的实体,定义实体级别卷积过滤向量;
24.对于任一词,基于所述实体级别卷积过滤向量以及拼接词向量和实体标识向量的结果,生成第二目标值;
25.使用最大池化模型,基于生成的第二目标值生成实体级别的局部性语义向量。
26.在一些实施例中,计算所述句子中的词与实体之间的语义相似度包括:
27.对于句子中的词,通过预设知识库查询词语对应的词语概念集合,以及查询实体的实体概念集合;
28.基于词语概念集合以及所述实体概念集合计算实体与词语的语义相似度。
29.在一些实施例中,基于词与实体之间的语义相似度确定词与实体之间的注意力向量包括:
30.通过依存句法分析模型,确定句子的依存句法结构树;
31.基于依存句法结构树上词语到实体的依存距离,计算句子中词对实体的注意力值;
32.基于词对实体的注意力值以及词向量生成注意力向量。
33.在一些实施例中,还包括利用如下步骤执行训练:
34.定义目标函数,其中目标函数基于所有参数、句子中存在关系的概率以及句子数量来确定;
35.利用随机梯度下降算法和反向传播算法,执行训练,直至收敛。
36.本技术实施例还提出一种基于句法依存和词汇语义相似度的关系抽取装置,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现前述的方法的步骤。
37.本技术实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述的方法的步骤。
38.本发明实施例利用句法依存和词汇相似度来增强注意机制、以消除对丰富标注训练数据的依赖,生成句子中两个实体之间的关系。
39.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
40.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
41.图1为本技术的关系抽取方法的基本流程图;
42.图2为本技术的关系抽取方法的整体流程示意图;
43.图3为本技术的关系抽取方法的模块关系示例。
具体实施方式
44.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
45.本发明实施例提供一种基于句法依存和词汇语义相似度的关系抽取方法,用于判断句子中任意两个实体之间的关系,如图1、图2、图3所示,包括:
46.对于给定具有至少两个实体的句子:
47.在步骤s101中,利用双向lstm,生成所述句子中各词语的词向量。
48.在步骤s102中,利用卷积神经网络cnn生成所述句子的句子级别的全局性语义向量。
49.在步骤s103中,利用卷积神经网络cnn生成所述句子的实体级别的局部性语义向量。
50.在步骤s104中,计算所述句子中的词与实体之间的语义相似度。
51.在步骤s105中,基于词与实体之间的语义相似度确定词与实体之间的注意力向量。
52.在步骤s106中,拼接所述全局性语义向量、局部性语义向量以及所述注意力向量,输入至带有softmax激活函数的前馈神经网络模型,以确定所述句子中任意两个实体之间的关系。
53.本发明实施例利用句法依存和词汇相似度来增强注意机制、消除了对丰富标注训练数据的依赖,生成句子中两个实体之间的关系。
54.在一些实施例中,利用双向lstm,生成所述句子中各词语的词向量包括;
55.拼接词语的词向量和实体标识向量,并将拼接后的向量输入双向lstm模型,以利用所述双向lstm模型输出各词语的词向量。
56.具体的,对于句子s中每个词语w,本发明所提出的模型涉及其6类向量。分别是:词语w的词向量w;实体标识向量z,表示词语w是否属于实体e1、是否属于实体e2、或者不属于任何实体;位置向量p1,表示词语w与实体e1第一个词语的距离;位置向量p2,表示词语w与实体e1最后一个词语的距离;位置向量p3,表示词语w与实体e2第一个词语的距离;位置向量p4,表示词语w与实体e2最后一个词语的距离。本示例中,给定句子s={w1,

,w
|s|
}(其中,|s|表示句子长度,即词语的数量),使用双向lstm模型形成该句子中每个词语w
t
的向量h
t
,具体可以采用如下方法:
57.拼接w
t
与z
t
形成x
t
,作为双向lstm模型的输入:x
t
=[w
t
;z
t
]。
[0058]
双向lstm模型分为前向lstm模型(表示为)和后向lstm模型(表示为),定义为前向lstm模型的输出、为前向lstm模型的输出:
[0059][0060][0061]
拼接与形成h
t
,形成双向lstm模型对词语w
t
的输出:
[0062]
在一些实施例中,利用卷积神经网络cnn生成所述句子的句子级别的全局性语义向量包括:
[0063]
拼接词语的位置向量以及所述双向lstm模型输出的词向量,作为cnn的输入。
[0064]
定义句子级别卷积过滤向量,对于任一词,基于所述句子级别卷积过滤向量以及所述cnn的输出生成第一目标值。
[0065]
使用最大池化模型,基于生成的第一目标值确定句子级别全局性语义向量。
[0066]
具体的,在本示例中,对于词语w
t
,拼接p1、p2、p3、p4、h
t
形成作为卷积神经网络(cnn)模型的输入:
[0067]
对于句子s,定义句子级别卷积过滤向量fs。
[0068]
对于词语w
t
,使用句子级别卷积过滤向量fs生成值u
t

[0069][0070]
其中,符号表示转秩运算,k表示窗口规模。
[0071]
接着使用最大池化模型(表示为max_pooling(
·
))从{u
t
|t∈[1,|s|]}中生成
[0072][0073]
定义#fs为句子级别卷积过滤向量fs的数量,生成句子s的句子级别全局性语义向量us:
[0074]

[0075]
在一些实施例中,利用卷积神经网络cnn生成所述句子的实体级别的局部性语义向量包括:
[0076]
对于句子中的实体,定义实体级别卷积过滤向量。
[0077]
对于任一词,基于所述实体级别卷积过滤向量以及拼接词向量和实体标识向量的结果,生成第二目标值。
[0078]
使用最大池化模型,基于生成的第二目标值生成实体级别的局部性语义向量。
[0079]
本示例中,使用卷积神经网络(cnn)模型生成实体级别局部性语义向量,包括如下步骤:
[0080]
对于实体e,定义实体级别卷积过滤向量fe。
[0081]
定义i
begin
和i
end
分别表示实体e的开始位置和结束位置(1≤i
begin
≤i
end
≤|s|)。
[0082]
对于词语w
t
,使用实体级别卷积过滤向量fe生成值u
t

[0083][0084]
其中,符号表示转秩运算,k表示窗口规模。
[0085]
然后,使用最大池化模型(表示为max_pooling(
·
))从{u
t
|t∈[i
begin
,i
end
]}中生成
[0086][0087]
定义#fe为实体级别卷积过滤向量fe的数量,生成实体e的实体级别局部性语义向量ue:
[0088][0089]
利用上述方法,为实体e1和实体e2,分别生成其实体级别局部性语义向量和
[0090]
在一些实施例中,计算所述句子中的词与实体之间的语义相似度包括:
[0091]
对于句子中的词,通过预设知识库查询词语对应的词语概念集合,以及查询实体的实体概念集合;
[0092]
基于词语概念集合以及所述实体概念集合计算实体与词语的语义相似度。
[0093]
本示例中,对于给定实体,计算词语与该实体之间的语义相似度,包括如下步骤:
[0094]
对于词语w
t
,通过知识库probase查询词语w
t
对应的概念集合对应的概念集合其中,cj表示概念集合的第j个概念。
[0095]
同理,对于实体e1和实体e2,分别通过知识库probase查询其对应的概念集合和
[0096]
计算实体e1和词语w
t
的语义相似度:
[0097][0098]
sim(w
t
,e1)可以被视为第t个词语w
t
到实体e1的概念层级的注意力值。
[0099]
同理,计算实体e2和词语w
t
的语义相似度:
[0100][0101]
在一些实施例中,基于词与实体之间的语义相似度确定词与实体之间的注意力向量包括:
[0102]
通过依存句法分析模型,确定句子的依存句法结构树;
[0103]
基于依存句法结构树上词语到实体的依存距离,计算句子中词对实体的注意力值;
[0104]
基于词对实体的注意力值以及词向量生成注意力向量。
[0105]
本示例中,同时利用句法依存和词汇语义相似度,来计算词语到给定实体的注意力值,包括:
[0106]
通过依存句法分析模型,得到句子s的依存句法结构树
[0107]
将从给定实体到每个词语的依存距离定义为:依存句法结构树上的边的数量。定
义为第t个词语w
t
到实体e1的依存距离;定义为第t个词语w
t
到实体e2的依存距离;
[0108]
对于给定句子s的实体e1:
[0109][0110]
其中,m表示依存距离窗口尺寸。
[0111]
定义为:在给定句子s中,第t个词语w
t
对实体e1的注意力值:
[0112][0113]
类似的,对于给定句子s的实体e2:
[0114][0115][0116]
接着,生成实体e1的注意力向量以及生成实体e2的注意力向量
[0117]
拼接所述全局性语义向量、局部性语义向量以及所述注意力向量,输入至带有softmax激活函数的前馈神经网络模型,以确定所述句子中任意两个实体之间的关系,包括:
[0118]
拼接上述产生的us、和作为输入,输入到带有softmax激活函数的前馈神经网络模型中,生成关系预测向量r:
[0119][0120]
其中,m表示权重矩阵,b表示偏差向量。
[0121]
关系预测向量的维度|r|等于关系的数量,每一维的值是对应的关系的概率。取概率最高的关系,作为输出,即句子s中实体e1和e2的关系r。
[0122]
在一些实施例中,还包括利用如下步骤执行训练:
[0123]
定义目标函数,其中目标函数基于所有参数、句子中存在关系的概率以及句子数量来确定,本示例中,可以定义目标函数为:
[0124]
[0125]
其中,θ表示所有参数的集合。表示给定句子sj中实体e
j,1
和实体e
j,2
之间存在关系rj的概率。b
*
表示数据集中句子的数量。
[0126]
利用随机梯度下降算法和反向传播算法,执行训练,直至收敛,训练结束。
[0127]
本技术提出了一种新的关系抽取模型,该模型利用句法依存和词汇相似度来增强注意机制,以消除对丰富标注训练数据的依赖。具体的利用词汇外知识图来度量语义相似度;利用词语的语义和它们与两个实体的依存距离。本示例中将全局句子级信息与局部实体级信息相结合,获取层次化、多粒度的证据,用于关系抽取。
[0128]
本技术具备自动化和扩展性强的优点,能够应用于训练数据较少的情况,克服了以往研究对专家经验的依赖,避免了现有技术对数据集中数据项之间差异的限制要求。
[0129]
本技术实施例还提出一种基于句法依存和词汇语义相似度的关系抽取装置,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现前述的方法的步骤。
[0130]
本技术实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述的方法的步骤。
[0131]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0132]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0133]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0134]
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

技术特征:
1.一种基于句法依存和词汇语义相似度的关系抽取方法,其特征在于,包括:对于给定具有至少两个实体的句子:利用双向lstm,生成所述句子中各词语的词向量;利用卷积神经网络cnn生成所述句子的句子级别的全局性语义向量;利用卷积神经网络cnn生成所述句子的实体级别的局部性语义向量;计算所述句子中的词与实体之间的语义相似度;基于词与实体之间的语义相似度确定词与实体之间的注意力向量;拼接所述全局性语义向量、局部性语义向量以及所述注意力向量,输入至带有softmax激活函数的前馈神经网络模型,以确定所述句子中任意两个实体之间的关系。2.如权利要求1所述的基于句法依存和词汇语义相似度的关系抽取方法,其特征在于,利用双向lstm,生成所述句子中各词语的词向量包括;拼接词语的词向量和实体标识向量,并将拼接后的向量输入双向lstm模型,以利用所述双向lstm模型输出各词语的词向量。3.如权利要求2所述的基于句法依存和词汇语义相似度的关系抽取方法,其特征在于,利用卷积神经网络cnn生成所述句子的句子级别的全局性语义向量包括:拼接词语的位置向量以及所述双向lstm模型输出的词向量,作为cnn的输入;定义句子级别卷积过滤向量,对于任一词,基于所述句子级别卷积过滤向量以及所述cnn的输出生成第一目标值;使用最大池化模型,基于生成的第一目标值确定句子级别全局性语义向量。4.如权利要求3所述的基于句法依存和词汇语义相似度的关系抽取方法,其特征在于,利用卷积神经网络cnn生成所述句子的实体级别的局部性语义向量包括:对于句子中的实体,定义实体级别卷积过滤向量;对于任一词,基于所述实体级别卷积过滤向量以及拼接词向量和实体标识向量的结果,生成第二目标值;使用最大池化模型,基于生成的第二目标值生成实体级别的局部性语义向量。5.如权利要求4所述的基于句法依存和词汇语义相似度的关系抽取方法,其特征在于,计算所述句子中的词与实体之间的语义相似度包括:对于句子中的词,通过预设知识库查询词语对应的词语概念集合,以及查询实体的实体概念集合;基于词语概念集合以及所述实体概念集合计算实体与词语的语义相似度。6.如权利要求5所述的基于句法依存和词汇语义相似度的关系抽取方法,其特征在于,基于词与实体之间的语义相似度确定词与实体之间的注意力向量包括:通过依存句法分析模型,确定句子的依存句法结构树;基于依存句法结构树上词语到实体的依存距离,计算句子中词对实体的注意力值;基于词对实体的注意力值以及词向量生成注意力向量。7.如权利要求6所述的基于句法依存和词汇语义相似度的关系抽取方法,其特征在于,还包括利用如下步骤执行训练:定义目标函数,其中目标函数基于所有参数、句子中存在关系的概率以及句子数量来确定;
利用随机梯度下降算法和反向传播算法,执行训练,直至收敛。8.一种基于句法依存和词汇语义相似度的关系抽取装置,其特征在于,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。

技术总结
本发明公开了一种基于句法依存和词汇语义相似度的关系抽取方法,包括:利用双向LSTM,生成所述句子中各词语的词向量;利用卷积神经网络CNN生成所述句子的句子级别的全局性语义向量;利用卷积神经网络CNN生成所述句子的实体级别的局部性语义向量;计算所述句子中的词与实体之间的语义相似度;基于词与实体之间的语义相似度确定词与实体之间的注意力向量;拼接所述全局性语义向量、局部性语义向量以及所述注意力向量,输入至带有SoftMax激活函数的前馈神经网络模型,以确定所述句子中任意两个实体之间的关系。本发明实施例利用句法依存和词汇相似度来增强注意机制、以消除对丰富标注训练数据的依赖,生成句子中两个实体之间的关系。系。系。


技术研发人员:王亚珅 欧阳小叶 郭大宇 朱小伶 张欢欢 刘弋锋
受保护的技术使用者:中国电子科技集团公司电子科学研究院
技术研发日:2022.07.01
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-9906.html

最新回复(0)