本公开涉及自然语言处理,具体涉及一种因果关系的识别方法、装置、电子设备、存储介质和计算机程序产品。
背景技术:
1、事件因果关系识别(event causality identification,eci)是自然语言处理(natural language processing,nlp)中的一个重要任务,它可以促进各种应用的实现,例如可解释的问答系统、智能搜索和复杂推理等。相关技术关注于以英文语料库为基础的句子级别。
2、然而,大量的因果关系是由多个句子表达的。例如,大约有68.7%的英语语料库中的因果关系是归因于句子间的事件对。因此,识别文档级别的事件因果关系是必要的。并且,训练一个eci模型通常依赖于大量的数据,特别是对于文档级别,这使得它难以适应低资源语言。此外,低资源语言面临着严重的训练数据短缺,使得提高语言模型的文档级eci性能变得具有挑战性。
技术实现思路
1、本公开示例性实施例提供的因果关系的识别方法、装置、电子设备、存储介质和计算机程序产品,可以至少解决上述技术问题和上文未提及的其它技术问题。
2、根据本公开的一个方面,提供一种因果关系的识别方法,包括:获取目标语言的待识别文本数据;基于源语言的文本数据训练得到的异构图交互网络,对所述待识别文本数据中事件间的因果关系进行识别,其中,所述目标语言包括与所述源语言不同的语言;其中,所述异构图交互网络的训练步骤包括:获取所述源语言的文本数据;基于所述源语言的文本数据生成异构图交互网络,其中,所述异构图交互网络包括:与所述源语言的文本数据中的陈述对应的陈述节点,所述陈述为包含两个事件的句子;基于预训练的语言模型获取所述异构图交互网络中每个节点的初始特征向量;基于所述初始特征向量,使用图注意力网络通过优化损失函数来学习所述异构图交互网络中各节点的嵌入表示,以对所述异构图交互网络进行训练,其中,所述损失函数用于通过正负样本之间的对比学习来最大化正样本之间的相似度、最小化负样本之间的相似度,所述正样本包括基于所述源语言的文本数据中包含因果事件的陈述复写得到的多语言陈述文本,所述负样本包括基于所述源语言的文本数据中不包含因果事件的陈述复写得到的多语言陈述文本。
3、可选的,所述异构图交互网络还包括:与所述源语言的文本数据中的事件对对应的事件对节点;所述正样本还包括:所述源语言的文本数据的包含因果事件的陈述中的事件对和上下文;所述负样本还包括:所述源语言的文本数据中不包含因果的事件对和事件对无关的上下文。
4、可选的,所述损失函数还用于计算陈述表示和事件对表示的拼接的交叉熵损失,其中,所述陈述表示为所述陈述节点对应的嵌入表示,所述事件对表示为所述事件对节点对应的嵌入表示。
5、可选的,所述基于所述源语言的文本数据生成异构图交互网络,包括:对所述源语言的文本数据中句子的依存结构进行解析,获得对应的依赖树;提取所述依赖树中的信息短语以及所述信息短语对应的依赖关系,获得带有所述信息短语的简化依赖树;基于所述简化依赖树和所述源语言的文本数据生成所述异构图交互网络,其中,所述异构图交互网络还包括与所述信息短语对应的信息短语节点。
6、可选的,所述基于源语言的文本数据训练得到的异构图交互网络,对所述待识别文本数据中事件间的因果关系进行识别,包括:基于所述源语言的文本数据训练得到的所述异构图交互网络中所述陈述表示和所述事件对表示的拼接,对所述待识别文本数据中事件间的因果关系进行识别。
7、可选的,所述基于预训练的语言模型获取所述异构图交互网络中每个节点的初始特征向量,包括:使用所述预训练的语言模型将所述源语言的文本数据中的每个单词转换成嵌入向量;基于每个单词的嵌入向量获取所述异构图交互网络中每个节点的初始特征向量,其中,所述信息短语节点的初始特征向量为与当前信息短语节点相关的单词的嵌入向量的均值加上当前信息短语的角色信息的嵌入向量,所述陈述节点的初始特征向量为与当前陈述节点相关的单词的嵌入向量的均值,所述事件对节点的初始特征向量为与当前事件对节点相关的事件对应的单词的嵌入向量的连接。
8、根据本公开的另一方面,还提供一种因果关系的识别装置,包括:数据获取模块,被配置为:获取目标语言的待识别文本数据;因果识别模块,被配置为:基于源语言的文本数据训练得到的异构图交互网络,对所述待识别文本数据中事件间的因果关系进行识别,其中,所述目标语言包括与所述源语言不同的语言;其中,所述异构图交互网络的训练步骤包括:获取所述源语言的文本数据;基于所述源语言的文本数据生成异构图交互网络,其中,所述异构图交互网络包括:与所述源语言的文本数据中的陈述对应的陈述节点,所述陈述为包含两个事件的句子;基于预训练的语言模型获取所述异构图交互网络中每个节点的初始特征向量;基于所述初始特征向量,使用图注意力网络通过优化损失函数来学习所述异构图交互网络中各节点的嵌入表示,以对所述异构图交互网络进行训练,其中,所述损失函数用于通过正负样本之间的对比学习来最大化正样本之间的相似度、最小化负样本之间的相似度,所述正样本包括基于所述源语言的文本数据中包含因果事件的陈述复写得到的多语言陈述文本,所述负样本包括基于所述源语言的文本数据中不包含因果事件的陈述复写得到的多语言陈述文本。
9、根据本公开实施例的另一方面,还提供一种电子设备,包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如上任一所述的因果关系的识别方法。
10、根据本公开实施例的另一方面,还提供一种存储指令的计算机可读存储介质,当所述指令被至少一个处理器运行时,促使所述至少一个处理器执行如上任一所述的因果关系的识别方法。
11、根据本公开实施例的另一方面,还提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如上任一所述的因果关系的识别方法。
12、根据本公开实施例的另一方面,还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上任意一项所述的因果关系的识别方法。
13、本公开实施例提供的技术方案至少带来以下有益效果:
14、根据本公开的因果关系的识别方法、装置、电子设备、存储介质和计算机程序产品,可以通过构建异构图交互网络并对源语言中包含事件对的陈述、以及不包含事件对的陈述进行多语言复写后,在陈述层面使用对比学习的方式提高从源语言学习的因果知识的跨语言可迁移性;使得用源语言中的标注数据训练的eci模型(异构图交互网络)能够直接应用于目标语言,实现零样本跨语言的文档级eci;在有限的语言资源下,能够有效地将因果关系知识从源语言转移到任何其他语言(例如,低资源/研究较少的语言等),以更好地适应低资源语言。
15、另外,通过结合方面级因果模式层面的对比学习,能够利用多粒度的对比迁移学习进一步提高从源语言学习的因果知识的跨语言可迁移性。
16、另外,利用多语言自然语言工具解析句子的依存结构来获得文档中的信息短语后,基于信息短语构建异构图交互网络,可以基于文档的全局信息对分散在文档中的事件之间的长距离依赖关系进行建模。
1.一种因果关系的识别方法,其特征在于,包括:
2.如权利要求1所述的因果关系的识别方法,其特征在于,所述异构图交互网络还包括:与所述源语言的文本数据中的事件对对应的事件对节点;所述正样本还包括:所述源语言的文本数据的包含因果事件的陈述中的事件对和上下文;所述负样本还包括:所述源语言的文本数据中不包含因果的事件对和事件对无关的上下文。
3.如权利要求2所述的因果关系的识别方法,其特征在于,所述损失函数还用于计算陈述表示和事件对表示的拼接的交叉熵损失,其中,所述陈述表示为所述陈述节点对应的嵌入表示,所述事件对表示为所述事件对节点对应的嵌入表示。
4.如权利要求3所述的因果关系的识别方法,其特征在于,所述基于所述源语言的文本数据生成异构图交互网络,包括:
5.如权利要求4所述的因果关系的识别方法,其特征在于,所述基于源语言的文本数据训练得到的异构图交互网络,对所述待识别文本数据中事件间的因果关系进行识别,包括:
6.如权利要求5所述的因果关系的识别方法,其特征在于,所述基于预训练的语言模型获取所述异构图交互网络中每个节点的初始特征向量,包括:
7.一种因果关系的识别装置,其特征在于,包括:
8.一种电子设备,其特征在于,包括:
9.一种存储指令的计算机可读存储介质,其特征在于,当所述指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1-6中任一项所述的因果关系的识别方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现如权利要求1-6中任意一项所述的因果关系的识别方法。