1.本发明属于文本信息抽取领域,涉及从篇章级数据中进行关键词抽取、事件分类、事件论元提取的若干技术方法,具体为一种基于深度语义表示和多任务学习的事件信息抽取方法及系统。
背景技术:2.在自然语言处理领域,文本分类应用非常广泛,如:有害或垃圾信息识别过滤、序列标注、情感分类、选择式问答、主题分类等。文本分类任务的一般流程为:1.文本预处理;2.文本表示及特征选择;3.事件分类。事件分类任务通常需要在给定的分类体系中,将事件划分到某个或某几个类别中。根据给定的类别数量,可以将事件分类划分为二分类与多分类问题;根据所采用的分类模型,可以分为浅层学习模型与深度学习模型。
3.深度学习方法能够从数据中自动学习文本表示或特征,比传统基于统计的机器学习模型有更好的结果。比较具有代表性的方法有以下几种:
4.a.基于递归神经网络(renn)的方法:通过预测每个输入句子的标签的概率分布,并能够学习多词短语的向量表示;
5.b.基于多层感知机(mlp)的方法:如paragraph-vec(段落向量)模型是曾经广泛使用的方法,将段落用向量表示,可以作为段落主题的存储器,并作为下游分类器预测的输入。
6.c.基于循环神经网络(rnn)的方法:递归神经网络(rnn)能够捕捉文本的长距离依赖关系。rnn语言模型学习历史信息,考虑适合分类任务的所有单词之间的位置信息。使用词嵌入(word embedding)技术,将每个输入词由一个特定的向量表示。然后,将词向量逐个送入rnn单元。rnn单元的输出与输入向量的维数相同,并被送入下一个隐藏层。rnn在模型共享参数,并且每个输入向量的权重相同。当全部输入文本都进入rnn后,标签通过隐藏层的最后输出进行预测。
7.d.基于卷积神经网络(cnn)的方法:卷积神经网络(cnn)适合用于图像分类,卷积滤波器可以提取图像的特征。与rnn不同,cnn可以将不同的卷积核作用于文本序列从而建模不同粒度的特征。因此,cnn被用于许多nlp任务,包括文本分类。对于文本分类,文本需要表示为类似于图像表示的向量。首先,将输入文本的词向量拼接成矩阵,然后矩阵被送入包含几个不同维数的滤波器的卷积层。最后,卷积层的结果通过池化层和全连接层获得文本的最终向量表示并给出预测标签。典型工作有y.kim(2014)提出的一种卷积神经网络的文本分类模型textcnn。该方法使用静态词向量,只学习卷积神经网络内的参数。
8.e.基于注意力机制(attention)的方法:cnn和rnn在文本分类任务上取得了比较好结果。然而,这些的可解释性差,尤其是在分类错误中,由于神经网络参数的不可读性而无法解释。因此,解释性更强的基于注意力机制的方法在文本分类中得到了应用,通过注意力机制可以将文本中对分类影响大的部分进行可视化处理。
9.f.基于transformer的方法:近年来,预训练语言模型技术飞速发展,预训练语言
模型一般采用无监督的方法自动学习,通过构造不同的预训练任务,使模型能够更有效地学习全局语义表示,并显著提高nlp任务包括分类任务的效果。比较典型的预训练模型有elmo、openai gpt和bert,roberta,albert,xlnet等等,其共同特点是都通过无监督的预训练任务在大规模语料库上进行预训练以学习语言知识,再将下游的分类任务与大模型进行适配,这种迁移学习的方法使模型的分类性能获得很大提升。
10.关键词(主题词)抽取任务是指从一篇文章中抽取最能表达文章内容和语义的几个词语,对于中文关键词抽取任务,目前存在缺少大规模、高质量的中文主题词语料库。传统的tf-idf(term frequency
–
inverse document frequency)方法虽然能够在一个文本数据集中得到一些关键词,但其抽取的准确率、召回率比较低;主题模型lda(latent dirichlet allocation)方法同样抽取的关键词质量较差。而且因为本发明中自己构建了一个小数据集,故使用传统方法在小数据集中可能产生更多的偏置而影响抽取效果。因此本课题将主题词抽取转换为相似性计算问题,运用预训练语言模型获得词语的向量表示,发挥预训练模型的优势获得词语更准确、丰富的语义信息,以从文章中抽取出最能表达文章意思的主题词。
11.事件抽取任务是采用自然语言处理技术从非结构化文本中识别特定类别的事件以及进行相关信息的确定和抽取,并以结构化形式呈现给用户。事件抽取一般分为两个子任务,一是事件的自动抽取与分类,即对事件的类别进行判别;二是事件要素的抽取,即对事件涉及的关键要素(论元)进行抽取和分类。已有的事件抽取任务大多针对公开的ace2005和kbp2015语料,其中ace2005定义了8种事件类别(life、movement、conflict、contact等)和33种子类别(born、marry、injury、transport、attack等);而针对论元分类,不同类别的事件则包含不同的论元类别,全部的论元类别一共包括35类(agent、person、time、place等)。
12.已有的事件抽取工作,从采用方法的角度,可以分为基于模式的方法和基于机器学习的方法;从子任务关联的角度,可以分为流水线学习的方法和联合学习的方法;从面向文本级别的角度,可以分为句子级事件抽取和篇章级事件抽取。
13.传统的事件抽取方法大多采用基于模式的方法,其中分为语法模式和语义模式两种。语法模式的主要思想是通过句子的语法成分来进行事件抽取,典型的方法是利用触发词和事件论元的语法关系来完成事件抽取;语义模式则主要通过事件和论元的语义关系来进行识别,例如通过本体知识库的描述关系完成事件论元的检测。基于模式的方法具有很好的可解释性,但需要大量专家知识,领域迁移性较差。
14.随着计算能力的提升以及高质量数据集的出现,采用深度神经网络的表示学习方法成为目前的主流方法。近年随着语言模型任务受到了越来越多的关注,人们开始训练语言模型帮助下游任务提升性能,而bert、elmo等语言模型在事件抽取任务上取得了良好的效果,通过在大规模无标注数据上进行的预训练,使模型能够有效应用于小规模数据集,有效提升了事件抽取模型是实用性。
15.多任务学习是一种对于多个相关但不完全相同的任务的深度学习方法,通过使不同的任务在学习中共享模型的一部分参数,从而达到使模型减小过拟合风险、增强泛化性能,并在多个目标任务上同时提升性能的目的。通常多个任务共享的信息是输入信息的浅层表示,按照参数共享的方式可以分为硬(hard)共享机制和软(soft)共享机制。
16.硬参数共享(hard parameter sharing)指多个任务模型的底层特征提取参数完全共享,而顶层与任务直接相连的参数在模型之间各自独立;软参数共享(soft parameter sharing)指各个任务模型的底层参数既不完全共享也不相互独立,而是通过一定的方法进行融合后接入顶层模型,以达到多任务学习的目的。
技术实现要素:17.为克服现有事件信息抽取技术(包含事件分类、事件抽取和关键词抽取任务)在准确率、召回率低等不足,本发明的目的是提出一种基于深度语义表示和多任务学习模型的事件信息抽取方法及系统。
18.为实现上述目的,本发明采用的技术方案如下:
19.一种基于深度语义和多任务学习的事件信息抽取方法,包括以下步骤:
20.构建事件分类模块,利用该模块对突发事件文本进行段落切分,利用预训练语言模型bert获得每个段落的向量表示,然后将每个段落的向量表示进行融合,通过线性分类器获得事件类别;
21.构建事件论元抽取模块,利用该模块对突发事件文本利用bert获得文本序列每个字符对应的标签序列,然后通过条件随机场crf建模标签之间的关系,使用维特比算法解码获得实体标签,再通过线性分类器对实体进行分类,获取对应的事件论元及论元类别;
22.构建关键词抽取模块,利用该模块获取突发事件文本的候选主题词,然后通过bert获取句子和候选主题词的向量表示,再将各个向量表示聚类为若干个语义中心,再然后找出向量表示距离语义中心最近的候选主题词,根据这些候选主题词与突发事件文本的相似度抽取出关键词;
23.通过人工标注了事件类别、论元类别和关键词的突发事件文本训练对应的事件分类模块、事件论元抽取模块和关键词抽取模块,该三个模块训练完成后用来处理待抽取的突发事件文本,获得事件类别、事件论元和关键词并作为抽取的事件信息。
24.进一步地,突发事件文本在输入到所述三个模块之前,预先进行数据清洗。
25.进一步地,在事件分类模块处理中,获取每个段落起始符[cls]的最后隐层向量作为该段落的向量表示。
[0026]
进一步地,在事件分类模块处理中,将每个段落的向量表示取平均值,然后融合为一个向量表示。
[0027]
进一步地,在事件分类模块处理中,通过线性分类器获得每个段落的分类结果,然后统计所有段落的分类结果并进行投票,将获得最多票数的分类结果作为该突发事件文本的事件类别。
[0028]
进一步地,在关键词抽取模块处理中,通过数据预处理,使用正则表达式去掉输入的突发事件文本的停用词。
[0029]
进一步地,在关键词抽取模块处理中,如果突发事件文本的长度超出了bert的最大输入长度,则将文本划分为若干个语段或语句。
[0030]
进一步地,在关键词抽取模块处理中,采用k-means聚类算法进行聚类。
[0031]
进一步地,在关键词抽取模块处理中,候选主题词与突发事件文本的相似度是指候选主题词与突发事件文本的向量表示之间的余弦相似度,通过计算这两个向量的夹角余
弦值来评估二者之间的相似度。
[0032]
进一步地,训练所述三个模块时,分别计算事件分类、事件论元抽取、事件关键词抽取的损失函数,采用硬参数共享机制共享底层bert模型参数,通过调整三个损失函数的权重,计算总损失函数。
[0033]
一种基于深度语义和多任务学习的事件信息抽取系统,包括:
[0034]
事件分类模块,用于对突发事件文本进行段落切分,利用预训练语言模型bert获得每个段落的向量表示,然后将每个段落的向量表示进行融合,通过线性分类器获得事件类别;
[0035]
事件论元抽取模块,用于对突发事件文本利用bert获得输入文本序列对应的标签序列,然后通过条件随机场crf建模标签之间的关系,利用维特比算法解码获得实体标签,再通过线性分类器对实体进行分类,获取对应的事件论元及论元类别;
[0036]
关键词抽取模块,用于获取突发事件文本的候选主题词,然后通过bert获取句子和候选主题词的向量表示,再将各个向量表示聚类为若干个语义中心,再然后找出向量表示距离语义中心最近的候选主题词,根据这些候选主题词与突发事件文本的相似度抽取出关键词;
[0037]
其中,事件分类模块、事件论元抽取模块和关键词抽取模块分别通过人工标注了事件类别、论元类别和关键词的突发事件文本进行训练,训练完成后处理待抽取的突发事件文本,获得事件类别、事件论元和关键词并作为抽取的事件信息。
[0038]
本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取,获得事件的主要信息。本发明通过实施例验证了,在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率,证明了本发明的技术方案的有效性。
附图说明
[0039]
图1是本发明实施例中的事件信息抽取方法流程示意图。
[0040]
图2是模块训练阶段多任务学习过程示意图。
具体实施方式
[0041]
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
[0042]
本实施例具体公开了一种基于深度语义和多任务学习的事件信息抽取方法,如图1所示,该方法包括以下步骤:
[0043]
1)首先收集网络新闻或社交媒体突发事件的报道文本,对其进行数据清洗,清除原文本中一些乱码和非法字符、重复字符、非中文的无关内容、网页中无关内容(如广告)等;
[0044]
2)为了进行事件分类,对事件所在整体文本进行段落切分处理,使每个段落长度能够适应模型训练批次的大小和机器显存容量,利用bert得到每个段落的向量表示,并综合所有段落的向量表示接入分类层进行突发事件的分类;
[0045]
3)根据bert获取文本字符的向量表示进行事件论元的抽取,利用条件随机场建模
不同事件论元标签之间的关系,在bert后接入crf条件随机场,对字符进行标签分类,使用维特比算法进行解码,抽取文本中的事件论元(人物、时间、地点、触发词等);
[0046]
4)利用相似性计算方法进行关键词抽取。将文章总体的向量表示作为语义中心,文章词语的bert向量表示与文章总的语义中心进行相似度计算,根据阈值筛选出相似度最高的几个词添加到文章的关键词列表;
[0047]
5)根据文本的向量表示在预训练模型后加入事件分类模块、事件论元抽取模块、关键词抽取模块进行多任务学习。其中事件分类模块的任务为判定突发事件文本的事件类别(例如自然灾害类、社会安全类、责任事故类、公共卫生类),事件论元抽取模块的任务是对该文本中的一些论元(人物、时间、地点、触发词)进行抽取,关键词抽取模块在文本中对主题词进行抽取形成关键词列表,得到事件的总体分析结果。
[0048]
对本方法具体说明如下:
[0049]
1)本方法使用bert以及线性分类器进行事件的四分类。
[0050]
2)本方法使用bert、线性分类器和维特比解码方法抽取文本中的事件论元。
[0051]
3)本方法使用k-means聚类算法和余弦相似度计算方法获得文本的关键词。
[0052]
4)本方法使用硬参数共享机制的多任务学习方法在以上3个任务上进行学习同时增强模块在3个任务的性能。
[0053]
5)为了验证本方法的事件分析效果,本实施例构建了一个4类突发事件的数据集,具体情况见下表1:
[0054]
表1数据集具体情况统计表
[0055]
类别总数自然灾害社会安全责任事故公共卫生数量1132415348200169
[0056]
本实施例的目标是进行突发事件的信息抽取,针对事件信息抽取的3个子任务,本实施例通过包含对应的事件分类、事件论元抽取、关键词抽取三个模块的基于深度语义和多任务学习的事件信息抽取系统来完成,这三个模块在训练中使用了多任务学习的方法来增强模型综合性能。本系统还包括一个预处理模块,对获得的突发事件文本进行数据清洗和预处理。
[0057]
模块1:事件分类模块。对于事件多分类任务,本实施例通过bert将文本的字转化为向量表示,并给出段首表示符号[cls]作为事件文本总的向量表示,这个向量融合了整篇文章的语义信息,使其能够作为下游分类器的输入提高分类的准确性。在本数据集中,文章文本长度从50字左右至1000字以上,跨越两个数量级。由于bert输入限制token为512个,所以不能直接处理长文本。由于本模块所进行的分类属于主题分类问题,所以每篇文章的长区间上下文关系并不对文章总体所属于的类别产生很大的影响,分类的主要依据在于一些属于类别的事件、关键词是否出现,因此发明人认为对文章进行分段处理后再聚合表示的方法不会对bert的性能产生太大的影响。为使模块能够处理不同长度规模的文本,首先将整篇文章按50字左右的小段落进行划分,将该段落文本作为模型的输入,获取其起始符[cls]的最后隐层向量作为该段落的向量表示;然后将每个段落的向量表示取均值,融合为一个向量表示,作为文章整体的向量表示并输入模型下游分类器中获得分类结果。
[0058]
通过以上关键技术的突破,有效解决了不同长度应用基于bert的分段聚合进行文本表示的方法,实现了在不进行截断处理的情况下处理任意长度的文本主题分类;应用
bert将大规模无标注语料上的语言表示知识向小规模标注数据进行迁移,实现了在小数据集上的良好分类效果。如下表2所示:
[0059]
表2文本事件分类结果测试统计表
[0060]
类别总数据自然灾害社会安全责任事故公共卫生准确率86.31%88.24%73.68%83.33%100.00%召回率85.94%93.75%87.50%62.50%100.00%
[0061]
模块2:事件论元抽取模块。首先采用bert获得实体字符的向量表示,同时由于一个实体通常包括两个或两个以上的字符,因此建立实体字符之间的关系是必要的。本模块通过条件随机场建模不同标签之间的联系。其中,字符是指原文本中的字符。对于标签,在本实施例中是指按照bieso体系对原文本中每个字符由模型给出的标签,其中b表示实体的起始,i表示实体中间,e表示实体结尾,s表示单个字符的实体,o表示其他。例如“小明看了奥运会”,其应该生成的标签是“besobie”,其中“小明be”表示(人物)论元,“看sbe”为事件触发词,“奥运会bie”是一个(事物)论元;“了o”为其他。其中的合法的连续标注“小明be”“看s”“奥运会bie”等称为实体,再由后续的分类器识别这些实体是什么论元,如“人物”“时间”“地点”等,如果不是需要的事件论元则分类为“其他”。因为这些标签是有内部规则的,如bie、biie、be、o、s等为合法标注,bbe、ie等按照标签定义是不合法标注,但神经网络生成的标签不一定符合这些规则,所以需要用crf网络和维特比算法来解码出序列的最优标注,使这些标签符合语义和标签规则。
[0062]
条件随机场具体公式如下:
[0063][0064]
其中,score(x,y)表示文本序列x下标签序列y的路径总得分,为状态(即标签)yi到y
i+1
的状态转移得分,为状态生成得分,n表示状态数量。该文本序列x表示原文本的序列,例如x=“小明看了奥运会”,y是对应x的由神经网络(bert)给出的标签序列,如“besobie”。这里将序列y中“b
→e→s→o→b→i→
e”这样的标签变化过程建模为状态转移过程,其中状态的生成主要受上游神经网络识别出的语义影响,给出生成概率;状态转移主要受crf模型建模的标注规则影响,给出状态转移概率。二者共同影响一个标注序列的总体得分。由于神经网络可能给出的y标签序列是错误的,所以要对不同序列给出路径打分并用维特比算法解码计算出正确的标签序列。关于状态转移得分,例如按照bieso,规则是b状态转移到i状态或者e状态是合理的,b转移到o或者s状态是非法的,后者对应的状态转移得分就会很低。
[0065]
获得标签序列时采用维特比算法进行解码。维特比算法是一种动态规划算法,用于寻找最有可能产生观测事件序列的路径,最终得到最终标签序列。获得正确的标签序列后,通过分类器对实体标签进行论元类别的分类。
[0066]
在测试集中,事件论元抽取达到了90%以上的准确率。
[0067]
模块3:关键词抽取模块。在中文的自然文本中存在大量冗余的停用词,停用词通常包括功能词和词汇词两种,如一般、因为等词汇,这些词汇在文本中出现极其普遍,比其他词相比,没有实际的含义,不是本模块抽取主题词的目标,过多的停用词会降低抽取主题
词的准确率。因此本实施例首先需要进行数据预处理,使用正则表达式去掉停用词,以提高抽取主题词的准确率。然后通过文本特征提取,构造一个候选主题词列表。然后采用bert获得句子和候选主题词文本的语义表示,获取不同主题词的语义相似性和释义识别。对于较长篇幅的文章,使用bert无法直接获得完整的语义向量表示(bert的输入长度有限制)。为此本模块采用与事件分类模块中类似的方法,将文本划分为数个语段或语句,分别获得其向量表示,然后采用k-means聚类算法,将各个向量表示进行聚类获得k个语义中心,之后将向量表示距离这k个语义中心最近的几个候选主题词进行以下相似度计算。
[0068]
为了计算候选主题词和原文本之间的相似度,本实施例将使用向量之间的余弦相似度,通过计算两个向量的夹角余弦值来评估他们的相似度,最终得到最能表达文本内容的主题词即关键词,具体公式如下:
[0069][0070]
其中cosinesimilarity(u,v)向量表示u,v的余弦相似度。
[0071]
在测试集中,事件的关键词抽取达到了80%以上的准确率。
[0072]
多任务学习:如图2所示,在训练过程中,对以上三个模块进行多任务学习,各任务的损失函数分别设计为:
[0073][0074][0075][0076]
其中j
class
,j
arg
,j
key
分别表示事件分类、事件论元抽取、事件关键词抽取3个任务的损失函数,m,n,k分别代表事件总类别数、论元个数、关键词个数,和代表数据的真实标签,和代表模块的预测标签(以上公式中log的底数均为2)。采用硬参数共享机制使3个任务共享底层bert模型参数,并将总的损失函数设计为:
[0077]
j=λj
class
+βj
arg
+(1-λ-β)j
key
[0078]
其中j是总损失函数,λ和β是衡量各个损失函数权重的超参数,在验证集上进行调整。
[0079]
通过上述实施例,证明了本发明方法在突发事件信息抽取任务上的有效性,在突发事件分类、事件论元、关键词抽取三个任务上都取得了很好的效果。
[0080]
虽然本发明已以实施例公开如上,然其并非用以限定本发明,本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换,均应涵盖于本发明的保护范围内,本发明的保护范围以权利要求所限定者为准。
技术特征:1.一种基于深度语义和多任务学习的事件信息抽取方法,其特征在于,包括以下步骤:构建事件分类模块,利用该模块对突发事件文本进行段落切分,利用预训练语言模型bert获得每个段落的向量表示,然后将每个段落的向量表示进行融合,通过线性分类器获得事件类别;构建事件论元抽取模块,利用该模块对突发事件文本利用bert获得文本序列每个字符对应的标签序列,然后通过条件随机场crf建模标签之间的关系,使用维特比算法解码获得实体标签,再通过线性分类器对实体进行分类,获取对应的事件论元及论元类别;构建关键词抽取模块,利用该模块获取突发事件文本的候选主题词,然后通过bert获取句子和候选主题词的向量表示,再将各个向量表示聚类为若干个语义中心,再然后找出向量表示距离语义中心最近的候选主题词,根据这些候选主题词与突发事件文本的相似度抽取出关键词;通过人工标注了事件类别、论元类别和关键词的突发事件文本训练对应的事件分类模块、事件论元抽取模块和关键词抽取模块,该三个模块训练完成后用来处理待抽取的突发事件文本,获得事件类别、事件论元和关键词并作为抽取的事件信息。2.如权利要求1所述的方法,其特征在于,突发事件文本在输入到所述三个模块之前,预先进行数据清洗。3.如权利要求1所述的方法,其特征在于,在事件分类模块处理中,获取每个段落起始符[cls]的最后隐层向量作为该段落的向量表示;将每个段落的向量表示取平均值,然后融合为一个向量表示。4.如权利要求1所述的方法,其特征在于,在事件分类模块处理中,通过线性分类器获得每个段落的分类结果,然后统计所有段落的分类结果并进行投票,将获得最多票数的分类结果作为该突发事件文本的事件类别。5.如权利要求1所述的方法,其特征在于,在关键词抽取模块处理中,通过数据预处理,使用正则表达式去掉输入的突发事件文本的停用词。6.如权利要求1所述的方法,其特征在于,在关键词抽取模块处理中,采用k-means聚类算法进行聚类。7.如权利要求1所述的方法,其特征在于,在关键词抽取模块处理中,如果突发事件文本的长度超出了bert的最大输入长度,则将文本划分为若干个语段或语句。8.如权利要求1所述的方法,其特征在于,在关键词抽取模块处理中,候选主题词与突发事件文本的相似度是指候选主题词与突发事件文本的向量表示之间的余弦相似度,通过计算这两个向量的夹角余弦值来评估二者之间的相似度。9.如权利要求1所述的方法,其特征在于,训练所述三个模块时,分别计算事件分类、事件论元抽取、事件关键词抽取的损失函数,采用硬参数共享机制共享底层bert模型参数,通过调整三个损失函数的权重,计算总损失函数。10.一种基于深度语义和多任务学习的事件信息抽取系统,其特征在于,包括:事件分类模块,用于对突发事件文本进行段落切分,利用预训练语言模型bert获得每个段落的向量表示,然后将每个段落的向量表示进行融合,通过线性分类器获得事件类别;事件论元抽取模块,用于对突发事件文本利用bert获得输入文本序列对应的标签序列,然后通过条件随机场crf建模标签之间的关系,利用维特比算法解码获得实体标签,再
通过线性分类器对实体进行分类,获取对应的事件论元及论元类别;关键词抽取模块,用于获取突发事件文本的候选主题词,然后通过bert获取句子和候选主题词的向量表示,再将各个向量表示聚类为若干个语义中心,再然后找出向量表示距离语义中心最近的候选主题词,根据这些候选主题词与突发事件文本的相似度抽取出关键词;其中,事件分类模块、事件论元抽取模块和关键词抽取模块分别通过人工标注了事件类别、论元类别和关键词的突发事件文本进行训练,训练完成后处理待抽取的突发事件文本,获得事件类别、事件论元和关键词并作为抽取的事件信息。
技术总结本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。词抽取三方面达到了非常高的准确率。词抽取三方面达到了非常高的准确率。
技术研发人员:赵淳璐 潘进 刘洋 柳毅 姚晓 李紫微 陈牧谦 骆奕霖 方芳 曹亚男
受保护的技术使用者:中国科学院信息工程研究所
技术研发日:2022.06.29
技术公布日:2022/11/1