一种人机协同语料库构建方法及系统

专利2024-04-03  103



1.本发明涉及语料库构建领域,特别是涉及一种人机协同语料库构建方法及系统。


背景技术:

2.对于语料库的构建来说,主要工作是根据人工制定的实体关系类型以及标注规范对数据进行标注。目前语料的标注模式主要有3种,第一种是领域专家标注,该标注模式适用于专业领域的语料标注,能够确保标注的质量,但标注成本高,周期长;第二种是众包标注,该标注模式利用在线用户对同一数据进行标注,并进行投票来获取标注,该方法的标注成本较低,但仅适用于简单的且要求不多的领域知识的标注任务;第三种是团体标注,这种标注模式可以不依赖专家,且最后构建的语料库质量较高,但对标注团体的要求很高。这三种语料标注模式都属于人工标注方式。人工标注方式可以在相对较少的语料准备下完成,并且可以在相当复杂的现象上以较高的质量完成。但是人工标注周期较长,实施难度大,在当前大数据时代下,开展覆盖数万条数据的大规模标注工作是一项重大任务。而机器标注速度较快,周期较短,可以在较短的时间内完成语料库的构建,但纯机器标注质量较差。


技术实现要素:

3.本发明的目的是提供一种人机协同语料库构建方法及系统,以解决现有技术中的人工标注的周期长且机器标注的质量较差的问题。
4.为实现上述目的,本发明提供了如下方案:
5.一种人机协同语料库构建方法,包括:
6.构建语料库自动标注模型和数据集;所述数据集中的文本包括学科教材、教学设计和导学案;
7.对所述数据集进行人工标注,得到人工标注结果并构建基础语料库;人工标注包括人工预标注和人工正式标注;所述人工标注结果包括人工正式标注结果和人工预标注结果;
8.利用所述基础语料库对所述语料库自动标注模型进行训练,得到训练后的语料库自动标注模型;
9.利用所述训练后的语料库自动标注模型对待标注文本进行机器标注,得到机器标注结果;所述待标注文本为所述人工正式标注时所选取的文本;
10.对所述机器标注结果与所述人工正式标注结果进行标注一致性计算,得到第一标注一致性;
11.判断所述第一标注一致性是否达到第一标注一致性阈值,得到判断结果;
12.若所述判断结果为所述第一标注一致性达到所述第一标注一致性阈值,则输出所述训练后的语料库自动标注模型,将所述训练后的语料库自动标注模型作为语料库;
13.若所述判断结果为所述第一标注一致性未达到所述第一标注一致性阈值,则扩充所述基础语料库,并返回“利用所述基础语料库对所述语料库自动标注模型进行训练,得到
训练后的语料库自动标注模型”的步骤。
14.可选地,所述构建语料库自动标注模型和数据集,之后还包括:
15.对所述数据集进行预处理,得到处理后的数据集。
16.可选地,所述对所述数据集进行预处理,得到处理后的数据集,具体包括:
17.对所述文本进行格式转换,得到预设格式的文本;
18.剔除所述预设格式的文本中的不规则文本,得到处理后的数据集;所述不规则文本包括表格、图片、学校名称和教师名称。
19.可选地,所述对所述数据集进行人工标注,得到基础语料库,具体包括:
20.根据知识的维度和其他领域的分类方法,结合初中数学学科的特点,制定标注规范;所述其他领域包括医学领域和军事领域;
21.对所述处理后的数据集进行词法和句法分析,构建事件三元组;
22.根据所述事件三元组对第一预设数量的文本进行两次人工预标注,得到预标注结果,并根据所述预标注结果更新所述标注规范;所述预标注结果第一预标注结果和第二预标注结果;
23.根据所述事件三元组对第二预设数量的文本进行两次人工正式标注,得到人工正式标注结果,并构建基础语料库;所述人工正式标注结果包括第一正式标注结果和第二正式标注结果;所述第二预设数量的文本与所述第一预设数量的文本不同。
24.可选地,所述根据所述事件三元组对第一预设数量的文本进行两次人工预标注,得到预标注结果,并根据所述预标注结果更新所述标注规范,具体包括:
25.根据所述事件三元组对第一预设数量的文本进行两次人工预标注,得到预标注结果;
26.计算所述第一预标注结果和所述第二预标注结果的第二标志一致性;
27.判断是否迭代预设次数,得到第二判断结果;
28.若所述第二判断结果为未迭代所述预设次数,则对比所述第一预标注结果和所述第二预标注结果,得到对比结果;
29.根据所述对比结果更新所述标注规范,得到新的标注规范,并返回“根据所述事件三元组对第一预设数量的文本进行两次人工预标注,得到预标注结果”;
30.若所述第二判断结果为迭代所述预设次数,则结束所述人工预标注,并输出所述新的标注规范。
31.可选地,所述根据所述事件三元组对第二预设数量的文本进行两次人工正式标注,得到人工正式标注结果,并构建基础语料库,具体包括:
32.根据所述事件三元组对第二预设数量的文本进行两次人工正式标注,得到人工正式标注结果;
33.计算所述第一正式标注结果和所述第二正式标注结果的第三标注一致性;
34.判断所述第三标注一致性是否达到第二标注一致性阈值,得到第三判断结果;
35.若所述第三判断结果为所述第三标注一致性达到所述第二标注一致性阈值,则完成所述人工正式标注,并输出所述人工正式标注结果;
36.根据所述人工正式标注结果构建所述基础语料库;
37.若所述第三判断结果为所述第三标注一致性未达到所述第二标注一致性阈值,则
返回“根据所述事件三元组对第二预设数量的文本进行两次人工正式标注,得到人工正式标注结果”。
38.一种人机协同语料库构建系统,包括:
39.模型和数据集构建模块,用于构建语料库自动标注模型和数据集;所述数据集中的文本包括学科教材、教学设计和导学案;
40.人工标注模块,用于对所述数据集进行人工标注,得到人工标注结果并构建基础语料库;人工标注包括人工预标注和人工正式标注;所述人工标注结果包括人工正式标注结果和人工预标注结果;
41.训练模块,用于利用所述基础语料库对所述语料库自动标注模型进行训练,得到训练后的语料库自动标注模型;
42.机器标注模块,用于利用所述训练后的语料库自动标注模型对待标注文本进行机器标注,得到机器标注结果;所述待标注文本为所述人工正式标注时所选取的文本;
43.计算模块,用于对所述机器标注结果与所述人工正式标注结果进行标注一致性计算,得到第一标注一致性;
44.判断模块,用于判断所述第一标注一致性是否达到第一标注一致性阈值,得到判断结果;
45.第一执行模块,用于若所述判断结果为所述第一标注一致性达到所述第一标注一致性阈值,则输出所述训练后的语料库自动标注模型,将所述训练后的语料库自动标注模型作为语料库;
46.第二执行模块,用于若所述判断结果为所述第一标注一致性未达到所述第一标注一致性阈值,则扩充所述基础语料库,并返回“利用所述基础语料库对所述语料库自动标注模型进行训练,得到训练后的语料库自动标注模型”的步骤。
47.可选地,还包括:
48.数据处理模块,用于对所述数据集进行预处理,得到处理后的数据集。
49.可选地,所述数据处理模块,包括:
50.格式转换单元,用于对所述文本进行格式转换,得到预设格式的文本;
51.数据剔除单元,用于剔除所述预设格式的文本中的不规则文本,得到处理后的数据集;所述不规则文本包括表格、图片、学校名称和教师名称。
52.可选地,所述人工标注模块,包括:
53.标注规范制定单元,用于根据知识的维度和其他领域的分类方法,结合初中数学学科的特点,制定标注规范;所述其他领域包括医学领域和军事领域;
54.数据分析单元,用于对所述处理后的数据集进行词法和句法分析,构建事件三元组;
55.预标注单元,用于根据所述事件三元组对第一预设数量的文本进行两次人工预标注,得到预标注结果,并根据所述预标注结果更新所述标注规范;所述预标注结果第一预标注结果和第二预标注结果;
56.正式标注单元,用于根据所述事件三元组对第二预设数量的文本进行两次人工正式标注,得到人工正式标注结果,并构建基础语料库;所述人工正式标注结果包括第一正式标注结果和第二正式标注结果;所述第二预设数量的文本与所述第一预设数量的文本不
同。
57.根据本发明提供的具体实施例,本发明公开了以下技术效果:
58.本发明的人机协同语料库构建方法及系统,通过构建语料库自动标注模型和数据集,对数据集进行人工标注并构建基础语料库,利用基础语料库对语料库自动标注模型进行训练,利用训练后的模型进行机器标注,计算两种标注方式的标注一致性,若标注一致性达到要求,则完成人机协同语料库的构建。本发明利用将人工标注和机器标注相结合的方法构建的人机协同语料库,能够缩短标注周期,且提高标注质量。
附图说明
59.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
60.图1为本发明提供的一种人机协同语料库构建方法的流程图;
61.图2为本发明的基于预训练语言模型的命名实体识别模型的结构图;
62.图3为本发明的基于图卷积神经网络的关系抽取模型的结构图;
63.图4为本发明的人工预标注流程图;
64.图5为本发明的人工正式标注流程图;
65.图6为本发明的模型自动标注识别结果图;
66.图7为本发明的人机协同标注流程图;
67.图8为本发明的人机协同语料库构建方法的整体框架图;
68.图9为本发明的提供的一种人机协同语料库构建系统的结构图。
具体实施方式
69.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
70.本发明的目的是提供一种人机协同语料库构建方法及系统,以解决现有技术中的人工标注的周期长且机器标注的质量较差的问题。人机协同语料库构建方法主要包括人工处理和机器处理两个阶段,其中人工处理阶段包括数据收集与处理,标注规范制定和人工标注;机器处理阶段包括词法句法分析和机器标注。
71.本发明在人工标注的基础上加入机器处理操作,研究人机协同构建语料库的方法。并以初中数学学科为例,参考布鲁姆在《教育目标分类学》中对知识的分类维度以及其他领域(如医疗领域、军事领域等)的分类方法,并结合初中数学知识特点,制定了实体和关系类别,构建了初中数学语料库,对后续教育知识图谱的构建与应用具有实际支撑作用。
72.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
73.图1为本发明提供的一种人机协同语料库构建方法的流程图,如图1所示,方法包
embedding句向量和position embedding位置向量,采用transformer encoder结构,可以根据语境的语义关系来表示语境中词的具体语义。transformer是基于注意力机制对初中数学句子进行建模,attention方式是self-attention,通过学习三个参数,对同一个embedding后的feature进行转换,计算出本句的attention得分,计算如公式(1)所示。
[0088][0089]
其中q,k和v是输入字向量矩阵,dk是维数,qk
t
用于计算输入词向量之间的关系,缩小dk后,通过softmax归一化获得权重表示。最后,输出是初中数学句子中所有词向量的加权和,因此每个词的表示都包含初中数学句子中其他词的信息,该信息与上下文有关,并且比传统词嵌入模型更具全局性。
[0090]
bilstm接收bert-wwm预训练模型生成的字符embedding,并预测每个字符标签的概率。双向lstm结构可以更有效地使用上下文信息,每个初中数学句子按顺序和相反的顺序计算,然后通过向量拼接的方式获得隐藏层表示。设上个时刻的输入为h
t-1
,这一时刻的输入为x
t
,那么有如下公式。
[0091]ft
=σ(wf·
[h
t-1
,x
t
]+bf)
[0092]it
=σ(wi·
[h
t-1
,x
t
]+bi)
[0093][0094][0095]ot
=σ(wo·
[h
t-1
,x
t
]+bo)
[0096]ht
=o
t
·
tanh
·
(s
t
)
[0097]
其中,σ是sigmoid激活函数,f
t
是遗忘门,i
t
是输入门,o
t
是输出门,x
t
是当前的输入,tanh是双曲正切函数。bf是遗忘门的偏移向量,bi是输入门的偏移向量,bo是输出门的偏移向量,bc表示记忆单元的偏移向量,wf是遗忘门的权重矩阵,wi是输入门的权重矩阵,wo是输出门的权重矩阵,wc表示记忆单元的权重矩阵,表示当前时刻的状态,是由tanh层创建的新候选值向量,s
t
表示由状态s
t-1
更新的新单元状态,h
t
表示t时刻最终的输出。
[0098]
crf层的输入是来自bilstm层训练而得到的词向量。将crf层的输入记作x=(x1,x2,

,xn),其中xn表示第n个单词;预测序列y=(y1,y2,

,yn),其中yn表示第n个单词的预测标签。其得分函数表示如公式(3)所示。
[0099][0100]
利用softmax函数计算条件概率,如公式(4)。
[0101][0102]
其中,a
yi,yi+1
表示标签从yi到yi+1的转移概率,由crf学习的转移矩阵得到。p
i,yi
表示词xi在标签yi的非归一化概率,也称状态分数,由bilstm输出得到。表示除当前计算的yi之外,全集y中剩下的其他y。
[0103]
关系抽取(relation extraction,re)是在非结构或半结构化数据中找出主体与
客体之间存在的关系(若有两个存在着关系的实体,可将两个实体分别成为主体和客体),并将其表示为实体关系三元组,即(主体,关系,客体)。本发明使用的基于图卷积神经网络的关系抽取模型bert-gcn模型主要分为三部分,模型图如图3所示。
[0104]
首先将文本输入到bert预训练模型中提取上下文丰富的语义特征,并获得相应的词向量表示,同时对文本进行依存句法分析来构建依存句法图,进而获得图的邻接矩阵,用来存储句子的语法结构信息;其次将获得到的词向量和邻接矩阵送入到gcn中进行进一步的特征提取,最后经过softmax层对特征向量进行分类,做关系的概率预测。
[0105]
首先将文本输入到bert预训练模型中提取丰富的文本特征获得相应的词向量。其次,通过对输入的初中数学句子进行句法依存分析,构建句法依存图,图神经网络可以从依存结构中学习初中数学句子的语法信息。本文用g=(v,e)表示依存句法图,其中v=v1,v2...,vn表示图中的点集合,e=el,e2,...em表示图中的边集合,依存句法图所对应的邻接矩阵a如公式(5)所示。a
ij
为1时,代表顶点vi和vj存在一条边,a
ij
值为0,代表不存在边。
[0106][0107]
根据无向图的邻接矩阵存储法,可以通过依存句法分析得到邻接矩阵,并将邻接矩阵送入到图神经网络中进行进一步的特征提取,对于节点i的隐藏状态的计算过程如公式(6)所示。
[0108][0109]
其中a
ij
表示节点i和j在邻接矩阵中所对应的元素,w
(j)
表示节点j的权重矩阵,hj表示节点j的隐藏状态,b
(j)
表示节点j的偏置,f表示非线性函数,本发明使用的是relu非线性函数。
[0110]
第l层的图神经网络,输入由l-1层的输出和邻接矩阵组成,经过1层运算后,节点i经过l层图神经网络后的隐藏状态表示如公式(7)所示。
[0111][0112]
其中w
(l)
表示第l层的权重矩阵,h
j(l-1)
表示节点j经过l-1层图神经网络后的隐藏状态,b
(l)
表示第l层的偏置。
[0113]
经过l层图卷积操作后,如果片面地应用图卷积运算,可能会导致节点表示的结果不相同,因为节点的度变化很大。这可能会影响到高度节点的句子表示,不管节点包含什么信息,第l-1层图神经网络中的节点信息被转移到第l层。因此,数据在被发送到非线性层之前被归一化,并且在每个图节点上添加了自循环。如公式(8)所示。
[0114][0115]
其中i是单位矩阵,是节点i的度。
[0116]
本发明的关系抽取任务可以看作是多分类任务,最后通过softmax函数分类器得到关系的概率分布,预测关系标签,并在训练过程中使用交叉熵函数作为模型的损失函数。
[0117]
步骤102:对所述数据集进行人工标注,得到人工标注结果并构建基础语料库。人
工标注包括人工预标注和人工正式标注;所述人工标注结果包括人工正式标注结果和人工预标注结果。
[0118]
作为一个可选的实施方式,所述步骤102,具体包括:
[0119]
步骤1021:根据知识的维度和其他领域的分类方法,结合初中数学学科的特点,制定标注规范。所述其他领域包括医学领域和军事领域。
[0120]
在实际应用中,本发明参考布鲁姆在《教育目标分类学》中对知识的分类维度以及其他领域(如医疗领域、军事领域等)的分类方法,并结合初中数学知识特点,制定了三种实体类别,知识点、知识单元、知识簇。其中知识点是最小的、不可再分的知识;知识单元下有多个不可再分的知识点;知识簇是对这一类型的知识的总称。如表1所示。
[0121]
表1实体类别表
[0122][0123][0124]
五种关系类型,前驱后继、包含、平行、父子、兄弟。前驱后继关系代表实体a和b之间存在某种依赖即前驱和后继的关系。包含关系代表实体a和b之间存在整体和部分的关系。平行关系代表实体a和b之间存在一种并立的关系。父子关系代表实体a和b之间存在某些相同的属性。兄弟关系代表实体a和b之间具有相同的父类。如表2所示。
[0125]
表2关系类型表
[0126]
关系类型关系举例前驱后继关系(多项式,方程,前驱后继关系)包含关系(三角形,边,包含关系)平行关系(自变量,因变量,平行关系)父子关系(函数,一次函数,父子关系)兄弟关系(一次函数,二次函数,兄弟关系)
[0127]
在正式标注工作开始前,首先了解初中数学整体的教学体系、知识体系,然后完成标注规范的制定。首先,对于初中数学的实体存在嵌套的情况,导致在标注和识别过程中,可能会出现无法确认实体边界的情况。如文本中存在“二元一次方程组”这个实体,但这个词中同时也包含了“二元一次方程”和“方程”两个实体。因此,在标注和识别过程中,应根据上下文来确认实体边界。
[0128]
其次,对于初中数学中的实体通常由特定的结束字构成,如“实数”,“整数”,“复数”,“有理数”,都由“数”字作为结尾。因此,在实体的识别过程中,可以根据这一特征来增强标注的准确率。标注实体时,要遵循标注实体最大范围的原则,对于初中数学实体间的关系,在标注过程中如两个实体之间存在前驱后继关系,要确保前驱实体在前,后继实体在
后。如“方程”和“函数”存在前驱后继关系,那么标注的实体1为“方程”,实体2为“函数”。最后在标注时要保证标注的实体不存在重叠和嵌套,且标注的内容不能含有标点符号。
[0129]
步骤1022:对所述处理后的数据集进行词法和句法分析,构建事件三元组。在实际应用中,进行词法句法分析处理,先对文本进行中文分词,引入数学词库;然后进行句法分析,并结合语义角色分析构建出事件三元组。
[0130]
在实际应用中,中文分词指的是将一句话切分成一个单独的词。在跨领域分词中,往往存在大量专业领域术语词汇。然而,教育领域专业术语具有明显的学科倾向,专业性较强,现有的分词工具对教育领域下基础学科的专业词汇无法正确切分,对后续实验影响较大。例如本发明使用的分词工具jieba分词,会把“一元一次方程”切分成“一元”和“一次方程”两个词,“配方法”会切分成“配”和“方法”两个词。
[0131]
针对教育领域中文分词性能较差的问题,本发明加入数学词库,以提高分词的准确率。从搜狗输入法词库大全中下载数学词汇大全,但文件格式是scel,不能直接用于jieba分词中。对下载好的数学词汇大全进行文件格式转换,由原来的scel格式转换成utf-8编码的txt格式。转换后的数学词库共有135593个词汇,包含了各个阶段的数学词汇。该词库内每一个词汇自成一行。将此数学词库引入到jieba分词中,再次进行中文分词,对于上文中提到的“配”“方法”,“一元”“一次方程”等词汇的分词结果准确。证明在进行限定领域的中文分词时,引入该领域的专业词库会提升分词结果的准确率,更有助于进行后续的工作。
[0132]
在教育领域,由于教学设计文本中存在一些特殊的句法结构,如“在...的基础上,学习...”,“理解(认识、掌握)...”,这些句法结构可以明确看出实体之间的前驱后继关系。因此,在原有树库的基础上,加入教学设计中特有的一些特殊的句法结构来完成初中数学语料的中文句法分析,主要是以哈尔滨工业大学汉语依存树库进行标注分析。哈尔滨工业大学汉语依存树库数据来源于《人民日报》的语料,该树库总共包括8000条句子,其中依存关系有14类。
[0133]
以“学生已经学习了平方根的概念,这是学习立方根和实数的基础”这句话为例,依存关系类别中每列的具体含义如下表3所示,标注结果如表4所示,主要是注重本句话中的核心关系,以及主谓关系和动宾关系。
[0134]
表3符号含义表
[0135]
符号含义id序号form词语或标点lemma在中文中,和form相同cpostag词性(粗粒度)postag词性(细粒度)feats—head中心词下标deprel与中心词的依存关系
[0136]
表4标注结果表
[0137][0138][0139]
基于加入教学设计特殊句法结构的树库送入crf模型进行训练,将训练好的模型导入到pyltp句法分析器中进行初中数学语料的句法分析。除此之外,还在依存句法分析的基础上加入了语义角色分析,最后构建出简单的事件三元组来帮助人工进行关系标注。首先查看是否存在主谓宾的结构,如果存在则按照主谓宾的形式进行提取,否则换依存句法的方式。对于每个词生成一个依存句法的子节点;并对该词生成一个父子数组的依存结构,主要记录词性、父节点的词性以及他们的关系;循环每个词,找到具有动宾、定语后置动宾、介宾的主谓动补关系,进行提取。基于以上的提取过程,完成简单的事件三元组的构建。
[0140]
进行人工标注操作时,由两名标注人员基于分词结果和句法分析结果进行人工预标注与人工正式标注,在预标注阶段,由两名标注人员标注一部分相同的文本,这部分相同的文档主要是用来计算每次的标注一致性的,循环三轮,逐步完善标注规范。基于最新的标注规范完成正式标注,构建出基础语料库。
[0141]
步骤1023:根据所述事件三元组对第一预设数量的文本进行两次人工预标注,得到预标注结果,并根据所述预标注结果更新所述标注规范。所述预标注结果第一预标注结果和第二预标注结果。
[0142]
作为一个可选的实施方式,所述步骤1023,具体包括:
[0143]
根据所述事件三元组对第一预设数量的文本进行两次人工预标注,得到预标注结
果。
[0144]
计算所述第一预标注结果和所述第二预标注结果的第二标志一致性。
[0145]
判断是否迭代预设次数,得到第二判断结果。
[0146]
若所述第二判断结果为未迭代所述预设次数,则对比所述第一预标注结果和所述第二预标注结果,得到对比结果。
[0147]
根据所述对比结果更新所述标注规范,得到新的标注规范,并返回“根据所述事件三元组对第一预设数量的文本进行两次人工预标注,得到预标注结果”。
[0148]
若所述第二判断结果为迭代所述预设次数,则结束所述人工预标注,并输出所述新的标注规范。
[0149]
在实际应用中,为了完善制定的标注规范,提高标注阶段的标注质量,在正式标注开始前,首先进行了语料预标注的工作。其中人工预标注流程如图4所示,随机选取50篇文档,由两名标注人员独立标注,并对不同的标注进行分析,在专业初中数学教师的指导下进行修改并完善标注规范,重复三轮,计算每轮的标注一致性。
[0150]
步骤1024:根据所述事件三元组对第二预设数量的文本进行两次人工正式标注,得到人工正式标注结果,并构建基础语料库。所述人工正式标注结果包括第一正式标注结果和第二正式标注结果;所述第二预设数量的文本与所述第一预设数量的文本不同。
[0151]
作为一个可选的实施方式,所述步骤1024,具体包括:
[0152]
根据所述事件三元组对第二预设数量的文本进行两次人工正式标注,得到人工正式标注结果。
[0153]
计算所述第一正式标注结果和所述第二正式标注结果的第三标注一致性。
[0154]
判断所述第三标注一致性是否达到第二标注一致性阈值,得到第三判断结果。
[0155]
若所述第三判断结果为所述第三标注一致性达到所述第二标注一致性阈值,则完成所述人工正式标注,并输出所述人工正式标注结果。
[0156]
根据所述人工正式标注结果构建所述基础语料库。
[0157]
若所述第三判断结果为所述第三标注一致性未达到所述第二标注一致性阈值,则返回“根据所述事件三元组对第二预设数量的文本进行两次人工正式标注,得到人工正式标注结果”。
[0158]
在实际应用中,在预标注的工作结束之后,进入到正式标注阶段,两名标注人员分别标注预标注之外的200份文档,同时随机抽取50份文档由两名标注人员共同标注,用于标注结束后计算标注一致性。正式标注阶段的流程如图5所示。
[0159]
完成实体的人工标注,将数据导出成ann格式。然后选取序列标注模式中的bio模式对导出数据进行序列标注,即将句子中的每个词都标注成“b-x”、“i-x”或“o”的形式,其中b是实体的开始,i是实体的中间或结尾,o不是实体。据此,结合定义的3类实体类型,共可以得到7类标签。其中知识点符号为“kno”,知识单元符号为“kun”,知识簇符号为“kng”。如表5所示,最终得到的带有bio标签的基础语料库。
[0160]
表5实体关系的人工标注结果表
[0161]
序号标签类型标签定义1b-kno知识点实体首字2i-kno知识点实体中间或结尾
3b-kun知识单元实体首字4i-kun知识单元实体中间或结尾5b-kng知识簇实体首字6i-kng知识簇实体中间或结尾7o不是实体
[0162]
完成关系的人工标注,将数据导出成ann格式并进行处理,最终形成训练关系抽取模型所需的格式(关系类型序号句子实体1开始位置实体1结束位置实体2开始位置实体2结束位置),其中实体1用“#”隔开,实体2用“$”隔开。其中关系类型对应的标签如表6所示。
[0163]
表6关系类型的标注结果表
[0164][0165][0166]
步骤103:利用所述基础语料库对所述语料库自动标注模型进行训练,得到训练后的语料库自动标注模型。
[0167]
在实际应用中,针对基于预训练语言模型的命名实体识别模型(bert-wwm-bilstm-crf)的训练,该模型训练数据所使用的数据来源于人机协同构建的初中数学语料库,其中实体语料库共有22803条句子,按照8:2的比例随机划分训练集和测试集。初中数学语料库的实体数量为2756个知识点kno、808个知识单元kun、185个知识簇kng。模型训练参数主要包括采用adam优化器,批处理参数batch_size设置为64,迭代次数epoch设置为100,学习率设置为5e-5,失活率drop_out_rate设置为0.5,最大序列长度max_seq_length设置为128。基于预训练语言模型的命名实体识别模型训练的损失函数如下所示:
[0168][0169]
其中,z(x)表示crf得分累和函数,其中score(
·
)得分函数为crf中的发射概率和转移概率之和。
[0170]
针对基于图卷积神经网络的关系抽取模型(bert-gcn)的训练,该模型训练数据所使用的三元组数据来源于第三章的初中数学语料库,关系语料库共有26764条句子,实验中按照8:2的比例随机划分训练集和测试集。初中数学语料库的关系包括6351个前驱后继关系、2044个包含关系、554个平行关系、460个父子关系和209个兄弟关系。模型训练参数主要包括采用adam优化器,批处理参数batch_size设置为32,迭代次数epoch设置为100,学习率设置为1.7e-5,失活率drop_out_rate设置为0.4,最大序列长度max_seq_length设置为
128,权重衰减设置为1e-3。训练的损失函数采用交叉熵,如下所示:
[0171][0172]
其中,d表示关系类型个数,n表示三元组个数,y表示真实关系标签,z表示预测关系概率。
[0173]
步骤104:利用所述训练后的语料库自动标注模型对待标注文本进行机器标注,得到机器标注结果。所述待标注文本为所述人工正式标注时所选取的文本。
[0174]
在实际应用中,机器标注主要是通过训练好的模型(基于预训练语言模型的命名实体识别模型(bert-wwm-bilstm-crf)和基于图卷积神经网络的关系抽取模型(bert-gcn))来自动识别实体关系的过程。在得到用人工标注的基础语料库训练好的命名实体识别模型和关系抽取模型(训练后的语料库自动标注模型)后,将训练后的语料库自动标注模型嵌入到团队开发的标注工具中,用于机器自动标注。将待标注文本导入到标注工具中,开启自动标注模式后,标注工具会将模型的识别结果可视化地标注出来,如图6所示。
[0175]
步骤105:对所述机器标注结果与所述人工正式标注结果进行标注一致性计算,得到第一标注一致性。
[0176]
步骤106:判断所述第一标注一致性是否达到第一标注一致性阈值,得到判断结果。若是,则执行步骤107;若否,则执行步骤108。
[0177]
步骤107:输出所述训练后的语料库自动标注模型,将所述训练后的语料库自动标注模型作为语料库。
[0178]
步骤108:扩充所述基础语料库,并返回“步骤103”。
[0179]
在实际应用中,将人工正式标注时随机选取的50份文档也用于机器标注,目的是用于计算标注一致性。以人工标注的这50份文档为基准,并将机器标注与人工标注相同的那部分文档进行标注一致性对比,判断与机器标注的这50份文档的标注一致性是否达到了80%,如果未达到80%,需要扩充基础语料库继续训练模型,直到最后形成初中数学学科语料库,如果达到80%,则完成机器标注,形成最终的初中数学学科语料库。
[0180]
具体的,在人工和机器标注完成后,对语料库的标注一致性进行分析对比。本发明使用f值或kappa值来评价语料库的标注一致性。其中,kappa值通常用于评价标注的正例和负例,对于本发明的语料库来说,只能将未标注的语料作为负例,难以统计。对于这种情况,一般采用f值来评价,设两个标注方(人工和机器)分别为a和b,将a作为参照组(参照组的选择是随机的)来计算b的准确度p,计算公式为:
[0181][0182]
则b的召回率r为:
[0183][0184]
基于b的准确度p和召回率r,计算得到f值:
[0185]
[0186]
f值越高,则b标注的准确度越高,即标注一致性越高。计算实体标注一致性时,实体字符串和类型都一样时认为标注一致。上述指标同样运用在计算关系一致性时,实体对以及实体之间的关系都一样时标注一致。
[0187]
表7实体标注对比结果表
[0188][0189]
表8关系标注对比结果表
[0190][0191]
从表7和表8可以看出,预标注过程中,标注一致性的值每一轮是在逐渐变大的。这说明在每一轮预标注结束后,都会根据标注结果对标注规范进行进一步的修正,而标注规范的逐步完善也使得标注一致性逐渐提升。
[0192]
如果机器标注的语料库一致性未达到80%,那么需要扩充基础语料库,人工再标注1000条数据用来扩充基础语料库,扩充完成后再从第一步进行迭代,直到标注一致性大于80%。
[0193]
本发明中的人机协同语料库构建方法,人工处理阶段包括数据收集与处理,标注规范制定和人工标注;机器处理阶段包括词法句法分析和机器标注,如图7所示。该方法,在标注海量数据时,可以有效地减少人工标注的时间和成本,具有适用性,能够有效解决大规模数据标注的问题。
[0194]
图9为本发明提供的一种人机协同语料库构建系统的结构图,如图9所示,系统包括:
[0195]
模型和数据集构建模块901,用于构建语料库自动标注模型和数据集;所述数据集中的文本包括学科教材、教学设计和导学案。
[0196]
人工标注模块902,用于对所述数据集进行人工标注,得到人工标注结果并构建基础语料库。人工标注包括人工预标注和人工正式标注;所述人工标注结果包括人工正式标注结果和人工预标注结果。
[0197]
训练模块903,用于利用所述基础语料库对所述语料库自动标注模型进行训练,得到训练后的语料库自动标注模型。
[0198]
机器标注模块904,用于利用所述训练后的语料库自动标注模型对待标注文本进行机器标注,得到机器标注结果。所述待标注文本为所述人工正式标注时所选取的文本。
[0199]
计算模块905,用于对所述机器标注结果与所述人工正式标注结果进行标注一致性计算,得到第一标注一致性。
[0200]
判断模块906,用于判断所述第一标注一致性是否达到第一标注一致性阈值,得到判断结果。
[0201]
第一执行模块907,用于若所述判断结果为所述第一标注一致性达到所述第一标注一致性阈值,则输出所述训练后的语料库自动标注模型,将所述训练后的语料库自动标注模型作为语料库。
[0202]
第二执行模块908,用于若所述判断结果为所述第一标注一致性未达到所述第一标注一致性阈值,则扩充所述基础语料库,并返回“利用所述基础语料库对所述语料库自动标注模型进行训练,得到训练后的语料库自动标注模型”的步骤。
[0203]
作为一种可选的实施方式,还包括:
[0204]
数据处理模块,用于对所述数据集进行预处理,得到处理后的数据集。
[0205]
作为一种可选的实施方式,所述数据处理模块,包括:
[0206]
格式转换单元,用于对所述文本进行格式转换,得到预设格式的文本。
[0207]
数据剔除单元,用于剔除所述预设格式的文本中的不规则文本,得到处理后的数据集;所述不规则文本包括表格、图片、学校名称和教师名称。
[0208]
作为一种可选的实施方式,所述人工标注模块902,包括:
[0209]
标注规范制定单元,用于根据知识的维度和其他领域的分类方法,结合初中数学学科的特点,制定标注规范。所述其他领域包括医学领域和军事领域。
[0210]
数据分析单元,用于对所述处理后的数据集进行词法和句法分析,构建事件三元组。
[0211]
预标注单元,用于根据所述事件三元组对第一预设数量的文本进行两次人工预标注,得到预标注结果,并根据所述预标注结果更新所述标注规范。所述预标注结果第一预标注结果和第二预标注结果。
[0212]
正式标注单元,用于根据所述事件三元组对第二预设数量的文本进行两次人工正式标注,得到人工正式标注结果,并构建基础语料库。所述人工正式标注结果包括第一正式标注结果和第二正式标注结果;所述第二预设数量的文本与所述第一预设数量的文本不同。
[0213]
作为一种可选的实施方式,所述预标注单元,包括:
[0214]
预标注子单元,用于根据所述事件三元组对第一预设数量的文本进行两次人工预标注,得到预标注结果。
[0215]
第一计算子单元,用于计算所述第一预标注结果和所述第二预标注结果的第二标志一致性。
[0216]
第一判断子单元,用于判断是否迭代预设次数,得到第二判断结果。
[0217]
第一执行子单元,用于若所述第二判断结果为未迭代所述预设次数,则对比所述第一预标注结果和所述第二预标注结果,得到对比结果。
[0218]
更新子单元,用于根据所述对比结果更新所述标注规范,得到新的标注规范,并返
回“根据所述事件三元组对第一预设数量的文本进行两次人工预标注,得到预标注结果”。
[0219]
第二执行子单元,用于若所述第二判断结果为迭代所述预设次数,则结束所述人工预标注,并输出所述新的标注规范。
[0220]
作为一种可选的实施方式,所述正式标注单元,包括:
[0221]
正式标注子单元,用于根据所述事件三元组对第二预设数量的文本进行两次人工正式标注,得到人工正式标注结果。
[0222]
第二计算子单元,用于计算所述第一正式标注结果和所述第二正式标注结果的第三标注一致性。
[0223]
第二判断子单元,用于判断所述第三标注一致性是否达到第二标注一致性阈值,得到第三判断结果。
[0224]
第三执行子单元,用于若所述第三判断结果为所述第三标注一致性达到所述第二标注一致性阈值,则完成所述人工正式标注,并输出所述人工正式标注结果。
[0225]
基础语料库构建子单元,用于根据所述人工正式标注结果构建所述基础语料库。
[0226]
第四执行子单元,用于若所述第三判断结果为所述第三标注一致性未达到所述第二标注一致性阈值,则返回“根据所述事件三元组对第二预设数量的文本进行两次人工正式标注,得到人工正式标注结果”。
[0227]
本发明中人机协同语料库构建系统,可以完成人机协同构建语料库,对于数据驱动下的语料库构建方法研究具有参考价值,形成的初中数学学科语料库对后续教育知识图谱的构建与应用具有实际支撑作用。
[0228]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0229]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

技术特征:
1.一种人机协同语料库构建方法,其特征在于,包括:构建语料库自动标注模型和数据集;所述数据集中的文本包括学科教材、教学设计和导学案;对所述数据集进行人工标注,得到人工标注结果并构建基础语料库;人工标注包括人工预标注和人工正式标注;所述人工标注结果包括人工正式标注结果和人工预标注结果;利用所述基础语料库对所述语料库自动标注模型进行训练,得到训练后的语料库自动标注模型;利用所述训练后的语料库自动标注模型对待标注文本进行机器标注,得到机器标注结果;所述待标注文本为所述人工正式标注时所选取的文本;对所述机器标注结果与所述人工正式标注结果进行标注一致性计算,得到第一标注一致性;判断所述第一标注一致性是否达到第一标注一致性阈值,得到判断结果;若所述判断结果为所述第一标注一致性达到所述第一标注一致性阈值,则输出所述训练后的语料库自动标注模型,将所述训练后的语料库自动标注模型作为语料库;若所述判断结果为所述第一标注一致性未达到所述第一标注一致性阈值,则扩充所述基础语料库,并返回“利用所述基础语料库对所述语料库自动标注模型进行训练,得到训练后的语料库自动标注模型”的步骤。2.根据权利要求1所述的人机协同语料库构建方法,其特征在于,所述构建语料库自动标注模型和数据集,之后还包括:对所述数据集进行预处理,得到处理后的数据集。3.根据权利要求2所述的人机协同语料库构建方法,其特征在于,所述对所述数据集进行预处理,得到处理后的数据集,具体包括:对所述文本进行格式转换,得到预设格式的文本;剔除所述预设格式的文本中的不规则文本,得到处理后的数据集;所述不规则文本包括表格、图片、学校名称和教师名称。4.根据权利要求3所述的人机协同语料库构建方法,其特征在于,所述对所述数据集进行人工标注,得到基础语料库,具体包括:根据知识的维度和其他领域的分类方法,结合初中数学学科的特点,制定标注规范;所述其他领域包括医学领域和军事领域;对所述处理后的数据集进行词法和句法分析,构建事件三元组;根据所述事件三元组对第一预设数量的文本进行两次人工预标注,得到预标注结果,并根据所述预标注结果更新所述标注规范;所述预标注结果第一预标注结果和第二预标注结果;根据所述事件三元组对第二预设数量的文本进行两次人工正式标注,得到人工正式标注结果,并构建基础语料库;所述人工正式标注结果包括第一正式标注结果和第二正式标注结果;所述第二预设数量的文本与所述第一预设数量的文本不同。5.根据权利要求4所述的人机协同语料库构建方法,其特征在于,所述根据所述事件三元组对第一预设数量的文本进行两次人工预标注,得到预标注结果,并根据所述预标注结果更新所述标注规范,具体包括:
根据所述事件三元组对第一预设数量的文本进行两次人工预标注,得到预标注结果;计算所述第一预标注结果和所述第二预标注结果的第二标志一致性;判断是否迭代预设次数,得到第二判断结果;若所述第二判断结果为未迭代所述预设次数,则对比所述第一预标注结果和所述第二预标注结果,得到对比结果;根据所述对比结果更新所述标注规范,得到新的标注规范,并返回“根据所述事件三元组对第一预设数量的文本进行两次人工预标注,得到预标注结果”;若所述第二判断结果为迭代所述预设次数,则结束所述人工预标注,并输出所述新的标注规范。6.根据权利要求5所述的人机协同语料库构建方法,其特征在于,所述根据所述事件三元组对第二预设数量的文本进行两次人工正式标注,得到人工正式标注结果,并构建基础语料库,具体包括:根据所述事件三元组对第二预设数量的文本进行两次人工正式标注,得到人工正式标注结果;计算所述第一正式标注结果和所述第二正式标注结果的第三标注一致性;判断所述第三标注一致性是否达到第二标注一致性阈值,得到第三判断结果;若所述第三判断结果为所述第三标注一致性达到所述第二标注一致性阈值,则完成所述人工正式标注,并输出所述人工正式标注结果;根据所述人工正式标注结果构建所述基础语料库;若所述第三判断结果为所述第三标注一致性未达到所述第二标注一致性阈值,则返回“根据所述事件三元组对第二预设数量的文本进行两次人工正式标注,得到人工正式标注结果”。7.一种人机协同语料库构建系统,其特征在于,包括:模型和数据集构建模块,用于构建语料库自动标注模型和数据集;所述数据集中的文本包括学科教材、教学设计和导学案;人工标注模块,用于对所述数据集进行人工标注,得到人工标注结果并构建基础语料库;人工标注包括人工预标注和人工正式标注;所述人工标注结果包括人工正式标注结果和人工预标注结果;训练模块,用于利用所述基础语料库对所述语料库自动标注模型进行训练,得到训练后的语料库自动标注模型;机器标注模块,用于利用所述训练后的语料库自动标注模型对待标注文本进行机器标注,得到机器标注结果;所述待标注文本为所述人工正式标注时所选取的文本;计算模块,用于对所述机器标注结果与所述人工正式标注结果进行标注一致性计算,得到第一标注一致性;判断模块,用于判断所述第一标注一致性是否达到第一标注一致性阈值,得到判断结果;第一执行模块,用于若所述判断结果为所述第一标注一致性达到所述第一标注一致性阈值,则输出所述训练后的语料库自动标注模型,将所述训练后的语料库自动标注模型作为语料库;
第二执行模块,用于若所述判断结果为所述第一标注一致性未达到所述第一标注一致性阈值,则扩充所述基础语料库,并返回“利用所述基础语料库对所述语料库自动标注模型进行训练,得到训练后的语料库自动标注模型”的步骤。8.根据权利要求7所述的人机协同语料库构建系统,其特征在于,还包括:数据处理模块,用于对所述数据集进行预处理,得到处理后的数据集。9.根据权利要求8所述的人机协同语料库构建系统,其特征在于,所述数据处理模块,包括:格式转换单元,用于对所述文本进行格式转换,得到预设格式的文本;数据剔除单元,用于剔除所述预设格式的文本中的不规则文本,得到处理后的数据集;所述不规则文本包括表格、图片、学校名称和教师名称。10.根据权利要求9所述的人机协同语料库构建系统,其特征在于,所述人工标注模块,包括:标注规范制定单元,用于根据知识的维度和其他领域的分类方法,结合初中数学学科的特点,制定标注规范;所述其他领域包括医学领域和军事领域;数据分析单元,用于对所述处理后的数据集进行词法和句法分析,构建事件三元组;预标注单元,用于根据所述事件三元组对第一预设数量的文本进行两次人工预标注,得到预标注结果,并根据所述预标注结果更新所述标注规范;所述预标注结果第一预标注结果和第二预标注结果;人工标注单元,用于根据所述事件三元组对第二预设数量的文本进行两次人工正式标注,得到人工正式标注结果,并构建基础语料库;所述人工正式标注结果包括第一正式标注结果和第二正式标注结果;所述第二预设数量的文本与所述第一预设数量的文本不同。

技术总结
本发明涉及一种人机协同语料库构建方法及系统,属于语料库构建领域。本发明的方法,通过构建语料库自动标注模型和数据集,对数据集进行人工标注并构建基础语料库,利用基础语料库对语料库自动标注模型进行训练,利用训练后的模型进行机器标注,计算两种标注方式的标注一致性,若标注一致性达到要求,则完成人机协同语料库的构建。本发明利用将人工标注和机器标注相结合的方法构建的人机协同语料库,能够缩短标注周期,且提高标注质量。且提高标注质量。且提高标注质量。


技术研发人员:周东岱 董晓晓 顾恒年 李振 邬伟业
受保护的技术使用者:东北师范大学
技术研发日:2022.07.22
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-7533.html

最新回复(0)