1.本发明属于题目检索技术领域,具体涉及一种基于多特征融合的选择题检索方法和检索系统。
背景技术:2.在互联网教育领域中通常对各个学科会建立题库。在对题库进行维护、补充的过程中,会涉及到需要检索一道题目在题库中是否已经存在,是否有相似的题目,亦或是为用户针对一道题目,推荐相似的题目等应用场景。这些应用中需要快速检索或定位到相似题目,以便为后续处理提供支持。
3.目前题目检索大致有如下几类:
4.第一类是通过人工预先对题库进行维护,为相应题目打上对应的知识点标签,然后再通过输入的关键字匹配来实现题目的检索。这类方法需要人工完成大量工作,效率较低,且对操作人员的个体水平依赖较强。
5.第二类是采用人工智能中自然语言处理的方法,对题目文本进行从处理,获取文本特征,依据文本特征之间的相似性来检索相似题目。这类方法仅利用文本特征之间的相似性来判断题目是否相似,过于粗糙,如果题目对同样的知识点用不同的文字表达来描述,可能造成判断错误。
6.还有一类方法是将题干构建成原始语法树,再基于语法树去进行相似度比较,这种方法同样有着很大的优化空间。
技术实现要素:7.发明目的:针对现有技术中存在的问题,本发明提供一种基于多特征融合的选择题检索方法,该方法能够获得更准确的选择题检索结果。
8.技术方案:本发明一方面公开了一种基于多特征融合的选择题检索方法,包括步骤:
9.计算待检索题目的融合特征;
10.计算待检索题目的融合特征与题库中题目的融合特征之间的相似性;
11.选择所述相似性最大的题目或所述相似性大于相似性阈值的题目作为检索结果。
12.进一步地,计算待检索题目的融合特征具体包括步骤:
13.s1、获取题干特征,具体包括:
14.(11)对题干部分进行去停用词、去除标点符号后得到原始题干;
15.(12)提取原始题干的句子特征;
16.(13)提取原始题干的知识点特征;
17.(14)提取原始题干的词性特征和句法依赖特征;
18.(15)将原始题干的句子特征、知识点特征、词性特征和句法依赖特征相加,得到题干特征;
19.s2、获取题目的选项特征,具体包括:
20.(21)对题目的各个选项分别进行去停用词、去除标点符号,得到对应的原始选项;
21.(22)提取各原始选项的句子特征、知识点特征、词性特征和句法依赖特征;
22.(23)提取各原始选项与题干的关系特征;
23.(24)将各原始选项的句子特征、知识点特征、词性特征、句法依赖特征、与题干的关系特征拼接,得到题目的选项特征;
24.s3、提取用户答题特征,具体包括:
25.(31)获取题目的平均答题时长和平均答题正确率;
26.(32)获取常见错误答案和正确答案,分别提取常见错误答案和正确答案与题干的关系特征;
27.(33)将题目的平均答题时长、平均答题正确率、常见错误答案与题干的关系特征、正确答案与题干的关系特征拼接为用户答题特征;
28.s4、将待检索题目的题干特征、选项特征、用户答题特征拼接起来,作为待检索题目的融合特征。
29.进一步地,所述提取原始题干中的句子特征采用如下两种方式之一:
30.方式一:采用word2vec模型获取原始题干中的词向量,所述词向量作为原始题干的句子特征;
31.方式二:采用bert模型对原始题干进行编码,得到的编码作为原始题干的句子特征。
32.进一步地,所述步骤(13)采用如下步骤提取原始题干的知识点特征:
33.a1、提取原始题干的知识点:将原始题干与专家建立的知识点库进行对比,如果知识点库中的知识点出现在原始题干中,则将其提取出,构成原始题干第一知识点集合;
34.a2、在知识图谱的三元组集合中查找第一知识点集合中的知识点,构成第二知识点集合;所述第二知识点集合中的知识点与第一知识点集合中的知识点之间的距离小于第一距离阈值;
35.所述知识图谱以三元组构成的集合表示,所述三元组包括第一实体、第二实体、第一实体与第二实体的关系;所述第一实体和第二实体均为知识点库中的知识点,所述第一实体与第二实体的关系由专家设置;
36.a3、根据步骤a2的查找结果,获取第二知识点集合中的知识点涉及的知识图谱三元组,并转换为向量表示,作为原始题干的知识点特征。
37.进一步地,所述步骤a2中第二知识点集合中的知识点与第一知识点集合中的知识点之间的距离采用欧氏距离或文本编辑距离或曼哈顿距离。
38.进一步地,所述步骤(14)中先采用spacy获取原始提取的词性和句法依赖分析结果,再使用bert模型转换为向量,作为原始题干的词性特征和句法依赖特征。
39.进一步地,所述步骤(23)中提取原始选项与题干的关系特征,具体包括:
40.b1、提取原始选项的知识点;
41.b2、查找第一实体和第二实体为原始题干的知识点和原始选项的知识点的三元组,得到原始题干知识点和原始选项知识点之间的关系,并转为向量表示,作为原始选项与题干的关系特征。
(14)中的三种方法对原始题干进行分析,提取其中的特征;
66.(12)提取原始题干的句子特征;
67.对完整的原始题干进行处理,得到句子特征,可以采用如下两种方式:
68.方式一:采用word2vec模型获取原始题干中的词向量,所述词向量作为原始题干的句子特征;
69.方式二:采用bert模型对原始题干进行编码,得到的编码作为原始题干的句子特征。
70.句子特征体现了题干部分整体的文本特征。
71.(13)提取原始题干的知识点特征,具体为:
72.a1、提取原始题干的知识点:将原始题干与专家建立的知识点库进行对比,如果知识点库中的知识点出现在原始题干中,则将其提取出,构成原始题干第一知识点集合;
73.第一知识点集合中的原始是题干中明确出现的知识点;
74.a2、在知识图谱的三元组集合中查找第一知识点集合中的知识点,构成第二知识点集合;所述第二知识点集合中的知识点与第一知识点集合中的知识点之间的距离小于第一距离阈值;
75.所述知识图谱以三元组构成的集合表示,所述三元组包括第一实体、第二实体、第一实体与第二实体的关系;所述第一实体和第二实体均为知识点库中的知识点,所述第一实体与第二实体的关系由专家设置;
76.在知识图谱的三元组集合中查找第一知识点集合中的知识点,是通过计算距离来查找,即对于第一知识点集合中的每个知识点,在所述三元组集合中查找与其距离小于预设阈值的知识点,查找到的知识点组成第二知识点集合。本实施例中采用欧氏距离、文本编辑距离或曼哈顿距离来计算知识点之间的距离。第二知识点集合是对第一知识点集合的扩展,由此得到题干中没有明显出现的知识点,即题干中可能含有的知识点。
77.a3、根据步骤a2的查找结果,获取第二知识点集合中的知识点涉及的知识图谱三元组,并转换为向量表示,作为原始题干的知识点特征。
78.步骤a2得到了题干中所有可能含有知识点,步骤a3得到了题干的相关知识点,可能含有的知识点与相关知识点之间的关系,这些内容通过三元组来表示,转换为向量即为原始题干的知识点特征。
79.(14)提取原始题干的词性特征和句法依赖特征;
80.先采用spacy获取原始提取的词性和句法依赖分析结果,再使用bert模型转换为向量,作为原始题干的词性特征和句法依赖特征。
81.(15)将原始题干的句子特征、知识点特征、词性特征和句法依赖特征相加,得到题干特征,即将步骤(12)-(14)提取的多种特征相加,作为题目的题干特征。
82.s2、获取题目的选项特征,具体包括:
83.(21)对题目的各个选项分别进行去停用词、去除标点符号,得到对应的原始选项;
84.(22)提取各原始选项的句子特征、知识点特征、词性特征和句法依赖特征;
85.步骤(21)、(22)与步骤(11)-(14)中对题干的处理步骤相同,此处不再重复。
86.(23)提取各原始选项与题干的关系特征;
87.对于选择题中的某一个选项,提取其与题干的关系特征具体包括:
88.b1、提取原始选项的知识点;
89.与步骤a1类似,提取原始选项的知识点,与专家建立的知识点库对比来获取;
90.b2、查找第一实体和第二实体为原始题干的知识点和原始选项的知识点的三元组,得到原始题干知识点和原始选项知识点之间的关系,并转为向量表示,作为原始选项与题干的关系特征;由此将选项与题干建立起了关联关系。
91.(24)将各原始选项的句子特征、知识点特征、词性特征、句法依赖特征、与题干的关系特征拼接,得到题目的选项特征;
92.s3、提取用户答题特征,具体包括:
93.(31)获取题目的平均答题时长和平均答题正确率;
94.(32)获取常见错误答案和正确答案,分别提取常见错误答案和正确答案与题干的关系特征;
95.(33)将题目的平均答题时长、平均答题正确率、常见错误答案与题干的关系特征、正确答案与题干的关系特征拼接为用户答题特征;
96.s4、将待检索题目的题干特征、选项特征、用户答题特征拼接起来,作为待检索题目的融合特征。
97.经过上述步骤s1-s4得到了待检索题目的融合特征。题库中的每个题目均按上述步骤处理,得到题库中题目的融合特征;然后计算待检索题目的融合特征与题库中题目的融合特征之间的相似性。相似性可以采用特征间的距离相似度或向量的间的余弦相似度。本实施例中,相似性的计算方法为:
98.采用多种距离算法计算待检索题目的融合特征与题库中题目的融合特征之间的距离相似度;
99.对多种距离相似度计算调和平均,作为待检索题目的融合特征与题库中题目的融合特征之间的相似性。
100.本实施例中,采用欧氏距离相似度、文本编辑距离相似度和曼哈顿距离相似度作为多种距离相似度,即分别计算待检索题目的融合特征与题库中题目的融合特征之间的欧氏距离相似度sa、文本编辑距离相似度sb和曼哈顿距离相似度sc,其调和平均为:由此得到的s即为待检索题目的融合特征与题库中题目的融合特征之间的相似性。选择题库中与待检索题目的相似性最大的题目或大于相似性阈值的题目作为检索结果。
101.实现上述基于多特征融合的选择题检索方法的检索系统,如图3所示,包括:
102.题目的融合特征计算模块1,用于计算待题目的融合特征;
103.相似性计算模块2,用于计算待检索题目的融合特征与题库中题目的融合特征之间的相似性;
104.检索结果获取模块3,用于选择所述相似性最大的题目或所述相似性大于相似性阈值的题目作为检索结果。
105.其中题目的融合特征计算模块1具体包括:
106.题干特征获取模块11,用于提取题目中的题干特征;
107.题目选项特征获取模块12,用于提取题目的选项特征;
108.用户答题特征获取模块13,用于提取题目的用户答题特征;
109.特征融合模块14,用于将题干特征、选项特征、用户答题特征拼接起来,作为待检索题目的融合特征。
技术特征:1.一种基于多特征融合的选择题检索方法,其特征在于,包括步骤:计算待检索题目的融合特征;计算待检索题目的融合特征与题库中题目的融合特征之间的相似性;选择所述相似性最大的题目或所述相似性大于相似性阈值的题目作为检索结果。2.根据权利要求1所述的基于多特征融合的选择题检索方法,其特征在于,计算待检索题目的融合特征具体包括步骤:s1、获取题干特征,具体包括:(11)对题干部分进行去停用词、去除标点符号后得到原始题干;(12)提取原始题干的句子特征;(13)提取原始题干的知识点特征;(14)提取原始题干的词性特征和句法依赖特征;(15)将原始题干的句子特征、知识点特征、词性特征和句法依赖特征相加,得到题干特征;s2、获取题目的选项特征,具体包括:(21)对题目的各个选项分别进行去停用词、去除标点符号,得到对应的原始选项;(22)提取各原始选项的句子特征、知识点特征、词性特征和句法依赖特征;(23)提取各原始选项与题干的关系特征;(24)将各原始选项的句子特征、知识点特征、词性特征、句法依赖特征、与题干的关系特征拼接,得到题目的选项特征;s3、提取用户答题特征,具体包括:(31)获取题目的平均答题时长和平均答题正确率;(32)获取常见错误答案和正确答案,分别提取常见错误答案和正确答案与题干的关系特征;(33)将题目的平均答题时长、平均答题正确率、常见错误答案与题干的关系特征、正确答案与题干的关系特征拼接为用户答题特征;s4、将待检索题目的题干特征、选项特征、用户答题特征拼接起来,作为待检索题目的融合特征。3.根据权利要求2所述的基于多特征融合的选择题检索方法,其特征在于,所述提取原始题干中的句子特征采用如下两种方式之一:方式一:采用word2vec模型获取原始题干中的词向量,所述词向量作为原始题干的句子特征;方式二:采用bert模型对原始题干进行编码,得到的编码作为原始题干的句子特征。4.根据权利要求2所述的基于多特征融合的选择题检索方法,其特征在于,所述步骤(13)采用如下步骤提取原始题干的知识点特征:a1、提取原始题干的知识点:将原始题干与专家建立的知识点库进行对比,如果知识点库中的知识点出现在原始题干中,则将其提取出,构成原始题干第一知识点集合;a2、在知识图谱的三元组集合中查找第一知识点集合中的知识点,构成第二知识点集合;所述第二知识点集合中的知识点与第一知识点集合中的知识点之间的距离小于第一距离阈值;
所述知识图谱以三元组构成的集合表示,所述三元组包括第一实体、第二实体、第一实体与第二实体的关系;所述第一实体和第二实体均为知识点库中的知识点,所述第一实体与第二实体的关系由专家设置;a3、根据步骤a2的查找结果,获取第二知识点集合中的知识点涉及的知识图谱三元组,并转换为向量表示,作为原始题干的知识点特征。5.根据权利要求4所述的基于多特征融合的选择题检索方法,其特征在于,所述步骤a2中第二知识点集合中的知识点与第一知识点集合中的知识点之间的距离采用欧氏距离或文本编辑距离或曼哈顿距离。6.根据权利要求2所述的基于多特征融合的选择题检索方法,其特征在于,所述步骤(14)中先采用spacy获取原始提取的词性和句法依赖分析结果,再使用bert模型转换为向量,作为原始题干的词性特征和句法依赖特征。7.根据权利要求2所述的基于多特征融合的选择题检索方法,其特征在于,所述步骤(23)中提取原始选项与题干的关系特征,具体包括:b1、提取原始选项的知识点;b2、查找第一实体和第二实体为原始题干的知识点和原始选项的知识点的三元组,得到原始题干知识点和原始选项知识点之间的关系,并转为向量表示,作为原始选项与题干的关系特征。8.根据权利要求1所述的基于多特征融合的选择题检索方法,其特征在于,所述相似性的计算方法为:采用多种距离算法计算待检索题目的融合特征与题库中题目的融合特征之间的距离相似度;对多种距离相似度计算调和平均,作为待检索题目的融合特征与题库中题目的融合特征之间的相似性。9.一种基于多特征融合的选择题检索系统,其特征在于,包括:题目的融合特征计算模块,用于计算待题目的融合特征;相似性计算模块,用于计算待检索题目的融合特征与题库中题目的融合特征之间的相似性;检索结果获取模块,用于选择所述相似性最大的题目或所述相似性大于相似性阈值的题目作为检索结果。10.根据权利要求9所述的基于多特征融合的选择题检索系统,其特征在于,所述题目的融合特征计算模块包括:题干特征获取模块,用于提取题目中的题干特征;题目选项特征获取模块,用于提取题目的选项特征;用户答题特征获取模块,用于提取题目的用户答题特征;特征融合模块,用于将题干特征、选项特征、用户答题特征拼接起来,作为待检索题目的融合特征。
技术总结本发明公开了一种基于多特征融合的选择题检索方法和检索系统,其中检索方法包括步骤:计算待检索题目的融合特征;计算待检索题目的融合特征与题库中题目的融合特征之间的相似性;选择所述相似性最大的题目或所述相似性大于相似性阈值的题目作为检索结果。该方法通过自然语言分析、知识图谱、文本分析等方法提取选择题的题干、选项、用户答题的特征,并将提取的多种特征进行融合,是的使得最终提取的特征能够体现题目更多的信息,从而能够实现题目更准确的定位,得到精确的检索结果。得到精确的检索结果。得到精确的检索结果。
技术研发人员:陆韬 丁二玉
受保护的技术使用者:南京源图信息技术有限公司
技术研发日:2022.07.19
技术公布日:2022/11/1