一种用于解决文本数据中比较类问题推理问答的方法与流程

专利2023-06-30  106



1.本发明属于知识图谱及智能问答领域,尤其涉及一种用于解决文本数据中比较类问题推理问答的方法。


背景技术:

2.一.关系类型分类
3.通用知识图谱中,关系类型分为三种类型:
4.(1)属性型,如“小明-身高-》173cm”;
5.(2)关系型,如“小明-毕业于-》xx大学”;
6.(3)事实型,如“(南京-》地铁线路-》2条)-统计于-》2008年”。
7.二.推理问题分类
8.知识推理是指在计算机中,在知识标识的基础上,进行机器思维、求解问题的过程,即根据一个或一些前提得出一个结论的过程。
9.而在知识推理过程中,问题分类主要有以下几种类型。
10.在知识问答推理的过程中,当推理仅为简单联系时,分为两种。
11.(1)一种是已基本属性为目的,比如提问中含有“姚某”时,会得到其出生年月、身高等回答结果。
12.(2)一种是基于实体为目的,比如“xxx站附近有什么好吃的?”“最近的医院在那里?”“xxx的妻子是谁?”,此时的搜索目的为实体本身。
13.当推理问答为复杂联系时,就会依据问题类型,产生差异较大的搜索路径。
14.(3)典型的例子,如比较型的问题。比如“比小明高的人有哪些?”,“2021年南京和广州哪个城市地铁比较多?”。
15.(4)以及更加复杂的搜索可能性。比如“我通过哪些人能够接触到姚某?”“在我们单位,谁能帮我解决报销问题?”16.简单联系问题(1)(2),可以通过简单联想来给出推理答案。复杂推理(4)依赖于对问题进行简化和定义的研究。目前基于通用图谱的比较类问题推理,往往通过模板匹配进行,拓展性较弱,依赖大量的人力和先验知识,依赖规整专业的图谱。
17.三.推理分类
18.通过方法论分类。分为纯形式推理、基于知识推理、统计推理、直觉推理。
19.通过推理方式分类。分为演绎推理、归纳推理、类比推理。
20.通过确定性分类。分为确定性推理、不确定性推理。
21.通过推理策略分类。分为正向推理、反向推理、混合推理、元推理。
22.知识表达方式分类。分为图搜索法、逻辑论法。
23.通过启发知识利用分类。分为启发推理、非启发推理。


技术实现要素:

24.发明目的:本发明目的是强化图谱推理问答中,对于“比较类问题”的推理问答回应能力。本发明具体提供了一种用于解决文本数据中比较类问题推理问答的方法,包括以下步骤:
25.步骤1,进行通用图谱到属性增强图谱的改造;
26.步骤2,对比较类问题,使用模板匹配及nlp分词及词性匹配的方式,确定比较类问题及相关的比较属性,并简化比较类问题;
27.步骤3,通过知识反馈的方法,将属性的比较反馈到实体的比较;同时使用知识正反向、主动被动来扩充二元组,生成键值哈希记忆空间;
28.步骤4,使用键值记忆法来获取问题推理结果。
29.步骤1包括:
30.步骤1-1,如果图谱组织形式为图数据库,将通用图谱通过图遍历的方式组织成三元组形式,如果图谱组织形式是三元组,则不进行变换;
31.步骤1-2,对三元组的关系类型进行词性筛分、然后进行部分人工整编,来区分实体类关系、事实类关系、属性类关系,此部分的关键在于关系词(也就是谓语动词或关系词的归一化映射)。比如,在人际关系图谱中,谓语“出生于”、“生于”具有属性类关系的指向,而“朋友”、“同届”、“教导”等词具有实体类关系的指向,在研究一个特定领域图谱时,关系词往往是少量有限的(在千级这个最大单位)。例如人际关系图谱中使用“朋友、夫妻、师生、教导、闺蜜、父母”等词,筛选关键句,并使用句法依存,找出相应的实体间关系,组织成实体关系网络;
32.步骤1-3,与步骤1-2相同,使用不同的谓语词匹配方法,将事实类关系简化整合为[短语,关系,属性]或[短语,关系,实体]的三元组,这时事实类关系能够转化为属性关系或实体关系使用,只是实体是短语本身;
[0033]
步骤1-4,对属性类关系进行映射,通过属性类关系词表,对属性类关系进行映射,并将属性类关系与实体关系进行区分;属性关系词表需要针对相关业务目标方向做半自动化的动词提取及人工筛分,以人际关系图谱为例,所需总结的属性关系词仅与人相关,包含“身高、体重、年龄、出生地、电话、性别、职业”等,相应的谓语词集包含“高、重、体重、..岁、周岁、虚岁、出生于、生于、电话、男、女、从事、就职”等,筛选出关键句后,使用句法依存的方法提取出相应的属性关系;
[0034]
步骤1-5,进行图谱重组,获得属性增强图谱,重组图谱特点是,区分属性和实体之间的关系rp(relation property)以及实体和实体之间关系rl(relation link),并进行特别标注。
[0035]
步骤2中,通过比较类连词的词表匹配(如“比,哪个更,更”),确定比较类型语句;通过nlp词性分析,获取句中名词性词语、动宾短语作为比较主体,通过词性筛选获得形容词性作为比较关键词,并将比较主体和比较关键词直接结合,从而简化比较类问题。
[0036]
步骤3包括:
[0037]
步骤3-1,确定属性增强图谱中任意两个相同类型属性的三元组(s1,p1,o1)、(s2,p2,o2),例为(a,身高,166)(b,身高,172);
[0038]
步骤3-2,对于属性o1和o2的比较内容,作为关系p3,举例为“166矮于172”;
[0039]
步骤3-3,通过关系反馈,即属性的比较反馈到实体上,获得到新的三元组(s1,p3,s2),举例为(a,矮于,b);
[0040]
步骤3-4,通过反义词表,获得一个或两个以上反向关系(s2,p4,s1),举例为(b,高于,a);
[0041]
步骤3-5,使用s+p作为k,获得关联对(k,v),用例子解释,则为(a矮于,b)(b高于,a);
[0042]
步骤3-6,做主被转换,获得(k’,v),用例子解释为(比a高,b)和(比b矮,a)。
[0043]
本发明使用的方式是:1.通过关系类别的区分,自动化或半自动化地改造通用图谱,将知识图谱构建成一个属性关系和关联类关系显著标注的图谱。此时强化了知识体系结构,为“比较类问题”提供回答基础条件。在“比较类问题”中,用于比较的部分往往是作为属性存在的,本发明可以利用图谱结构设计的优势,获取比较类问题的推理结果,将其定义为属性增强图谱。2.在1中所述的属性增强图谱中,属性及关系,往往都不是单一的。在本发明中,提供一种新的知识反馈方案,这种映射方案可以将属性增强图谱中的知识进行映射,并应用键值记忆网络,获取此类问题的解答。
[0044]
本发明的原理是:
[0045]
(1)在问题转化部分:本发明使用模板匹配及nlp的方式,确定比较类问题及相关的比较属性。
[0046]
(2)属性增强图谱部分:本发明采用一个“实体-》属性关系”映射表,通过映射匹配,区分属性类型,将通用图谱调整为属性增强图谱。
[0047]
(3)在知识反馈部分:本发明采用知识反馈转化方式,将比较类问题最终映射为键值对,最后进入键值记忆的知识推理过程。
[0048]
本发明与现有技术相比,显著优点是:
[0049]
(1)目前基于通用图谱的比较类问题推理,往往通过模板匹配进行,拓展性较弱,依赖大量的人力和先验知识,依赖规整专业的图谱。而本发明,可以对开阔领域的图谱进行改造,使新建的图谱往往更具备比较类问题的推理问答便利。
[0050]
(2)目前没有“比较类问题”向短语键值对转化的系统方式,本发明将提供了一种“比较类问题”向短语键值对转化的方法,能够适应发明中提出的属性增强图谱。
附图说明
[0051]
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
[0052]
图1是本发明具体流程图。
[0053]
图2是本发明中属性增强图谱生成流程示意图。
[0054]
图3是属性增强下键值记忆推理基本框架示意图。
[0055]
图4是增强图谱结构范例示意图。
具体实施方式
[0056]
本发明提供了一种用于解决文本数据中比较类问题推理问答的方法,包括:
[0057]
步骤1,进行通用图谱到属性增强图谱的改造;
[0058]
步骤2,对比较类问题进行判定和筛选简化,本发明使用模板匹配及nlp分词及词性匹配的方式,确定比较类问题及相关的比较属性;
[0059]
步骤3,通过知识反馈的方法,将属性的比较反馈到实体的比较;同时使用知识正反向、主动被动来扩充二元组,生成键值哈希记忆空间。
[0060]
步骤4,使用键值记忆法来获取问题推理结果。
[0061]
具体步骤如图1所示。
[0062]
步骤1中,对通用知识图谱进行半自动化改造,改造的核心目的,是区分关系种类。对于目标图谱的构建,前期依赖人工对属性关系的归纳。例如,人物的属性关系,可能包含(身高、体重、出生年月

)等等。通过匹配和标记的方法,将属性和关系类型进行区分。对于实事类关系,如“(南京-》地铁线路-》2条)-统计于-》2008年”,将其转化为短语和属性,如“2008年南京-地铁线路-》2条”或“南京2条地铁线-时间-》2008年”。具体步骤如下:
[0063]
将通用图谱组织成三元组形式;
[0064]
实类关系简化整合为[短语,关系,属性]或[短语,关系,实体]的三元组,这时事实类关系可以作为属性关系或实体关系使用,知识实体是短语本身。
[0065]
对属性类关系进行映射,通过属性类关系词表,对属性类关系进行映射,区分属性类关系与实体间关系的区别。
[0066]
最后进行图谱重组,获得属性增强图谱,重组图谱特点是,区分属性和实体之间的关系rp(relation property)以及实体和实体之间关系rl(relation link),增强图谱例子如图4所示。
[0067]
具体转化流程如图2所示。
[0068]
如步骤2所示,使用模板匹配及nlp分词及词性匹配的方式,确定比较类问题及相关的比较属性,并简化比较类问题。通过比较类连词的词表匹配(如“比,哪个更,更”),确定比较类型语句。通过nlp词性分析,获取句中名词性词语、动宾短语作为比较主体,通过词性筛选获得形容词性作为比较关键词,并将两者直接结合,以此简化比较类问题。
[0069]
如步骤3所示,在步骤2生成的属性增强图谱中,积累了比较类问题的提问方式。类似于“比

高”、“最重”等等,此时可以通过属性的比较,来获得一个新生成的比较关系,此关系将被反馈给实体本身(在这个例子里就是人物本身)。
[0070]
对于产生的新比较关系,本发明使用一种知识反馈的方法,生成为比较类的键值hash空间,此时再使用键值记忆法,就能获得此次问答的结果。
[0071]
具体知识反馈转化步骤如下:
[0072]
(1)增强图谱中任意两个相同类型属性的三元组(s1,p1,o1)(s2,p2,o2),例为(a,身高,166)(b,身高,172)
[0073]
(2)对于属性o1和o2的比较内容,可以作为关系p3,举例为“166矮于172”。
[0074]
(3)通过关系反馈,获得到新的三元组(s1,p3,s2),举例为(a,矮于,b);
[0075]
(4)同时通过反义词表,可以获得一个或多个反向关系(s2,p4,s1),举例为(b,高于,a)。
[0076]
(5)然后使用s+p作为k,获得关联对(k,v)。用例子解释,则为(a矮于,b)(b高于,a)。
[0077]
(6)同时做主被转换,获得(k’,v),用例子解释为(比a高,b)和(比b矮,a)。
[0078]
如步骤4所示,使用键值记忆法(kvmemnet),获得推理答案。具体流程,如图3所示,图中阴影框图部分是本发明的创新部分,具体包括如下步骤:
[0079]
步骤4-1,key hashing:键值哈希变换,将知识库(knowedge source)转换成(k,v)的形式,并从中选取一个子集;
[0080]
形式转换,对于三元组(s,p,o),将s和p共同作为k,将o作为v。子集选择条件:一是k与输入的问题有共同单词;二是共同的单词不是停用词;三是根据共同的单词数量排序,选择前n个。每个问题都需要构建记忆空间(key-value memory)。
[0081]
结合步骤三,对于问题“比a高的运动员?”,获取到的前n个数据将包含(比易某高,姚某)(比姚某矮,易某)(比珠玛琅玛峰矮,乔治亚峰)(比乔治亚峰高,珠穆朗玛峰)

等等前n个共同单词数量较多的键值对。
[0082]
步骤4-2,key addressing:键寻址,根据问题,为键值中的所有键值(key)计算一个概率分布个概率分布代表问题(question)x的向量空间(question embedding),代表n个键值空间的键值形成的键值向量空间(key embedding),i代表第i个键值:
[0083][0084]
使用softmax函数,根据问题和所有n个键值对,求解出问题落在指定键值对上的概率。及获得到问题到回答值的概率集合。
[0085]
步骤4-3,value reading:值读取,根据键值的概率概率分布pn,对值的向量空间(value embedding)进行变换计算,其中表示在第h轮迭代下第i个值的向量表示,计算值(value)的加权向量o:
[0086][0087]
步骤4-4,query updating:问题空间更新,根据键的概率,计算值的加权问题以后,使用第j轮映射矩阵rj对本轮初始问题向量进行变换,qj代表第j轮的初始问题向量。
[0088]qj+1
=rj(qj+o)
[0089]
经过概率偏移,问题向量将会发生改变,直观来说,问题可能会变成(比a高)、(比乔治亚高)等偏移问题,是以向量形式表现的。
[0090]
使用q
j+1
替换问题向量迭代更新,迭代h步后,将q
h+1
输入分类器中,预测答案(answer):
[0091][0092]
最后一次迭代后,可以得出最大概率的问题答案,作为此次回答的答案。
[0093]
具体实现中,本技术提供计算机存储介质以及对应的数据处理单元,其中,该计算机存储介质能够存储计算机程序,所述计算机程序通过数据处理单元执行时可运行本发明提供的一种用于解决文本数据中比较类问题推理问答的方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0094]
本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来,该计算机程序软件产品可以存储在存储介质中,包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机,服务器,单片机。muu或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0095]
本发明提供了一种用于解决文本数据中比较类问题推理问答的方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

技术特征:
1.一种用于解决文本数据中比较类问题推理问答的方法,其特征在于,包括以下步骤:步骤1,输入包含比较类问题的文本数据,进行通用图谱到属性增强图谱的改造;步骤2,对比较类问题,使用模板匹配及nlp分词及词性匹配的方式,确定比较类问题及相关的比较属性,并简化比较类问题;步骤3,通过知识反馈的方法,将属性的比较反馈到实体的比较;同时使用知识正反向、主动被动来扩充二元组,生成键值哈希记忆空间;步骤4,使用键值记忆法来获取文本数据中的比较类问题推理结果。2.根据权利要求1所述的方法,其特征在于,步骤1包括:步骤1-1,如果图谱组织形式为图数据库,将通用图谱通过图遍历的方式组织成三元组形式,如果图谱组织形式是三元组,则不进行变换;步骤1-2,对三元组的关系类型进行词性筛分、然后进行整编,来区分实体类关系、事实类关系、属性类关系,筛选关键句,并使用句法依存,找出相应的实体间关系,组织成实体关系网络;步骤1-3,使用不同的谓语词匹配方法,将事实类关系简化整合为[短语,关系,属性]或[短语,关系,实体]的三元组,这时事实类关系能够转化为属性关系或实体关系使用,只是实体是短语本身;步骤1-4,对属性类关系进行映射,通过属性类关系词表,对属性类关系进行映射,并将属性类关系与实体关系进行区分;筛选出关键句后,使用句法依存的方法提取出相应的属性关系;步骤1-5,进行图谱重组,获得属性增强图谱,区分属性和实体之间的关系rp以及实体和实体之间关系rl,并进行特别标注。3.根据权利要求2所述的方法,其特征在于,步骤2中,通过比较类连词的词表匹配,确定比较类型语句;通过nlp词性分析,获取句中名词性词语、动宾短语作为比较主体,通过词性筛选获得形容词性作为比较关键词,并将比较主体和比较关键词直接结合,从而简化比较类问题。4.根据权利要求3所述的方法,其特征在于,步骤3包括:步骤3-1,确定属性增强图谱中任意两个相同类型属性的三元组(s1,p1,o1)、(s2,p2,o2);步骤3-2,对于属性o1和o2的比较内容,作为关系p3;步骤3-3,通过关系反馈,即属性的比较反馈到实体上,获得到新的三元组(s1,p3,s2);步骤3-4,通过反义词表,获得一个或两个以上反向关系(s2,p4,s1);步骤3-5,使用s+p作为k,获得关联对(k,v);步骤3-6,做主被转换,获得(k’,v)。5.根据权利要求4所述的方法,其特征在于,步骤4包括:步骤4-1,键值哈希变换,将知识库转换成关联对(k,v)的形式,并从中选取一个子集;步骤4-2,键寻址;步骤4-3,值读取;步骤4-4,更新问题空间。6.根据权利要求5所述的方法,其特征在于,步骤4-1包括:形式转换:对于三元组(s,p,
o),将s和p共同作为k,将o作为v;选取的子集满足如下三个条件:一是k与输入的问题有共同单词;二是共同的单词不是停用词;三是根据共同的单词数量排序,选择前n个;每个问题都需要构建记忆空间。7.根据权利要求6所述的方法,其特征在于,步骤4-2包括:根据问题,为键值中的所有键值key计算一个概率分布键值key计算一个概率分布其中,softmax表示归一化指数函数,代表问题x的向量空间,代表n个键值空间的键值形成的键值向量空间,i取值为1~n。8.根据权利要求7所述的方法,其特征在于,步骤4-3包括:根据键值的概率概率分布对值value的向量空间进行变换计算,其中表示在第h轮迭代下第i个值的向量表示,计算值value的加权向量o:9.根据权利要求8所述的方法,其特征在于,步骤4-4包括:根据键的概率,计算值value的加权问题以后,使用第j轮映射矩阵r
j
对本轮初始问题向量进行变换,q
j
代表第j轮的初始问题向量:q
j+1
=r
j
(q
j
+o)。10.根据权利要求9所述的方法,其特征在于,步骤4-4还包括:使用q
j+1
替换问题x的向量空间迭代更新,迭代h步后,将q
h+1
输入分类器中,预测答案answer:其中t表示矩阵转置。

技术总结
本发明提供了一种用于解决文本数据中比较类问题推理问答的方法,包括:1.通过关系类别的区分,自动化或半自动化地改造通用图谱,将知识图谱构建成一个属性关系和关联类关系显著标注的图谱。此时强化了知识体系结构,为“比较类问题”提供回答基础条件。在“比较类问题”中,用于比较的部分往往是作为属性存在的,本发明可以利用图谱结构设计的优势,获取比较类问题的推理结果,将其定义为属性增强图谱。2.在1中所述的属性增强图谱中,属性及关系,往往都不是单一的。在本发明中,提供一种新的知识反馈方案,这种映射方案可以将属性增强图谱中的知识进行映射,并应用键值记忆网络,获取此类问题的解答。此类问题的解答。此类问题的解答。


技术研发人员:周迅钊 陈鹏 王妍妍 王冬 陈文颖
受保护的技术使用者:中电莱斯信息系统有限公司
技术研发日:2022.07.14
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-3591.html

最新回复(0)