1.本技术涉及自然语言处理技术领域,尤其涉及一种信息相似度的确定方法及装置。
背景技术:2.在目前的很多行业内,为了提升信息处理的效率,将信息进行融合运用以及提取过往相似信息的处理过程进行借鉴的方法越来越常见。例如某一些电信行业的运营商在接收到投诉时,可以获取到过往类似的投诉案件,据此可以快速地解决当前的投诉案件。
3.因此,如何能够获取到与待处理的信息相似的信息就变得尤为重要了。目前常见的方式是将信息文本转化为向量,基于各个向量之间的距离确定各个信息文本之间的相似程度,并根据文本的相似程度确定信息的相似度。但是很多情况下,信息文本的相似程度并不能表征信息的相似度,比如两个案件中的文本内容比较相似,但是案件中包含的执行人和被执行人不同或者地点和发生时间不同,这就导致两个案件天差地别,因此确定信息的相似度只考虑文本的相似程度是不够的。
技术实现要素:4.本技术提供一种信息相似度的确定方法及装置,用以提升确定的信息相似度的准确性。
5.第一方面,本技术提供了一种信息相似度的确定方法,包括:
6.获取待处理信息中包含的多个实体,以及所述多个实体之间的关系;
7.基于所述多个实体以及所述多个实体之间的关系与知识库中包含的实体以及实体之间的关系的匹配结果,更新所述知识库;所述知识库是基于多个过往处理过的信息所包含的实体构建的;
8.根据更新后的知识库中的待处理信息对应的表征向量,与所述多个过往处理过的信息对应的表征向量之间的距离,确定所述待处理信息分别与所述多个过往处理过的信息之间的相似度。
9.基于上述方案,本技术提出了首先对比待处理信息中的实体和实体之间的关系,与过往处理过的信息中的实体与实体之间的关系的相似程度,并以知识图谱的方式表征待处理信息与过往处理过的信息所包含的实体的相似程度。进一步地,再进行转化表征向量以及计算相似度的步骤。相较于现有技术中直接根据信息文本对应的文本向量之间的距离确定信息之间的相似度的方案,本技术提出的方法充分地考虑了信息中的实体对于信息相似度的影响,从而使得确定的信息的相似度更加准确。
10.在一些实施例中,所述基于多个实体以及所述关系与知识库中包含的实体以及实体之间的关系的匹配结果,更新所述知识库,包括:
11.当所述知识库中存在与第一实体匹配成功的第二实体,且所述第一实体相关的关系与所述第二实体相关的关系不相等时,为所述第二实体中添加所述第一实体相关的关
系;
12.当所述知识库中不存在与所述第一实体匹配成功的实体时,将所述第一实体和所述第一实体相关的关系添加到所述知识库中;
13.其中,所述第一实体为所述多个实体中的任意一个。
14.在一些实施例中,所述多个实体以及所述多个实体之间的关系与知识库中包含的实体以及实体之间的关系的匹配过程为:
15.将所述多个实体中的任意一个实体分别与所述知识库中包含的实体进行匹配;
16.若所述知识库中存在与所述任意一个实体匹配成功的实体,则将匹配成功的实体相关的关系与所述第一实体相关的关系进行匹配。
17.在一些实施例中,所述获取待处理信息中包含的多个实体,以及所述多个实体之间的关系,包括:
18.将所述待处理信息转化为文本向量;
19.采用预先训练好的神经网络模型,确定所述文本向量中包含的所述多个实体以及所述多个实体之间的关系的位置;
20.根据所述文本向量中所述多个实体以及所述多个实体之间的关系的位置,确定所述待处理信息中所述多个实体以及所述多个实体之间的关系的位置;
21.根据所述待处理信息中所述多个实体以及所述多个实体之间的关系的位置,从所述待处理信息中提取所述多个实体以及所述多个实体之间的关系。
22.在一些实施例中,所述方法还包括:
23.采用图嵌入算法将所述更新后的知识库中的待处理信息和所述多个过往处理过的信息分别转化为表征向量。
24.在一些实施例中,所述方法还包括:
25.根据所述待处理信息分别与所述多个过往处理过的信息之间的相似度,按照相似度递减的顺序输出设定数量个过往处理过的信息。
26.第二方面,本技术实施例提供了一种信息相似度的确定装置,包括:
27.获取单元,用于获取待处理信息中包含的多个实体,以及所述多个实体之间的关系;
28.处理单元,用于基于所述多个实体以及所述多个实体之间的关系与知识库中包含的实体以及实体之间的关系的匹配结果,更新所述知识库;所述知识库是基于多个过往处理过的信息所包含的实体构建的;
29.所述处理单元,还用于根据更新后的知识库中的待处理信息对应的表征向量,与所述多个过往处理过的信息对应的表征向量之间的距离,确定所述待处理信息分别与所述多个过往处理过的信息之间的相似度。
30.在一些实施例中,所述处理单元,具体用于:
31.在所述知识库中存在与第一实体匹配成功的第二实体,且所述第一实体相关的关系与所述第二实体相关的关系不相等时,为所述第二实体中添加所述第一实体相关的关系;
32.在所述知识库中不存在与所述第一实体匹配成功的实体时,将所述第一实体和所述第一实体相关的关系添加到所述知识库中;
33.其中,所述第一实体为所述多个实体中的任意一个。
34.在一些实施例中,所述处理单元还用于将所述多个实体以及所述多个实体之间的关系与知识库中包含的实体以及实体之间的关系进行匹配,具体用于:
35.将所述多个实体中的任意一个实体分别与所述知识库中包含的实体进行匹配;
36.在所述知识库中存在与所述任意一个实体匹配成功的实体时,则将匹配成功的实体相关的关系与所述第一实体相关的关系进行匹配。
37.在一些实施例中,所述获取单元,具体用于:
38.通过所述处理单元将所述待处理信息转化为文本向量;采用预先训练好的神经网络模型,确定所述文本向量中包含的所述多个实体以及所述多个实体之间的关系的位置;根据所述文本向量中所述多个实体以及所述多个实体之间的关系的位置,确定所述待处理信息中所述多个实体以及所述多个实体之间的关系的位置;
39.根据所述待处理信息中所述多个实体以及所述多个实体之间的关系的位置,从所述待处理信息中提取所述多个实体以及所述多个实体之间的关系。
40.在一些实施例中,所述处理单元,还用于:
41.采用图嵌入算法将所述更新后的知识库中的待处理信息和所述多个过往处理过的信息分别转化为表征向量。
42.在一些实施例中,所述处理单元,还用于:
43.根据所述待处理信息分别与所述多个过往处理过的信息之间的相似度,按照相似度递减的顺序输出设定数量个过往处理过的信息。
44.第三方面,提供了一种电子设备,所述电子设备包括控制器和存储器。存储器用于存储计算机执行指令,控制器执行存储器中的计算机执行指令以利用控制器中的硬件资源执行第一方面任一种可能实现的方法的操作步骤。
45.第四方面,提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
46.另外,第二方面至第四方面的有益效果可以参见如第一方面所述的有益效果,此处不再赘述。
附图说明
47.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
48.图1为本技术实施例提供的一种信息相似度确定方法流程图;
49.图2为本技术实施例提供的一种获取待处理信息中包含的实体以及实体之间的关系的方法流程;
50.图3为本技术实施例提供的一种更新知识库的方法流程图;
51.图4为本技术实施例提供的一种基于更新后的知识库确定信息相似度的方法流程图;
52.图5为本技术实施例提供的一种信息相似度确定装置的结构示意图;
53.图6为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
54.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
55.需要说明的是,本技术中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应所述理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
56.深度学习是基于人工神经网络的更广泛的机器学习方法族的一部分。学习可以是有监督的、半监督的或无监督的。深度学习模型,例如深度神经网络、深度信念网络、循环神经网络和卷积神经网络,已经被应用于包括计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学、药物设计、医学图像分析、材料检查和棋盘游戏程序在内的领域。
57.自然语言处理是研究人与人交际中以及人与计算机交际中语言问题的一门学科。简单来说即是计算机接受用户自然语言形式的输入,并在内部通过人类所定义的算法进行加工、计算等一系列操作,以模拟人类对自然语言的理解,并返回用户所期望的结果。自然语言处理的目的在于用计算机代替人工来处理大规模的自然语言信息。主要包括自动分词、词性标注、句法分析、文本分类、信息抽取等范畴,它是人工智能、计算机科学、信息工程的交叉领域,设计统计学、语言学等的知识。
58.随着自然语言处理技术以及深度学习的广泛应用,信息相似度的计算也越来越多地被应用于各行各业。在进行信息处理时,用户可以基于信息相似度的计算获取到过往处理过的相似的信息,基于过往相似的信息可以提升处理信息的效率和准确率。但是,在相关技术中,在计算信息相似度时,一般是适用预训练的模型将待处理的信息和过往的信息转化为文本向量,基于各个文本向量之间的距离来确定信息的相似度。但是在一些场景下,信息的相似度并不是简单的文本相似程度,而是取决于信息中的一些要素。比如,一些关于案件的信息,即使两个案件的文本内容比较相近,但是案件的执行人和被执行人的不同会导致案件的相似度天差地别。
59.为了解决这种问题,本技术实施例提供了一种信息相似度的确定方法,将待处理的信息中的要素,以及各个要素之间的关系提取出来。基于要素和关系与知识库中过往处理过的信息进行匹配,并基于匹配结果更新知识库。将更新后的知识库中包括的待处理信息和过往的信息转化为表征向量,计算各个表征向量之间的距离,根据距离确定待处理信息与过往处理过的信息之间的相似度。可以看出,本技术并没有简单地基于文本的相似程度来确定信息之间的相似度,而是首先基于要素和关系的相近程度,将待处理的信息与过往处理过的信息关联起来,然后再进行转化表征向量以及计算相似度的步骤。相较于现有技术中确定相似度的方法,本技术提出的方法确定的相似度充分地考虑了信息中要素对于相似度的影响,使得确定的信息的相似度更加准确。
60.下面,具体介绍本技术提出的一种信息相似度的确定方法及装置。本技术下述实
施例中,“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b的情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。以及,除非有相反的说明,本技术实施例提及“第一”、“第二”等序数词是用于对多个对象进行区分,不用于限定多个对象的顺序、时序、优先级或者重要程度。例如,第一任务执行设备和第二任务执行设备,只是为了区分不同的任务执行设备,而并不是表示这两种任务执行设备的优先级或者重要程度等的不同。
61.在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
62.为了便于理解本技术各个实施例提供的方案,首先对本技术涉及的技术用语进行简单介绍:
63.(1)命名实体识别(named entity recognition,ner):又称作专名识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。通常包括两部分:实体边界识别;确定实体类别(人名、地名、机构名或其他)。
64.(2)关系提取(relation extraction,re)是一项自然语言处理任务,旨在提取实体之间的关系。关系提取是自动知识图谱构建中的一项关键技术,通过关系提取,可以累积提取新的关系事实,扩展知识图谱。可选地,可以采用open nre进行关系提取。open nre是一个开源且可扩展的工具包,它提供了一个统一的框架来实现关系提取模型。
65.(3)知识图谱:知识图谱本质上是一种语义网络,其节点代表实体或者概念,边代表实体或者概念之间的各种语义关系,它能够描述概念,事实,规则等各种层次的认知知识。知识图谱以丰富的语义表示能力和灵活的结构构建了计算机世界中表示认知世界和物理世界中信息和知识的有效载体,成为人工智能应用的重要基础设施。
66.(4)bert模型:是一种语言表示模型,在bert模型处理过程中包括两个步骤:预训练和微调。在预训练中,模型基于无标签数据,在不同的预训练任务上进行训练,因此bert模型包含有大量常识性知识。在微调中,模型首先基于预训练得到的参数初始化,然后使用来自下游具体任务的标签数据对所有参数进行微调。
67.(5)sigmoid函数:用于隐层神经元输出,取值范围为(0,1),它可以将一个实数映射到(0,1)的区间,可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。其函数表达式可以参见下方公式(1)所示:
[0068][0069]
其中,z为函数的输入,σ(z)为函数的输出,z的取值范围为(-∞,+∞),的取值范围
为(0,1)。
[0070]
(6)图嵌入:是一种将图数据(通常为高维稠密的矩阵)映射为低微稠密向量的过程,能够很好地解决图数据难以高效输入机器学习算法的问题。常见的图嵌入表示技术包括,图卷积神经网络(graph convolutional network,gcn)和图注意力网络(graph attention networks,gat)等。
[0071]
下面,具体介绍本技术提供的方案,参见图1,为本技术实施例提供的一种信息相似度确定方法流程图。需要说明的是,本技术对于执行信息相似度确定方法的执行主体不做限定,例如信息相似度确定方法可以由电脑、手机等终端来执行,也可以由服务器、处理芯片等具有计算能力的电子设备来执行。图1所示的方法流程具体包括:
[0072]
101,获取待处理信息中包含的多个实体以及多个实体之间的关系。
[0073]
可选地,可以采用命名实体识别技术从待处理信息中提取多个实体,可以采用关系提取技术从待处理信息中提取多个实体之间的关系。
[0074]
举例来说,若待处理信息中包含执行人的姓名为张三、手机号为123xxxxxxxx,则可以从该待处理信息中识别出的实体包括:实体a:张三,和实体b:123xxxxxxxx,实体a与实体b的关系为:实体b是实体a的手机号。
[0075]
102,基于多个实体以及多个实体之间的关系与知识库中和包含的实体以及实体之间的关系的匹配结果,更新知识库。
[0076]
其中,知识库是基于多个过往处理过的信息包含的实体构建的。知识库中包括多个过往处理过的信息中包含的实体,以及实体之间的关系。比如,过往处理过两条信息,每一条信息分别包括三个实体,则知识库中可以括六个实体以及这六个实体之间的关系。
[0077]
可选地,可以根据待处理信息中的实体以及关系,与知识库中的实体以及关系的匹配结果,将待处理信息包含的实体和实体之间的关系添加到知识库中,以完成知识库的更新。
[0078]
103,根据更新后的知识库中的待处理信息对应的表征向量,与多个过往处理过的信息对应的表征向量之间的距离,确定待处理信息分别与多个过往处理过的信息之间的相似度。
[0079]
可选地,在完成知识库的更新之后,可以采用图嵌入算法将更新后的知识库中包括的各个信息(包括待处理信息和多个过往处理过的信息)分别转化为表征向量。例如,可以将知识库中的每一个信息看作是一个子知识图谱,采用图嵌入表示技术将该子知识图谱转化为表征向量。
[0080]
在一种可能实现的方式中,可以分别计算待处理信息对应的表征向量,与多个过往处理过的信息对应的表征向量之间的距离。进一步地,可以基于距离确定待处理信息与每一个过往处理过的信息之间的相似度。
[0081]
基于上述方案,本技术提出了首先对比待处理信息中的实体和实体之间的关系,与过往处理过的信息中的实体与实体之间的关系的相似程度,并以知识图谱的方式表征待处理信息与过往处理过的信息所包含的实体的相似程度。进一步地,再进行转化表征向量以及计算相似度的步骤。相较于现有技术中直接根据信息文本对应的文本向量之间的距离确定信息之间的相似度的方案,本技术提出的方法充分地考虑了信息中的实体对于信息相似度的影响,从而使得确定的信息的相似度更加准确。
[0082]
在一些实施例中,在获取待处理信息中包含的多个实体,以及多个实体之间的关系时,可以将待处理信息转化为文本向量。本技术对于将待处理信息转化为文本向量所采用的方式不作具体限定,比如可以采用word2vec模型将待处理信息转化为文本向量。进一步地,可以采用预先训练好的神经网络模型,确定文本向量中包含的多个实体的位置。并可以根据多个实体在文本向量中的位置对应确定多个实体在待处理信息中的位置。再进一步地,可以基于待处理信息中多个实体的位置提取多个实体。
[0083]
在一种可能实现的方式中,可以基于实体的描述以及实体相关的关系谓词来确定实体。例如,以一个实体和该实体相关的关系为例,可以使用槽填充的方式提取实体以及该实体相关的关系。可选地,可以首先定义槽模板,槽模板格式可以为r(e,a),其中r为关系谓词,e为实体的描述,a为实体。比如,待处理信息中包含的执行人为张三,则生成的槽模板即为:执行人的姓名(执行人,张三)。进一步地,可以基于该槽模板生成对应的自然文本问句,比如:问题:执行人的姓名是什么?答案:张三。可选地,问题和答案之间可以采用分隔符进行分割,避免识别出错。再进一步地,就可以将自然文本问句以及答案转化为文本向量,再采用预先训练好的神经网络模型确定文本向量中的多个实体以及多个实体之间的关系的位置。从而可以确定待处理信息中多个实体以及多个实体之间的关系的位置,基于确定的位置提取实体和关系。
[0084]
可选地,在针对待处理信息进行实体和关系的提取之前,还可以先对待处理信息进行一些预处理,以避免识别出错的问题。比如,可以将待处理信息中的一些实体进行同义词替换,比如将执行主体、实施者或者案件处理人等词汇替换为执行人。
[0085]
为了便于理解本身请提出的获取待处理信息中的实体以及实体之间的关系的过程,下面结合具体的实施例进行介绍,参见图2,为本技术实施提供的一种获取待处理信息中包含的实体以及实体之间的关系的方法流程图,包括:
[0086]
201,对待处理信息进行预处理。
[0087]
可选地,预处理可以是将待处理信息中一些存在歧义的词进行替换,避免机器识别出错。具体的预处理过程可以参见上述实施例中的介绍,在此不再进行赘述。
[0088]
202,根据待处理信息确定预先定义的问句的答案,得到多条问答文本。
[0089]
可选地,可以首先采用预定义的槽模板获取待处理信息中的实体,以及每一个实体相关的关系,再根据槽模板生成多条问答文本。
[0090]
举例来说,比如生成的一个槽模板为:执行人的姓名(执行人,张三)。预先定义的问句为:执行人的姓名是什么?基于该槽模板可以得出问句的答案,从而生成问答文本:“问题:执行人的姓名是什么?答案:张三”。
[0091]
203,将多条问答文本分别转化为文本向量。
[0092]
可选地,可以采用bert模型将问答文本中的每一个词语进行深层编码,获取问答文本的深层语义信息。进一步地,可以基于每一个词语的上下文语义信息对每一个词语进行编码,得到每一个词语对应的词向量。再进一步地,可以将得到的多个词向量组合称为文本向量。
[0093]
204,根据每一条文本向量,确定多个实体以及多个实体相关的关系位于待处理信息中的位置。
[0094]
作为一种可能实现的方式,可以首先将文本向量经过预先训练好的第一线性层进
行线性变换,然后将第一线性层输出的结果经过sigmoid函数。从而可以得到每一个词语属于实体开始位置的得分值,为了便于判断,还可以将得分值进行归一化处理。比如,若归一化处理后的数值大于0.5,则将该数值置为1,反之则置为0,可以将数值为1的词语位置作为实体的开始位置。同理,可以将文本向量经过预先训练好的第二线性层进行线性变换,然后将第二线性层输出的结果经过sigmoid函数。从而可以确定实体的结束位置。
[0095]
进一步地,基于确定的实体的开始位置和结束位置,确定实体位于待处理信息中的位置。可选地,确定实体相关的关系所处的位置也可以采用上述确定实体位置的方法,不再赘述。
[0096]
205,根据确定的位置,从待处理信息中提取多个实体以及实体相关的关系。
[0097]
在一些实施例中,获取到待处理信息中包含的实体和关系之后,可以将获取的实体和关系与知识库中的实体和关系进行匹配。可选地,可以将待处理信息中的实体与知识库中包含的实体进行匹配,若知识库中存在于待处理信息中的任意一个实体相同的实体,则确定匹配成功。为了便于描述,将匹配成功的待处理信息中的实体简称为第一实体,将与第一实体匹配成功的知识库中的实体简称为第二实体。进一步地,在第一实体与第二实体匹配成功之后,可以进行匹配第一实体与第二实体相关的关系,若第二实体存在与第一实体相关的第一关系相同的第二关系,则确定第二实体的第二关系与第一实体的第一关系匹配成功。
[0098]
作为一种可能实现的方式,在将待处理信息中包含的多个实体以及多个实体之间的关系,与知识库中包含的实体以及实体之间的关系匹配完成后,可以根据匹配结果更新知识库。
[0099]
一些实施例中,当第一实体与第二实体匹配成功,且第一实体相关的第一关系与第二实体相关的所有关系均不相同时,可以为第二实体添加第一关系。举例来说,第一实体为张三,其相关的第一关系为:张三的性别为男。第二实体也为张三,第二实体相关的关系中并不包括张三的性别。因此,可以在知识库中添加“张三的性别为男”这一关系为第二实体相关的关系。
[0100]
另一些实施例中,当知识库中不存在与第一实体匹配成功的实体时,可以将第一实体以及第一实体相关的关系直接添加到知识库中。
[0101]
再一些实施例中,当第一实体与第二实体匹配成功,且第一实体相关的第一关系与第二实体相关的第二关系匹配成功时,说明知识库中已有第一实体和第一关系,则不需要再将第一实体和第一关系添加到知识库中。
[0102]
为了更进一步理解本技术提出的更新知识库的过程,下面结合具体的实施例进行介绍,参见图3,为本技术实施例提供的一种更新知识库的方法流程图,具体包括:
[0103]
301,获取第一实体以及知识库中包括的多个实体。
[0104]
其中,第一实体为待处理信息中包括的任意一个实体。
[0105]
302,判断知识库中是否存在与第一实体匹配成功的实体。
[0106]
若存在,则将与第一实体匹配成功的实体简称为第二实体,继续步骤303。
[0107]
若不存在,则继续步骤305。
[0108]
303,判断第二实体是否存在与第一实体相关的第一关系匹配成功的关系。
[0109]
其中,第一关系为第一实体相关的关系中的任意一个。
[0110]
若存在,则将与第一关系匹配成功的关系简称为第二关系,继续步骤306。
[0111]
若不存在,则继续步骤304。
[0112]
304,在知识库中为第二实体添加第一关系。
[0113]
305,在知识库中添加第一实体以及第一实体相关的关系。
[0114]
306,不对知识库进行更新。
[0115]
可选地,在根据完成更新知识库的操作之后,可以基于更新后的知识库,将知识库中包括的信息转化为表征向量。比如,可以采用图嵌入算法将更新后的知识库中包括的各个信息(包括待处理信息和多个过往处理过的信息)分别转化为表征向量。
[0116]
进一步地,可以计算待处理信息对应的表征向量与其他表征向量之间的距离。可选地,可以计算欧氏距离或者余弦夹角距离等。示例性地,可采用如下公式(2)来计算距离:
[0117][0118]
其中,s为待处理信息对应的表征向量与过往处理过的多个信息中任一信息对应的表征向量之间的距离,xi为待处理信息对应的表征向量,yi为过往处理过的多个信息中任一信息对应的表征向量,t为向量的维度。
[0119]
可选地,计算待处理信息的表征向量分别与过往处理过的多个信息对应的表征向量之间的距离之后,可以基于计算得到的距离确定待处理信息与过往处理过的多个信息之间的相似度。作为一种示例,相似度和距离可以存在某种正相关的线性关系,也就是说,距离待处理信息的表征向量越近的表征向量所对应的信息与待处理信息的相似度越高。
[0120]
为了更进一步地理解本技术提出的基于更新后的知识库确定相似度的方案,下面结合具体的实施例进行介绍。参见图4,为本技术实施例提供的一种基于更新后的知识库确定信息相似度的方法流程图,具体包括:
[0121]
401,将更新后的知识库中包括的多个信息分别转化为表征向量。
[0122]
其中,更新后的知识库中包括待处理信息以及多个过往处理过信息。
[0123]
可选地,可以将每一个信息看作知识库中的一个子知识图谱,可以采用图嵌入表示技术将每一个子知识图谱转化为一个表征向量。
[0124]
402,计算待处理信息对应的表征向量分别与多个过往处理过的信息对应的表征向量之间的距离。
[0125]
本技术对于计算距离采用的算法不做限定,比如可以计算欧氏距离或者余弦夹角距离等。
[0126]
403,根据计算得到的多个距离确定信息的相似度。
[0127]
具体地,距离待处理信息对应的表征向量越近的表征向量所对应的信息,与待处理信息的相似度越高。
[0128]
在一些实施例中,在确定待处理信息分别与多个过往处理过的信息之间的相似度之后,可以按照相似度递减的顺序输出设定数量个过往处理过的信息。举例来说,假设设定数量为三,知识库中包括四个过往处理过的信息,其中第一信息与待处理信息之间的相似度为71,第二信息与待处理信息之间的相似度为23,第三信息与待处理信息之间的相似度为80,第四信息与待处理信息之间的相似度为51。那么可以按照“第三信息
→
第一信息
→
第
四信息”这一顺序输出这三个信息。可选地,可以将输出的信息发送到处理待处理信息的工作人员的设备,以供工作人员借鉴。
[0129]
基于与上述方法的同一构思,参见图5,为本技术实施例提供的一种信息相似度的确定装置500。装置500用于实现上述方法中的各个步骤,为了避免重复,此处不再赘述。装置500包括:获取单元501和处理单元502。
[0130]
获取单元501,用于获取待处理信息中包含的多个实体,以及所述多个实体之间的关系;
[0131]
处理单元502,用于基于所述多个实体以及所述多个实体之间的关系与知识库中包含的实体以及实体之间的关系的匹配结果,更新所述知识库;所述知识库是基于多个过往处理过的信息所包含的实体构建的;
[0132]
所述处理单元502,还用于根据更新后的知识库中的待处理信息对应的表征向量,与所述多个过往处理过的信息对应的表征向量之间的距离,确定所述待处理信息分别与所述多个过往处理过的信息之间的相似度。
[0133]
在一些实施例中,所述处理单元502,具体用于:
[0134]
在所述知识库中存在与第一实体匹配成功的第二实体,且所述第一实体相关的关系与所述第二实体相关的关系不相等时,为所述第二实体中添加所述第一实体相关的关系;
[0135]
在所述知识库中不存在与所述第一实体匹配成功的实体时,将所述第一实体和所述第一实体相关的关系添加到所述知识库中;
[0136]
其中,所述第一实体为所述多个实体中的任意一个。
[0137]
在一些实施例中,所述处理单元502还用于将所述多个实体以及所述多个实体之间的关系与知识库中包含的实体以及实体之间的关系进行匹配,具体用于:
[0138]
将所述多个实体中的任意一个实体分别与所述知识库中包含的实体进行匹配;
[0139]
在所述知识库中存在与所述任意一个实体匹配成功的实体时,则将匹配成功的实体相关的关系与所述第一实体相关的关系进行匹配。
[0140]
在一些实施例中,所述获取单元501,具体用于:
[0141]
通过所述处理单元502将所述待处理信息转化为文本向量;采用预先训练好的神经网络模型,确定所述文本向量中包含的所述多个实体以及所述多个实体之间的关系的位置;根据所述文本向量中所述多个实体以及所述多个实体之间的关系的位置,确定所述待处理信息中所述多个实体以及所述多个实体之间的关系的位置;
[0142]
根据所述待处理信息中所述多个实体以及所述多个实体之间的关系的位置,从所述待处理信息中提取所述多个实体以及所述多个实体之间的关系。
[0143]
在一些实施例中,所述处理单元502,还用于:
[0144]
采用图嵌入算法将所述更新后的知识库中的待处理信息和所述多个过往处理过的信息分别转化为表征向量。
[0145]
在一些实施例中,所述处理单元502,还用于:
[0146]
根据所述待处理信息分别与所述多个过往处理过的信息之间的相似度,按照相似度递减的顺序输出设定数量个过往处理过的信息。
[0147]
图6示出了本技术实施例提供的电子设备600结构示意图。本技术实施例中的电子
设备600还可以包括通信接口603,该通信接口603例如是网口,电子设备可以通过该通信接口603传输数据。
[0148]
在本技术实施例中,存储器602存储有可被至少一个控制器601执行的指令,至少一个控制器601通过执行存储器602存储的指令,可以用于执行上述方法中的各个步骤,例如,控制器601可以实现上述图5中的获取单元501部分功能和处理单元502的功能。
[0149]
其中,控制器601是电子设备的控制中心,可以利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器602内的指令以及调用存储在存储器602内的数据。可选的,控制器601可包括一个或多个处理单元,控制器601可集成应用控制器和调制解调控制器,其中,应用控制器主要处理操作系统和应用程序等,调制解调控制器主要处理无线通信。可以理解的是,上述调制解调控制器也可以不集成到控制器601中。在一些实施例中,控制器601和存储器602可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
[0150]
控制器601可以是通用控制器,例如中央控制器(英文:central processing unit,简称:cpu)、数字信号控制器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用控制器可以是微控制器或者任何常规的控制器等。结合本技术实施例所公开的数据统计平台所执行的步骤可以直接由硬件控制器执行完成,或者用控制器中的硬件及软件模块组合执行完成。
[0151]
存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器602可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(英文:random access memory,简称:ram)、静态随机访问存储器(英文:static random access memory,简称:sram)、可编程只读存储器(英文:programmable read only memory,简称:prom)、只读存储器(英文:read only memory,简称:rom)、带电可擦除可编程只读存储器(英文:electrically erasable programmable read-only memory,简称:eeprom)、磁性存储器、磁盘、光盘等等。存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本技术实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
[0152]
通过对控制器601进行设计编程,例如,可以将前述实施例中介绍的神经网络模型的训练方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行前述的神经网络模型训练方法的步骤,如何对控制器601进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
[0153]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0154]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或
方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的控制器以产生一个机器,使得通过计算机或其它可编程数据处理设备的控制器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0155]
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0156]
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0157]
尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0158]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
技术特征:1.一种信息相似度的确定方法,其特征在于,包括:获取待处理信息中包含的多个实体,以及所述多个实体之间的关系;基于所述多个实体以及所述多个实体之间的关系与知识库中包含的实体以及实体之间的关系的匹配结果,更新所述知识库;所述知识库是基于多个过往处理过的信息所包含的实体构建的;根据更新后的知识库中的待处理信息对应的表征向量,与所述多个过往处理过的信息对应的表征向量之间的距离,确定所述待处理信息分别与所述多个过往处理过的信息之间的相似度。2.根据权利要求1所述的方法,其特征在于,所述基于多个实体以及所述关系与知识库中包含的实体以及实体之间的关系的匹配结果,更新所述知识库,包括:当所述知识库中存在与第一实体匹配成功的第二实体,且所述第一实体相关的关系与所述第二实体相关的关系不相等时,为所述第二实体中添加所述第一实体相关的关系;当所述知识库中不存在与所述第一实体匹配成功的实体时,将所述第一实体和所述第一实体相关的关系添加到所述知识库中;其中,所述第一实体为所述多个实体中的任意一个。3.根据权利要求1或2所述的方法,其特征在于,所述多个实体以及所述多个实体之间的关系与知识库中包含的实体以及实体之间的关系的匹配过程为:将所述多个实体中的任意一个实体分别与所述知识库中包含的实体进行匹配;若所述知识库中存在与所述任意一个实体匹配成功的实体,则将匹配成功的实体相关的关系与所述第一实体相关的关系进行匹配。4.根据权利要求1或2所述的方法,其特征在于,所述获取待处理信息中包含的多个实体,以及所述多个实体之间的关系,包括:将所述待处理信息转化为文本向量;采用预先训练好的神经网络模型,确定所述文本向量中包含的所述多个实体以及所述多个实体之间的关系的位置;根据所述文本向量中所述多个实体以及所述多个实体之间的关系的位置,确定所述待处理信息中所述多个实体以及所述多个实体之间的关系的位置;根据所述待处理信息中所述多个实体以及所述多个实体之间的关系的位置,从所述待处理信息中提取所述多个实体以及所述多个实体之间的关系。5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:采用图嵌入算法将所述更新后的知识库中的待处理信息和所述多个过往处理过的信息分别转化为表征向量。6.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:根据所述待处理信息分别与所述多个过往处理过的信息之间的相似度,按照相似度递减的顺序输出设定数量个过往处理过的信息。7.一种信息相似度的确定装置,其特征在于,包括:获取单元,用于获取待处理信息中包含的多个实体,以及所述多个实体之间的关系;处理单元,用于基于所述多个实体以及所述多个实体之间的关系与知识库中包含的实体以及实体之间的关系的匹配结果,更新所述知识库;所述知识库是基于多个过往处理过
的信息所包含的实体构建的;所述处理单元,还用于根据更新后的知识库中的待处理信息对应的表征向量,与所述多个过往处理过的信息对应的表征向量之间的距离,确定所述待处理信息分别与所述多个过往处理过的信息之间的相似度。8.根据权利要求7所述的装置,其特征在于,所述处理单元,具体用于:在所述知识库中存在与第一实体匹配成功的第二实体,且所述第一实体相关的关系与所述第二实体相关的关系不相等时,为所述第二实体中添加所述第一实体相关的关系;在所述知识库中不存在与所述第一实体匹配成功的实体时,将所述第一实体和所述第一实体相关的关系添加到所述知识库中;其中,所述第一实体为所述多个实体中的任意一个。9.根据权利要求7或8所述的装置,其特征在于,所述处理单元还用于将所述多个实体以及所述多个实体之间的关系与知识库中包含的实体以及实体之间的关系进行匹配,具体用于:将所述多个实体中的任意一个实体分别与所述知识库中包含的实体进行匹配;在所述知识库中存在与所述任意一个实体匹配成功的实体时,则将匹配成功的实体相关的关系与所述第一实体相关的关系进行匹配。10.根据权利要求7或8所述的装置,其特征在于,所述获取单元,具体用于:通过所述处理单元将所述待处理信息转化为文本向量;采用预先训练好的神经网络模型,确定所述文本向量中包含的所述多个实体以及所述多个实体之间的关系的位置;根据所述文本向量中所述多个实体以及所述多个实体之间的关系的位置,确定所述待处理信息中所述多个实体以及所述多个实体之间的关系的位置;根据所述待处理信息中所述多个实体以及所述多个实体之间的关系的位置,从所述待处理信息中提取所述多个实体以及所述多个实体之间的关系。11.根据权利要求7或8所述的装置,其特征在于,所述处理单元,还用于:采用图嵌入算法将所述更新后的知识库中的待处理信息和所述多个过往处理过的信息分别转化为表征向量。12.根据权利要求7或8所述的装置,其特征在于,所述处理单元,还用于:根据所述待处理信息分别与所述多个过往处理过的信息之间的相似度,按照相似度递减的顺序输出设定数量个过往处理过的信息。13.一种电子设备,其特征在于,包括:存储器以及控制器;存储器,用于存储程序指令;控制器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1-6中任一项所述的方法。14.一种计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1-6中任一权利要求所述的方法。
技术总结本申请公开了一种信息相似度的确定方法及装置,在确定信息的相似度时考虑了信息中的一些要素对于相似度的影响,提升确定的相似度的准确性。该方法包括:获取待处理信息中包含的多个实体,以及多个实体之间的关系;基于多个实体以及多个实体之间的关系与知识库中包含的实体以及实体之间的关系的匹配结果,更新知识库;知识库是基于多个过往处理过的信息所包含的实体构建的;根据更新后的知识库中的待处理信息对应的表征向量,与多个过往处理过的信息对应的表征向量之间的距离,确定待处理信息分别与多个过往处理过的信息之间的相似度。息分别与多个过往处理过的信息之间的相似度。息分别与多个过往处理过的信息之间的相似度。
技术研发人员:钱佳佳 刘伟棠 陈立力 周明伟 范鹏召 郑燕玲
受保护的技术使用者:浙江大华技术股份有限公司
技术研发日:2022.07.14
技术公布日:2022/11/1