本说明书一个或多个实施例涉及知识图谱领域,尤其涉及基于知识图谱的业务处理方法及装置。
背景技术:
1、近年来,知识图谱(knowledge graphs,kgs)在推荐系统、大型语言模型预训练和多媒体融合等多个领域引起了广泛关注。知识图谱利用拓扑结构和文本信息的组合来存储人类知识。为了增强知识图谱的表示能力,知识图谱表示学习(knowledge graphrepresentation learning,kgrl)已成为一项关键任务,旨在将实体嵌入到潜在表示(embedding)中,以促进各种下游任务的进行,包括链接预测、关系预测、知识图谱推理和实体分类等等。
2、然而,实际应用中使用的知识图谱通常规模庞大且复杂,这些知识图谱中存在大量实体和关系,导致相关计算成本高昂且参数需求巨大,难以低成本且快速地处理下游任务。因此,需要一种方法,降低知识图谱表示学习中的数据量,在降低存储成本和计算成本的同时,提高下游任务的处理速度。
技术实现思路
1、本说明书一个或多个实施例描述了基于知识图谱的业务处理方法及装置,以降低知识图谱表示学习中的数据量,同时提升业务处理速度。
2、第一方面,提供了一种基于知识图谱的业务处理方法,包括:
3、在离线阶段,使用目标编码器对知识图谱进行编码处理,得到其中各个实体的第一实体表征;所述知识图谱中包括表示用户和物品的实体;
4、基于各个第一实体表征进行原型聚类,得到多个聚类中心;
5、将与各个聚类中心距离接近的若干实体确定为锚点实体,将锚点实体的相关数据存储为锚点数据集;
6、在业务处理阶段,响应于包含第一目标实体的处理请求,根据离线阶段形成的所述锚点数据集中至少部分锚点实体的第一实体表征,以及该第一目标实体与所述至少部分锚点实体的关系边,确定所述第一目标实体的第二实体表征;所述第二实体表征用于对用户进行物品推荐。
7、在一种可能的实施方式中,所述处理请求还包括第二目标实体;所述第一目标实体和第二目标实体分别对应第一用户和第一物品;所述方法还包括:
8、在业务处理阶段,根据所述锚点数据集,确定所述第二目标实体的第二实体表征;
9、将所述第一目标实体和第二目标实体各自的第二实体表征输入到推荐模型中,根据输出结果确定是否将所述第一物品推荐给所述第一用户。
10、在一种可能的实施方式中,所述目标编码器通过以下方式训练:
11、针对知识图谱中的样本实体对,根据当前的锚点实体的第一实体表征,确定该样本实体对当前的第二实体表征;
12、将当前的第二实体表征输入到推荐模型中,得到对应的训练损失;
13、基于所述训练损失,调整所述目标编码器中的参数值。
14、在一种可能的实施方式中,所述推荐模型用于完成链接预测任务;所述链接预测任务包括,预测用户实体与物品实体之间是否有代表特定交互关系的关系边。
15、在一种可能的实施方式中,所述目标编码器包括文本编码器和结构编码器,所述编码处理包括:
16、使用文本编码器对所述知识图谱中各个实体的文本信息进行编码,得到各个实体的第一原始表征;
17、使用结构编码器对所述知识图谱中的各个实体和关系边进行编码,得到各个实体的第二原始表征,以及各个关系边的第一关系表征;
18、基于各个实体的第一原始表征和第二原始表征的加权求和结果,确定各个实体的第一实体表征。
19、在一种可能的实施方式中,基于各个第一实体表征进行原型聚类,得到多个聚类中心,包括:
20、使用原型聚类算法,基于各个第一实体表征对各个实体进行原型聚类,得到多个聚类簇;
21、根据各个聚类簇中的各个实体的第一实体表征,确定各个聚类簇的聚类中心。
22、在一种可能的实施方式中,所述原型聚类算法至少包括以下之一:k-means聚类算法、gmm算法、spectral clustering算法。
23、在一种可能的实施方式中,将与各个聚类中心距离接近的若干实体确定为锚点实体,包括:
24、对于知识图谱中任意的第一实体,计算其与各个聚类中心之间的距离,将最小距离的倒数确定为该第一实体的置信分数;
25、将各个聚类簇中,置信分数排名靠前的若干实体,确定为锚点实体。
26、在一种可能的实施方式中,所述编码处理还得到各个关系边的第一关系表征;确定所述第一目标实体的第二实体表征,包括:
27、基于所述至少部分锚点实体的第一实体表征,以及各条关系边的第一关系表征,构造第一表征矩阵;
28、将所述第一表征矩阵输入到表征编码模型中,得到第二实体表征。
29、在一种可能的实施方式中,在构造第一表征矩阵之前,所述方法还包括:
30、在业务处理阶段,确定在所述知识图谱中,所述部分锚点实体中各个锚点实体到所述第一目标实体之间的路径距离;
31、基于预设的映射函数,将各个路径距离映射为路径距离表征;
32、基于各个锚点实体的第一实体表征和路径距离表征之和,更新各个锚点实体的第一实体表征。
33、在一种可能的实施方式中,所述表征编码模型至少包括以下之一:多层感知机模型、transformer模型。
34、第二方面,提供了一种基于知识图谱的业务处理装置,包括:
35、第一编码单元,配置为,在离线阶段,使用目标编码器对知识图谱进行编码处理,得到其中各个实体的第一实体表征;所述知识图谱中包括表示用户和物品的实体;
36、聚类单元,配置为,在离线阶段,基于各个第一实体表征进行原型聚类,得到多个聚类中心;
37、锚点确定单元,配置为,在离线阶段,将与各个聚类中心距离接近的若干实体确定为锚点实体,将锚点实体的相关数据存储为锚点数据集;
38、第二编码单元,配置为,在业务处理阶段,响应于包含第一目标实体的处理请求,根据离线阶段形成的所述锚点数据集中至少部分锚点实体的第一实体表征,以及该第一目标实体与所述至少部分锚点实体的关系边,确定所述第一目标实体的第二实体表征;所述第二实体表征用于对用户进行物品推荐。
39、在一种可能的实施方式中,所述处理请求还包括第二目标实体;所述第一目标实体和第二目标实体分别对应第一用户和第一物品;所述装置还包括:
40、第三编码单元,配置为,在业务处理阶段,根据所述锚点数据集,确定所述第二目标实体的第二实体表征;
41、推荐单元,配置为,在业务处理阶段,将所述第一目标实体和第二目标实体各自的第二实体表征输入到推荐模型中,根据输出结果确定是否将所述第一物品推荐给所述第一用户。
42、在一种可能的实施方式中,还包括:
43、距离确定单元,配置为,在业务处理阶段,确定在所述知识图谱中,所述部分锚点实体中各个锚点实体到所述第一目标实体之间的路径距离;
44、映射单元,配置为,在业务处理阶段,基于预设的映射函数,将各个路径距离映射为路径距离表征;
45、表征更新单元,配置为,在业务处理阶段,基于各个锚点实体的第一实体表征和路径距离表征之和,更新各个锚点实体的第一实体表征。
46、第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
47、第四方面,提供了一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
48、本说明书实施例提出的基于知识图谱的业务处理方法及装置,在离线阶段,通过编码器和原型聚类,将知识图谱中的实体划分为多个聚类。然后,将各个聚类中心附近的若干个实体确定为锚点实体,并存储各个锚点实体的相关数据作为锚点数据集,知识图谱中的其它非锚点实体的表征则不存储,而是在在线的业务处理阶段响应于相应的处理请求时,根据锚点实体的表征进行实时计算。如此一来,通过预先计算并存储少量的、有代表性的实体的表征,即可在实时业务中根据下游任务的具体需要,快速确定知识图谱中任意实体的实体表征,以完成计算。在降低存储成本和计算成本的同时,也能提高下游任务(如物品推荐)的处理速度。
1.一种基于知识图谱的业务处理方法,包括:
2.根据权利要求1所述的方法,其中,所述处理请求还包括第二目标实体;所述第一目标实体和第二目标实体分别对应第一用户和第一物品;所述方法还包括:
3.根据权利要求1所述的方法,其中,所述目标编码器通过以下方式训练:
4.根据权利要求2或3所述的方法,其中,所述推荐模型用于完成链接预测任务;所述链接预测任务包括,预测用户实体与物品实体之间是否有代表特定交互关系的关系边。
5.根据权利要求1所述的方法,其中,所述目标编码器包括文本编码器和结构编码器,所述编码处理包括:
6.根据权利要求1所述的方法,其中,基于各个第一实体表征进行原型聚类,得到多个聚类中心,包括:
7.根据权利要求6所述的方法,其中,所述原型聚类算法至少包括以下之一:k-means聚类算法、gmm算法、spectral clustering算法。
8.根据权利要求1所述的方法,将与各个聚类中心距离接近的若干实体确定为锚点实体,包括:
9.根据权利要求1所述的方法,其中,所述编码处理还得到各个关系边的第一关系表征;确定所述第一目标实体的第二实体表征,包括:
10.根据权利要求9所述的方法,在构造第一表征矩阵之前,所述方法还包括:
11.根据权利要求9所述的方法,其中,所述表征编码模型至少包括以下之一:多层感知机模型、transformer模型。
12.一种基于知识图谱的业务处理装置,包括:
13.根据权利要求12所述的装置,其中,所述处理请求还包括第二目标实体;所述第一目标实体和第二目标实体分别对应第一用户和第一物品;所述装置还包括:
14.根据权利要求12所述的装置,还包括:
15.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-11中任一项所述的方法。
16.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-11中任一项所述的方法。