本发明涉及信息检索,具体为一种合同问答精准定位条款的方法。
背景技术:
1、随着信息技术的快速发展,合同的数字化和信息海量增长,对合同中条款内容的高效管理和精确检索提出了更高的要求。现有技术面临的主要挑战包括:语义理解的局限性:传统系统往往难以准确理解文档中的复杂语义和上下文信息,导致最终回答的准确性和检索结果的相关性不足。举例来说,在合同中通常包含通用条款、专用条款以及附件,如果不结合所有相关章节,仅凭单个章节或段落,难以得出准确的结论。
2、信息检索的效率问题:面对庞大的条款集合,如何快速定位到相关信息是现有技术面临的另一个挑战。
3、问题解答的准确性:现有的系统在回答复杂问题时,可能无法提供全面或准确的答案。
4、所以针对上述问题,就需要一种合同问答精准定位条款的方法。
技术实现思路
1、本发明的目的在于提供一种合同问答精准定位条款的方法。本发明利用相似度计算的大模型技术,专注于文档章节的信息定位和问题解答。通过高效的信息检索和处理能力,为用户提供更加精准和深入的解答服务。
2、本发明是这样实现的:
3、本发明提供一种合同问答精准定位条款的方法,具体按以下步骤执行:
4、s1:将合同的内容根据标题划分为多个章节,对于提出的第一轮问题,直接结合通过关键字语义检索,进行至少一轮筛选,对提出的问题进行回答;
5、s2:在步骤s1的回答的内容中查找是否需要借助其他不在已经给出的章节中的章节,若需要,则找到被引用的章节并以一个多轮对话的方式将引用章节加入;
6、s3:将步骤s1-步骤s2中得到的章节分成更小的粒度块,并通过向量相似度查找模型分别计算这些块与大模型最终答案、相似条款以及用户输入的问题的相似度并进行汇总,保留最终相似度较高的块,并将其一一进行编号,所述的粒度块为段落;如式(1);
7、sfinal=α·sanswer+β·stemplates+γ·squestion 式(1)
8、其中,
9、sfinal-最终得到的相似度;
10、sanswer-小粒度块和大模型生成最终答案的相似度;
11、stemplates-小粒度块和用户输入的相似条款的相似度;
12、squestion-小粒度块和用户输入的问题的相似度;
13、α、β、γ-是这些相似度在最终相似度中的权重,且为常数;
14、s4:对步骤s3中已编号但未被选中的块与大模型的最终回答用相似度计算模型进行相似度计算,当发现未被选中的块中存在相似度较高的块时,将这些剩余的块重新编码,并重复步骤s3;相似度计算模型具体按以下步骤执行;
15、s4.1:首先对合同的内容的分块数据进行数据预处理,再进行数据清洗,去除噪声数据、异常值;
16、s4.2:进行合同的内容的分块数据进行特征选择,从原始数据中提取出对相似度计算有重要影响的特征;并进行计算特征标准化:将不同量纲的特征转换到同一尺度上,进行比较;
17、s4.3:将选定的特征表示为向量形式,每个特征对应向量中的一个维度;
18、s4.4:根据具体的应用场景和数据特点选择相似度计算方法,计算相似度,应用选定的相似度计算公式,计算两个或多个对象之间的相似度,如式(2);
19、
20、其中,i·j表示向量i和j的点积,││i││和││j││分别表示向量i和j的模。
21、s5:对步骤s1提出的第一轮问题再次进行精确定位。具体通过相似度计算、对块的内容重新编号,进行构造多轮对话,根据对话的内容进行相似度精确计算得到最终的定位,将最终定位的答案作为信息输出。
22、进一步,本发明提供一种计算机可读存储介质,存储介质存储有计算机程序,所述计算机程序被主控制器执行时实现如上述中的任一项所述的方法。
23、与现有技术相比,本发明的有益效果是:
24、1、提高信息检索的准确性和效率。
25、2、通过结合多个章节的信息,避免了单一信息源带来的不准确性,提升了信息检索的精确度。
26、3、增强问题解答的完整性。
27、4、系统能够有效地引用和结合多个章节的信息,提供更加完整和准确的答案,降低信息遗漏的风险。
28、5、多模块协同工作,确保重要信息不被遗漏,提高了系统的可靠性。
1.一种合同问答精准定位条款的方法,其特征在于:具体按以下步骤执行:
2.根据权利要求1所述的一种合同问答精准定位条款的方法,其特征在于,在步骤s4中,相似度计算模型具体按以下步骤执行;
3.根据权利要求1所述的一种合同问答精准定位条款的方法,其特征在于:在步骤s3中,所述的粒度块为段落。
4.根据权利要求1所述的一种合同问答精准定位条款的方法,其特征在于:在步骤s5中,具体通过相似度计算、对块的内容重新编号,进行构造多轮对话,根据对话的内容进行相似度精确计算得到最终的定位,将最终定位的答案作为信息输出。
5.一种计算机可读存储介质,存储介质存储有计算机程序,其特征在于,所述计算机程序被主控制器执行时实现如上述权利要求1-4中的任一项所述的方法。
