本发明涉及自然语言处理,尤其涉及一种基于粗粒度预训练模型的细粒度法律论点对抽取方法及系统。
背景技术:
1、法律论点对抽取旨在从原告和被告的陈述中识别具有相同主题的交互式论点。在审判过程中,原告和被告应分别在指定的文件中,即诉讼和辩护文件中陈述他们的论点。交互式论点对被定义为两个针对统一主题的论点——一个来自诉讼,另一个来自辩护。交互式论点对中的论点可能是一致的,强调相似的观点,也可能是相反的,互相提供对立的观点。
2、正如附图2所示,该图展示了一起私人借贷案件的示例,原告和被告都就借贷交易的实际情况达成共识。然而,在担保人、利息支付和处罚等其他方面,他们存在显著分歧。法律论点对抽取旨在促进诉讼和辩护文件中提出的论点的对齐。这项任务可以帮助法律专业人士,尤其是法官,突出需要集中注意力的关键事实争议,并提供后续调查或分析的路线图。实质上,法律论点对抽取是法律助理系统中的重要工具,旨在提高法官的工作效率。
3、论点对抽取任务近来引起了越来越多的关注,尤其是在从对话式论证中挖掘观点互动的背景下。大多数现有的工作将其形式化为句对分类问题,然而,这些方法严重依赖于大量高质量的标记数据,这需要耗费时间和劳动密集型的手动标注。此外,这些模型通常忽略未标记的诉讼-辩护对中的复杂关系,导致其对法律论点对抽取的能力不够理想。
技术实现思路
1、本发明提供一种基于粗粒度预训练模型的细粒度法律论点对抽取方法及系统,用以解决现有法律论点对的抽取准确度不佳、成本高的问题。
2、本发明提供一种基于粗粒度预训练模型的细粒度法律论点对抽取方法,其包括:
3、获取诉讼文件和辩护文件;
4、通过预训练的论点对抽取模型基于所述诉讼文件和辩护文件进行诉讼论点和辩护论点的抽取,基于所述诉讼论点和辩护论点组成初步论点对;
5、在多个初步论点对中将诉讼论点与辩护论点进行匹配,确认匹配度最高的诉讼论点和辩护论点;
6、基于匹配度最高的诉讼论点和辩护论点进行散度目标匹配,使得每个辩护论点找到至少一个相应的诉讼论点,并且使诉讼论点的匹配关系不同,组成多样化匹配关系,完成最终论点对的抽取。
7、根据本发明提供的一种基于粗粒度预训练模型的细粒度法律论点对抽取方法,所述在多个初步论点对中将诉讼论点与辩护论点进行匹配,确认匹配度最高的诉讼论点和辩护论点,具体包括:
8、将所述诉讼论点与辩护论点组成的初步论点对与特殊标记进行连接组成序列,将所述序列输入至预训练语言模型;
9、所述预训练语言模型对输入的序列生成隐藏表示,捕捉初步论点对中诉讼论点与辩护论点上下文信息;
10、基于诉讼论点与辩护论点上下文信息通过一个前馈神经网络进行匹配分数计算,量化诉讼论点与辩护论点之间的相关性或对比程度。
11、根据本发明提供的一种基于粗粒度预训练模型的细粒度法律论点对抽取方法,所述基于诉讼论点与辩护论点上下文信息通过一个前馈神经网络进行匹配分数计算,量化诉讼论点与辩护论点之间的相关性或对比程度,具体包括:
12、基于给定的诉讼论点,将相应的辩护论点视为一个正例袋,其中至少存在一个正交互论点,通过对具有相同主题的论点应用取最大值的操作来贪心地匹配这些论点,计算正匹配分数;基于正匹配分数,通过预设的对比学习机制训练模型,从其他案件随机抽样负面辩护论点,并通过对比学习机制训练模型正确地匹配来自相同案件的诉讼论点和辩护论点,确定诉讼-辩护匹配目标;
13、基于诉讼-辩护匹配目标,使相关的论点对比不相关的论点对具有更高的分数,确认匹配度最高的诉讼论点和辩护论点。
14、根据本发明提供的一种基于粗粒度预训练模型的细粒度法律论点对抽取方法,所述基于诉讼论点与辩护论点上下文信息通过一个前馈神经网络进行匹配分数计算,量化诉讼论点与辩护论点之间的相关性或对比程度之后,还包括:
15、删除没有讨论特定事实的论点以避免论点假阴性。
16、根据本发明提供的一种基于粗粒度预训练模型的细粒度法律论点对抽取方法,所述基于匹配度最高的诉讼论点和辩护论点进行散度目标匹配,使得每个辩护论点找到至少一个相应的诉讼论点,并且使诉讼论点的匹配关系不同,组成多样化匹配关系,完成最终论点对的抽取,具体包括:
17、从同一文档中抽样两个诉讼论点,基于两个诉讼论点通过标准化计算对辩护论点的两个匹配分布;
18、通过散度计算衡量两个匹配分布之间的差异,并计算匹配散度目标;
19、基于匹配散度目标使不同诉讼论点匹配不同的辩护论点。
20、根据本发明提供的一种基于粗粒度预训练模型的细粒度法律论点对抽取方法,所述使诉讼论点的匹配关系不同,组成多样化匹配关系,完成最终论点对的抽取,具体包括:诉讼论点和辩护论点之间的关系是双向关系,对于每个辩护论点,能够找到至少一个相应的诉讼论点,并且对诉讼论点的匹配关系也不同;
21、通过组成多样化匹配关系,完成最终论点对的抽取。
22、本发明还提供一种基于粗粒度预训练模型的细粒度法律论点对抽取系统,所述系统包括:
23、文件获取模块,用于获取诉讼文件和辩护文件;
24、论点对构建模块,用于通过预训练的论点对抽取模型基于所述诉讼文件和辩护文件进行诉讼论点和辩护论点的抽取,基于所述诉讼论点和辩护论点组成初步论点对;
25、诉讼辩护匹配模块,用于在多个初步论点对中将诉讼论点与辩护论点进行匹配,确认匹配度最高的诉讼论点和辩护论点;
26、匹配散度模块,用于基于匹配度最高的诉讼论点和辩护论点进行散度目标匹配,使得每个辩护论点找到至少一个相应的诉讼论点,并且使诉讼论点的匹配关系不同,组成多样化匹配关系,完成最终论点对的抽取。本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于粗粒度预训练模型的细粒度法律论点对抽取方法。
27、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于粗粒度预训练模型的细粒度法律论点对抽取方法。
28、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于粗粒度预训练模型的细粒度法律论点对抽取方法。
29、本发明提供的一种基于粗粒度预训练模型的细粒度法律论点对抽取方法及系统,通过利用粗粒度的诉讼-辩护数据训练编码器,提出了两个预训练任务。在这种设置下,仅需少量标注数据即可达到或超过完全监督设置下的性能,能够在法律论点抽取任务上取得更优的效果,同时大大减少了人工标注的工作量。
1.一种基于粗粒度预训练模型的细粒度法律论点对抽取方法,其特征在于,包括:
2.根据权利要求1所述的基于粗粒度预训练模型的细粒度法律论点对抽取方法,其特征在于,所述在多个初步论点对中将诉讼论点与辩护论点进行匹配,确认匹配度最高的诉讼论点和辩护论点,具体包括:
3.根据权利要求2所述的基于粗粒度预训练模型的细粒度法律论点对抽取方法,其特征在于,所述基于诉讼论点与辩护论点上下文信息通过一个前馈神经网络进行匹配分数计算,量化诉讼论点与辩护论点之间的相关性或对比程度,具体包括:
4.根据权利要求2所述的基于粗粒度预训练模型的细粒度法律论点对抽取方法,其特征在于,所述基于诉讼论点与辩护论点上下文信息通过一个前馈神经网络进行匹配分数计算,量化诉讼论点与辩护论点之间的相关性或对比程度之后,还包括:
5.根据权利要求1所述的基于粗粒度预训练模型的细粒度法律论点对抽取方法,其特征在于,所述基于匹配度最高的诉讼论点和辩护论点进行散度目标匹配,使得每个辩护论点找到至少一个相应的诉讼论点,并且使诉讼论点的匹配关系不同,组成多样化匹配关系,完成最终论点对的抽取,具体包括:
6.根据权利要求5所述的基于粗粒度预训练模型的细粒度法律论点对抽取方法,其特征在于,所述使诉讼论点的匹配关系不同,组成多样化匹配关系,完成最终论点对的抽取,具体包括:
7.一种基于粗粒度预训练模型的细粒度法律论点对抽取系统,其特征在于,所述系统包括:文件获取模块,用于获取诉讼文件和辩护文件;
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于粗粒度预训练模型的细粒度法律论点对抽取方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于粗粒度预训练模型的细粒度法律论点对抽取方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于粗粒度预训练模型的细粒度法律论点对抽取方法。
