一种合同文件信息抽取方法、装置、系统与流程

专利2023-11-12  73



1.本发明涉及数据处理技术领域,具体而言,涉及一种合同文件信息抽取方法、装置、系统。


背景技术:

2.随着智能化技术的发展,越来越多的行业进行智能化改造以提高工作效率。在合同处理领域,很多时候要进行禁止条款、通用条款、可编辑条款以及金额、地址等的对比,客户可以发现合同的风险以及改动。同时,对于电子合同,要提取并填入合同的若干信息,比如质量要求、预付款等信息才允许进行合同的流转。因为业务量较小,所以合同信息提取的工作都由人工进行处理。但当下随着业务量逐渐增大,人工成本也成倍增加,而且通过人工进行信息提取核对可能会错检、漏检等情况,使得合同文件关键的信息抽取效率较低,且准确率不高。


技术实现要素:

3.本发明实施例提供了一种合同文件信息抽取方法、装置、系统,以至少解决相关技术中合同文件的关键信息抽取效率较低,且准确率不高的技术问题。
4.根据本发明实施例的一个方面,提供了一种合同文件信息抽取方法,包括:将待处理的合同文件转换为纯文本文档;根据预设的正则表达式获取所述纯文本文档对应的目录节点,并根据所述目录节点生成对应的目录树;基于所述目录树获取所述目录树中所有的段落标题,得到段落标题集合;根据关键特征字符从所述段落标题集合中获取目标段落标题,并基于所述目标段落标题获取对应的目标段落;基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置。
5.根据本发明实施例的另一方面,还提供了一种合同文件信息抽取装置,包括:转换单元,用于将待处理的合同文件转换为纯文本文档;第一获取单元,用于根据预设的正则表达式获取所述纯文本文档对应的目录节点,并根据所述目录节点生成对应的目录树;第二获取单元,用于基于所述目录树获取所述目录树中所有的段落标题,得到段落标题集合;第三获取单元,用于根据关键特征字符从所述段落标题集合中获取目标段落标题,并基于所述目标段落标题获取对应的目标段落;确定单元,用于基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置。
6.根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的合同文件信息抽取方法。
7.根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述合同文件信息抽取方法。
8.在本发明实施例中,采用了将待处理的合同文件转换为纯文本文档;根据预设的
正则表达式获取所述纯文本文档对应的目录节点,并根据所述目录节点生成对应的目录树;基于所述目录树获取所述目录树中所有的段落标题,得到段落标题集合;根据关键特征字符从所述段落标题集合中获取目标段落标题,并基于所述目标段落标题获取对应的目标段落;基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置的方法,在上述方法中,由于通过将合同文件转换为文本文档,并将纯文本文档转换为目录树,根据目录树获取对应的段落和关键特征字符在段落中的位置,不仅提高了文本提取的效率,而且提高文本提取的准确率,进而解决了相关技术中合同文件的关键信息抽取效率较低,且准确率不高的技术问题。
附图说明
9.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
10.图1是根据本发明实施例的一种可选的合同文件信息抽取方法的应用环境的示意图;
11.图2是根据本发明实施例的另一种可选的合同文件信息抽取方法的应用环境的示意图;
12.图3是根据本发明实施例的一种可选的合同文件信息抽取方法的流程示意图;
13.图4是根据本发明实施例的另一种可选的合同文件信息抽取方法的流程示意图;
14.图5是根据本发明实施例的又一种可选的合同文件信息抽取方法的流程示意图;
15.图6是根据本发明实施例的又一种可选的合同文件信息抽取方法的流程示意图;
16.图7是根据本发明实施例的又一种可选的合同文件信息抽取方法的流程示意图;
17.图8是根据本发明实施例的一种可选的合同文件信息抽取方法的纯文本文件展示示意图;
18.图9是根据本发明实施例的一种可选的合同文件信息抽取方法的纯文本文件中的目录树示意图;
19.图10是根据本发明实施例的一种可选的合同文件信息抽取方法的纯文本文件段落提取展示示意图;
20.图11是根据本发明实施例的一种可选的合同文件信息抽取方法的基于句法依赖提取段落展示示意图;
21.图12是根据本发明实施例的一种可选的合同文件信息抽取方法的关键字提取结果展示示意图;
22.图13是根据本发明实施例的一种可选的合同文件信息抽取装置的结构示意图;
23.图14是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
24.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范
围。
25.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.根据本发明实施例的一个方面,提供了一种合同文件信息抽取方法,可选地,作为一种可选地实施方式,上述合同文件信息抽取方法可以但不限于应用于如图1所示的应用环境中。该应用环境中包括:与用户进行人机交互的终端设备102、网络104、服务器106。用户108与终端设备102之间可以进行人机交互,终端设备102中运行有合同文件信息抽取应用程序。上述终端设备102中包括人机交互屏幕1022,处理器1024及存储器1026。人机交互屏幕1022用于显示合同文档信息;处理器1024用于获取待处理的合同文件的数据信息。存储器1026用于存储上述待处理的合同文件的数据信息,段落标题集合等。
27.此外,服务器106中包括数据库1062及处理引擎1064,数据库1062中用于存储待处理的合同文件的数据信息,段落标题集合。处理引擎1064用于将待处理的合同文件转换为纯文本文档;根据预设的正则表达式获取所述纯文本文档对应的目录节点,并根据所述目录节点生成对应的目录树;基于所述目录树获取所述目录树中所有的段落标题,得到段落标题集合;根据关键特征字符从所述段落标题集合中获取目标段落标题,并基于所述目标段落标题获取对应的目标段落;基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置;将所述关键特征字符的位置信息返回至上述终端设备102的客户端。
28.在一个或多个实施例中,本技术上述合同文件信息抽取方法可以应用于图2所示的应用环境中。如图2所示,用户202与用户设备204之间可以进行人机交互。用户设备204中包含有存储器206和处理器208。本实施例中用户设备204可以但不限于参考执行上述终端设备102所执行的操作,获取关键特征字符的位置信息。
29.可选地,上述终端设备102和用户设备204包括但不限于为手机、机顶盒、电视、平板电脑、笔记本电脑、pc机,车载电子设备,可穿戴设备等终端,上述网络104可以包括但不限于无线网络或有线网络。其中,该无线网络包括:wifi及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器106可以包括但不限于任何可以进行计算的硬件设备。上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述仅是一种示例,本实施例中对此不作任何限定。
30.作为一种可选地实施方式,如图3所示,本发明实施例提供了一种合同文件信息抽取方法,包括如下步骤:
31.s302,将待处理的合同文件转换为纯文本文档。
32.在本发明实施例中,待处理的合同文件包括但不限于为pdf格式的合同文件,如图8所示,这里的纯文本文档包括但不限于为txt格式的文档。
33.s304,根据预设的正则表达式获取所述纯文本文档对应的目录节点,并根据所述目录节点生成对应的目录树。
34.具体地,这里的目录节点包括目录编号和编号后紧跟的段落标题,根据正则表达式将获取目录编号,然后根据目录编号之间的关系,将上述目录节点生成如图9所示的目录树。
35.s306,基于所述目录树获取所述目录树中所有的段落标题,得到段落标题集合。
36.这里,例如从如图9所示的目录树中,获取如包括目录编号为15及子目录标题的所有段落标题,得到段落标题集合{

缺陷责任与报修,工程报修的原则,缺陷责任期,质量保证金

}。
37.s308,根据关键特征字符从所述段落标题集合中获取目标段落标题,并基于所述目标段落标题获取对应的目标段落。
38.s310,基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置。
39.在本发明实施例中,关键特征字符可以为搜索关键字,或搜索字符串等,例如,如果待抽取的关键特征字符为“质量保证金”,从上述段落标题集合{

缺陷责任与报修,工程报修的原则,缺陷责任期,质量保证金

}确定出对应的目标段落,然后在该目标段落中进一步确定该关键特征字符为“质量保证金”的具体位置。
40.在本发明实施例中在本发明实施例中,采用了将待处理的合同文件转换为纯文本文档;根据预设的正则表达式获取所述纯文本文档对应的目录节点,并根据所述目录节点生成对应的目录树;基于所述目录树获取所述目录树中所有的段落标题,得到段落标题集合;根据关键特征字符从所述段落标题集合中获取目标段落标题,并基于所述目标段落标题获取对应的目标段落;基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置的方法,在上述方法中,由于通过将合同文件转换为文本文档,并将纯文本文档转换为目录树,根据目录树获取对应的段落和关键特征字符在段落中的位置,不仅提高了文本提取的效率,而且提高文本提取的准确率,进而解决了相关技术中合同文件的关键信息抽取效率较低,且准确率不高的技术问题。
41.在一个或多个实施例中,所述根据预设的正则表达式获取所述纯文本文档的目录节点,并根据所述目录节点生成对应的目录树,包括:
42.根据预设的正则表达式获取所述纯文本文档中所有的段落编号,以及所述段落编号对应的段落标题;
43.基于所述段落编号构建所述目录树;其中,所述目录节点包括段落编号和所述段落编号对应的标题。
44.具体地,例如利用包含数字和字符“.”的正则表达式获取目录编号,以及利用数字、字符“.”字符串和“换行符”获取包含编号的段落标题。然后根据目录编号之间的关系,将上述目录节点生成如图9所示的目录树。
45.在一个或多个实施例中,所述基于所述段落编号构建所述目录树,包括:
46.从前往后依次遍历所述纯文本文档中所有的段落编号,并根据所述段落编号的长度确定每个段落标题的权重值;
47.根据所述权重值确定段落标题之间的层级关系;根据所述层级关系构建所述目录树。
48.在本发明实施例中,根据所述段落编号的长度确定每个段落标题的权重值包括但不限于,段落编号较短的段落标题的权重值大于段落编号较短的段落标题的权重值;例如,
段落15.1的权重值为0.8,段落15.1.1的权重值为0.6,由此可以确定段落15.1.1为段落15.1的下级段落,将权重值相同的段落编号按数值大小进行排列,然后根据段落标题之间的上述层级关系构建如图9所示的目录树。
49.在一个或多个实施例中,所述待处理的合同文件包括word格式文档,所述将待处理的合同文件转换为纯文本文档,包括:
50.将所述word格式文档转换为xml格式文档;从所述xml格式文档提取出文本内容,并基于所述文本内容生成所述纯文本文档。
51.具体地,例如将所述将待处理的word格式的合同文件转换为如图8所示的txt文档。
52.在一个或多个实施例中,所述待处理的合同文件包括pdf格式文档,所述将待处理的合同文件转换为纯文本文档还包括:
53.选取所述pdf格式文档中预设页数的正文页面,并获取所述正文页面每行文字最右与最左字符到页边框的距离;
54.根据所述距离将所述pdf格式文档划分为不同段落;根据所述不同段落生成所述纯文本文档。
55.具体地,在本发明实施例中,通过pillow+pdfplumber识别工具将所述将待处理的pdf格式的合同文件转换为一行文本的txt文档。
56.在一个或多个实施例中,所述根据关键特征字符从所述段落标题集合中获取目标段落标题,并基于所述目标段落标题获取对应的目标段落,包括:
57.将关键特征字符分别与所述段落标题集合中每个段落标题相似度计算,将相似度大于预设阈值的段落标题作为第一参考段落集合。
58.具体地,例如关键特征字符为“质量保证金”,将“质量保证金”与上述段落标题集合{

缺陷责任与报修,工程报修的原则,缺陷责任期,质量保证金

}每个段落标题计算相似度,获取较为相似的第一参考段落集合。
59.基于预设的文档主题生成模型从第一参考段落集合中筛选出所述目标段落。
60.这里,本发明实施例包括但不限于通过基于lda主题模型从第一参考段落集合中筛选出如图10所示的目标段落。
61.lda(latent dirichlet allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。生成模型中一篇文章的每个词都是通过"以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语"这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。lda是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,词袋方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
62.在一个或多个实施例中,所述基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置,包括:
63.根据预设的关键字位置表确定与所述关键特征字符相关联的参考关键字的位置;
64.以所述参考关键字的位置为基准,向前或向后匹配所述关键特征字符,直至搜索到标点符号。
65.具体地,这里的参考关键字包括但不限于为关键特征字符一个或多个字符,以所述参考关键字的位置为基准,向前或向后匹配所述关键特征字符,直至搜索到标点符号,可以得到包含关键特征字符所在的句子。
66.在一个或多个实施例中,所述基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置,还包括:
67.获取所述关键特征字符所在的目标段落,并确定出所述目标段落中所有的句子;
68.基于预设的语法分析器和分词器对每个句子进行分词,并使用所预设的语法分析器的句法依赖规则对分词后的每个句子进行分析;
69.基于分析后的结果并根据语法规则确定出所述关键特征字符的位置。
70.具体地,如图11所示,例如首先获取出待提取关键特征字符所在的段落,之后在此段落内获取出待提取段落的所有句子,使用hanlp自然语言处理包与预设的合同分词器进行分词,之后使用hanlp的句法依赖分析对句子进行分析,分析后根据语法找到所要提取的关键特征字符,最后可以得到如图12所示的提取结果展示图。
71.在一个或多个实施例中,所述基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置,还包括:
72.基于训练好的用于命名实体识别的语言表示模型,从所述目标段落中确定出所述关键特征字符的位置。
73.具体地,例如使用bert模型的命名实体识别并结合维基百科的训练模型,根据ner命名实体识别获取关键特征字符的位置。
74.在一个或多个实施例中,所述基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置,还包括:
75.在待处理的合同文件为格式合同时,根据所述格式合同的位置信息表从所述目标段落中确定出所述关键特征字符的位置。
76.在本发明实施例中,在待处理的合同文件为格式合同时,在系统中设置有段落标题和位置关系的位置信息表,根据该位置信息表从所述目标段落中可以确定出所述关键特征字符的位置。
77.相关技术中的合同信息提取存在如下问题:首先,合同文件本身为docx文档或pdf文档,在进行合同提取时首先要转为标准的文本文档进行处理。如上说明,docx文档本身为压缩文件,其标题与标签为xml的对应关系,当文件内自动符号过多时,提取难度较大。而pdf文件本身为图片,即使直接使用ocr技术转为标准文档也无法保持原有的段落结构,而这种段落结构对后面的合同结构化处理影响较大。
78.其次,合同转为标准化文本后,合同本身的结构会被打乱,并失去目录结构。然而合同提取时首先要进行段落的提取,比如提取第一章的1.1,要把1.1内的1.1.1、1.1.2甚至内部的(1)(2)全部同时提取出来,因为合同的标题多种多样,而且有很多的标题干扰项,难以构建相应的目录树。
79.随着机器学习与深度学习的发展,出现了ai相关的提取方式,如目前流行的paddlenlp、tensor2tensor、allennlp、hanlp等nlp框架,也有基于统计学的方式,如分词工
具分词后进行朴素贝叶斯分类、又或者是lad主题、隐马尔科夫模型hmm的词性识别之类的统计学模型。但因为合同属于保密性文件,所以数量比较少,本身这些保密性文件又分成了很多种,属于小样本的数据集,即使使用数据增强、伪标签的训练方式,使用深度学习较为困难。而不同类型的合同,专有名词比较多,使用迁移的与训练模型效果不佳。
80.为了解决上述技术问题,基于上述实施例,如图4所示,在一应用实施例中,上述的合同文件信息抽取方法还包括如下步骤:
81.1,获取合同文件url网络地址,并获取文件的md5值,判断合同是否为pdf电子合同,并获取待比对的模板合同id。
82.2,根据url下载电子合同文件,然后计算该合同文件的md5值。
83.3,当计算出的md5值是否与合同文件的原始md5值相同,若相同转入步骤4,若不相同,转入步骤5。
84.4,检查该md5是否存在于数据库中,若是,转入步骤6,若否,转入步骤7;
85.5,返回前端报错信息,提示合同需要重传。
86.6,查询数据库中该md5对应的内容,并将查询结果返回到前端。
87.7,将合同文件路径,文件名称,md5值,是否为电子合同,对应的模板合同id发送到算法端,然后在前端轮询查询不同的合同文件对应的查询结果。
88.8,后端查询数据库是否有当前md5的字段,如果有将查询结果返回到前端,如果没有,返回继续等待信息。
89.基于上述实施例,如图5所示,在一应用实施例中,上述的合同文件信息抽取方法还包括如下步骤:
90.1,获取合同文件url网络地址,并获取文件的md5值,判断合同是否为pdf电子合同,并获取待比对的模板合同id。
91.2,根据url下载pdf电子合同文件,然后计算该合同文件的md5值;
92.3,计算当前pdf合同的md5值与原始md5值是否相同,如果相同转入步骤5,如果不相同转入步骤4;
93.4,返回前端报错信息,后端继续对其他合同文件件处理。
94.5,将pdf合同文档转为txt的标准文件;
95.6,将该标准文件转为目标树,生成目录结构。
96.7,将word格式的模板合同转换为txt的标准文件,并将该标准文件转为目标树,生成目录结构。
97.8,采用段落提取算法,提取合同中的关键字,或者根据合同比对算法将pdf合同文档与word模板合同进行比对;将上述提取结果和比对结果存入redis数据库。
98.基于上述实施例,如图6所示,在一应用实施例中,上述的合同文件信息抽取方法还包括如下步骤:
99.1,根据待比对的pdf合同的目录树结构,以及word目录树结构获取二者全部的段落标题;
100.2,使用特征词语列表与提取的标题进行相似度匹配,以及使用特征词语列表与lda主题模型的结果进行相似度匹配;
101.3,根据上述两个过程匹配结果中的权重进行计算,得到最匹配的目标段落。
102.4,获取该目标段落的全部内容(包括子段落),返回该段落的内容。
103.基于上述实施例,如图7所示,在一应用实施例中,上述的合同文件信息抽取方法还包括如下步骤:
104.1,提取待比对的pdf合同的所有段落;
105.2,根据关键字特征列表获取关键字所在的句子。
106.2.1,直接提取,当合同为标准合同时,可以进行直接提取,如工程名称:xxxx项目。
107.2.2,采用关键字双向搜索的方式查找,将待查关键字写入配置表,根据配置表的关键字找到该关键字出现的位置,之后向前搜索可能结果的内容,直到出现标点符号。当向前没有找到时,从该关键字位置向后查找,直到出现标点符号。
108.2.3,句法依赖分析,首先获取出待提取关键字所在的段落,之后在此段落内获取出待提取段落的句子,使用hanlp与自己添加的专有建筑合同分词器进行分词,之后使用hanlp的句法依赖分析对句子进行分析,分析后根据语法找到所要提取的词。
109.2.4,ner命名实体识别,在此过程中迁移维基百科的训练模型,使用bert模型的命名实体识别ner获取关键字的位置信息,
110.3,将提取后关键字的位置结果存入redis数据库。
111.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
112.根据本发明实施例的另一个方面,还提供了一种用于实施上述合同文件信息抽取方法的合同文件信息抽取装置。如图13所示,该装置包括:
113.转换单元1302,用于将待处理的合同文件转换为纯文本文档;
114.第一获取单元1304,用于根据预设的正则表达式获取所述纯文本文档对应的目录节点,并根据所述目录节点生成对应的目录树;
115.第二获取单元1306,用于基于所述目录树获取所述目录树中所有的段落标题,得到段落标题集合;
116.第三获取单元1308,用于根据关键特征字符从所述段落标题集合中获取目标段落标题,并基于所述目标段落标题获取对应的目标段落;
117.确定单元1310,用于基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置。
118.在本发明实施例中,采用了将待处理的合同文件转换为纯文本文档;根据预设的正则表达式获取所述纯文本文档对应的目录节点,并根据所述目录节点生成对应的目录树;基于所述目录树获取所述目录树中所有的段落标题,得到段落标题集合;根据关键特征字符从所述段落标题集合中获取目标段落标题,并基于所述目标段落标题获取对应的目标段落;基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置的方法,在上述方法中,由于通过将合同文件转换为文本文档,并将纯文本文档转换为目录树,根据目录树获取对应的段落和关键特征字符在段落中的位置,不仅提高了文本提取的效率,而且提高文本提取的准确率,进而解决了相关技术中合同文件的关键信息抽取效率较低,且准
确率不高的技术问题。
119.在一个或多个实施例中,所述第一获取单元1304,包括:
120.第一获取模块,用于根据预设的正则表达式获取所述纯文本文档中所有的段落编号,以及所述段落编号对应的段落标题;
121.构建模块,用于基于所述段落编号构建所述目录树;其中,所述目录节点包括段落编号和所述段落编号对应的标题。
122.在一个或多个实施例中,所述构建模块,具体包括:
123.遍历子单元,用于从前往后依次遍历所述纯文本文档中所有的段落编号,并根据所述段落编号的长度确定每个段落标题的权重值;
124.第一确定子单元,用于根据所述权重值确定段落标题之间的层级关系;
125.构建子单元,用于根据所述层级关系构建所述目录树。
126.在一个或多个实施例中,所述待处理的合同文件包括word格式文档,所述转换单元1302,包括:
127.第一转换模块,用于将所述word格式文档转换为xml格式文档;
128.第一提取模块,用于从所述xml格式文档提取出文本内容,并基于所述文本内容生成所述纯文本文档。
129.在一个或多个实施例中,所述待处理的合同文件包括pdf格式文档,所述转换单元1302,还包括:
130.第一获取模块,用于选取所述pdf格式文档中预设页数的正文页面,并获取所述正文页面每行文字最右与最左字符到页边框的距离;
131.划分模块,用于根据所述距离将所述pdf格式文档划分为不同段落;
132.生成模块,用于根据所述不同段落生成所述纯文本文档。
133.在一个或多个实施例中,所述第三获取单元1308,包括:
134.第一确定模块,用于将关键特征字符分别与所述段落标题集合中每个段落标题相似度计算,将相似度大于预设阈值的段落标题作为第一参考段落集合;
135.筛选模块,用于基于预设的文档主题生成模型从第一参考段落集合中筛选出所述目标段落。
136.在一个或多个实施例中,所述确定单元1310,包括:
137.第二确定模块,用于根据预设的关键字位置表确定与所述关键特征字符相关联的参考关键字的位置;
138.搜索模块,用于以所述参考关键字的位置为基准,向前或向后匹配所述关键特征字符,直至搜索到标点符号。
139.在一个或多个实施例中,所述确定单元1310,还包括:
140.第二获取模块,用于获取所述关键特征字符所在的目标段落,并确定出所述目标段落中所有的句子;
141.分词模块,用于基于预设的语法分析器和分词器对每个句子进行分词,并使用所预设的语法分析器的句法依赖规则对分词后的每个句子进行分析;
142.第三确定模块,用于基于分析后的结果并根据语法规则确定出所述关键特征字符的位置。
143.在一个或多个实施例中,所述确定单元1310,还包括:
144.第四确定模块,用于基于训练好的用于命名实体识别的语言表示模型,从所述目标段落中确定出所述关键特征字符的位置。
145.在一个或多个实施例中,所述确定单元1310,还包括:
146.第五确定模块,用于在待处理的合同文件为格式合同时,根据所述格式合同的位置信息表从所述目标段落中确定出所述关键特征字符的位置。
147.根据本技术实施例的又一个方面,还提供了一种用于实施上述合同文件信息抽取方法的电子设备,该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图14所示,该电子设备包括存储器1402和处理器1404,该存储器1402中存储有计算机程序,该处理器1404被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
148.可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
149.可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
150.s1,将待处理的合同文件转换为纯文本文档;
151.s2,根据预设的正则表达式获取所述纯文本文档对应的目录节点,并根据所述目录节点生成对应的目录树;
152.s3,基于所述目录树获取所述目录树中所有的段落标题,得到段落标题集合;
153.s4,根据关键特征字符从所述段落标题集合中获取目标段落标题,并基于所述目标段落标题获取对应的目标段落;
154.s5,基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置。
155.可选地,本领域普通技术人员可以理解,图14所示的结构仅为示意,电子装置电子设备也可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices,mid)、pad等终端设备。图14其并不对上述电子装置电子设备的结构造成限定。例如,电子装置电子设备还可包括比图14中所示更多或者更少的组件(如网络接口等),或者具有与图14所示不同的配置。
156.其中,存储器1402可用于存储软件程序以及模块,如本技术实施例中的合同文件信息抽取方法和装置对应的程序指令/模块,处理器1404通过运行存储在存储器1402内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的合同文件信息抽取方法。存储器1402可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1402可进一步包括相对于处理器1404远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1402具体可以但不限于用于存储合同文件的文本信息。作为一种示例,如图14所示,上述存储器1402中可以但不限于包括上述数据处理装置中的转换单元1302、第一获取单元1304、第二获取单元1306、第三获取单元1308及确定单元1310。此外,还可以包括但不限于上述数据处理装置中的其他模块单元,本示例中不再赘述。
157.可选地,上述的传输装置1406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1406包括一个网络适配器
(network interface controller,nic),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1406为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
158.此外,上述电子设备还包括:显示器1408,用于显示合同文件的文本信息;和连接总线1410,用于连接上述电子设备中的各个模块部件。
159.在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(p2p,peer to peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
160.在一个或多个实施例中,本技术还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述合同文件信息抽取方法。其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
161.可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
162.s1,将待处理的合同文件转换为纯文本文档;
163.s2,根据预设的正则表达式获取所述纯文本文档对应的目录节点,并根据所述目录节点生成对应的目录树;
164.s3,基于所述目录树获取所述目录树中所有的段落标题,得到段落标题集合;
165.s4,根据关键特征字符从所述段落标题集合中获取目标段落标题,并基于所述目标段落标题获取对应的目标段落;
166.s5,基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置。
167.可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-only memory,rom)、随机存取器(randomaccess memory,ram)、磁盘或光盘等。
168.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
169.上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
170.在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
171.在本技术所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻
辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
172.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
173.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
174.以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:
1.一种合同文件信息抽取方法,其特征在于,包括:将待处理的合同文件转换为纯文本文档;根据预设的正则表达式获取所述纯文本文档对应的目录节点,并根据所述目录节点生成对应的目录树;基于所述目录树获取所述目录树中所有的段落标题,得到段落标题集合;根据关键特征字符从所述段落标题集合中获取目标段落标题,并基于所述目标段落标题获取对应的目标段落;基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置。2.根据权利要求1所述的方法,其特征在于,所述根据预设的正则表达式获取所述纯文本文档的目录节点,并根据所述目录节点生成对应的目录树,包括:根据预设的正则表达式获取所述纯文本文档中所有的段落编号,以及所述段落编号对应的段落标题;基于所述段落编号构建所述目录树;其中,所述目录节点包括段落编号和所述段落编号对应的标题。3.根据权利要求2所述的方法,其特征在于,所述基于所述段落编号构建所述目录树,包括:从前往后依次遍历所述纯文本文档中所有的段落编号,并根据所述段落编号的长度确定每个段落标题的权重值;根据所述权重值确定段落标题之间的层级关系;根据所述层级关系构建所述目录树。4.根据权利要求1所述的方法,其特征在于,所述待处理的合同文件包括word格式文档,所述将待处理的合同文件转换为纯文本文档,包括:将所述word格式文档转换为xml格式文档;从所述xml格式文档提取出文本内容,并基于所述文本内容生成所述纯文本文档。5.根据权利要求1所述的方法,其特征在于,所述待处理的合同文件包括pdf格式文档,所述将待处理的合同文件转换为纯文本文档还包括:选取所述pdf格式文档中预设页数的正文页面,并获取所述正文页面每行文字最右与最左字符到页边框的距离;根据所述距离将所述pdf格式文档划分为不同段落;根据所述不同段落生成所述纯文本文档。6.根据权利要求1所述的方法,其特征在于,所述根据关键特征字符从所述段落标题集合中获取目标段落标题,并基于所述目标段落标题获取对应的目标段落,包括:将关键特征字符分别与所述段落标题集合中每个段落标题相似度计算,将相似度大于预设阈值的段落标题作为第一参考段落集合;基于预设的文档主题生成模型从第一参考段落集合中筛选出所述目标段落。7.根据权利要求1所述的方法,其特征在于,所述基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置,包括:根据预设的关键字位置表确定与所述关键特征字符相关联的参考关键字的位置;以所述参考关键字的位置为基准,向前或向后匹配所述关键特征字符,直至搜索到标
点符号。8.根据权利要求1所述的方法,其特征在于,所述基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置,还包括:获取所述关键特征字符所在的目标段落,并确定出所述目标段落中所有的句子;基于预设的语法分析器和分词器对每个句子进行分词,并使用所预设的语法分析器的句法依赖规则对分词后的每个句子进行分析;基于分析后的结果并根据语法规则确定出所述关键特征字符的位置。9.根据权利要求1所述的方法,其特征在于,所述基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置,还包括:基于训练好的用于命名实体识别的语言表示模型,从所述目标段落中确定出所述关键特征字符的位置。10.根据权利要求1所述的方法,其特征在于,所述基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置,还包括:在待处理的合同文件为格式合同时,根据所述格式合同的位置信息表从所述目标段落中确定出所述关键特征字符的位置。11.一种合同文件信息抽取装置,其特征在于,包括:转换单元,用于将待处理的合同文件转换为纯文本文档;第一获取单元,用于根据预设的正则表达式获取所述纯文本文档对应的目录节点,并根据所述目录节点生成对应的目录树;第二获取单元,用于基于所述目录树获取所述目录树中所有的段落标题,得到段落标题集合;第三获取单元,用于根据关键特征字符从所述段落标题集合中获取目标段落标题,并基于所述目标段落标题获取对应的目标段落;确定单元,用于基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置。12.一种合同文件信息抽取系统,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。

技术总结
本发明公开了一种合同文件信息抽取方法、装置、系统。其中,上述方法包括:将待处理的合同文件转换为纯文本文档;根据预设的正则表达式获取所述纯文本文档对应的目录节点,并根据所述目录节点生成对应的目录树;基于所述目录树获取所述目录树中所有的段落标题,得到段落标题集合;根据关键特征字符从所述段落标题集合中获取目标段落标题,并基于所述目标段落标题获取对应的目标段落;基于预设的搜索算法从所述目标段落中确定出所述关键特征字符的位置。本发明解决了相关技术中合同文件的关键信息抽取效率较低,且准确率不高的技术问题。且准确率不高的技术问题。且准确率不高的技术问题。


技术研发人员:周予启 张丽梅 史春芳 于峰 杨涛 任耀辉 曹立坤 常栓红
受保护的技术使用者:中建一局集团建设发展有限公司
技术研发日:2022.06.23
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-6326.html

最新回复(0)