1.本发明属于人工智能技术领域,具体地,涉及一种人工智能识别自动归集方法及系统。
背景技术:2.大量历史纸质文档在存储以及查找方面都存在一定的不便,因此迫切需要对其进行电子化处理。对于历史纸质文档,可以通过扫描的方式转换为电子图片作为数据基础。然而,这些图片并不能形成有效的智能政务电子化办公资料,一方面由于历史纸质文档基数大,形成的扫描图片数量大,难以回溯反查原始文档作为政务办公依据,另一方面由于办公文档中的文字表格等存在大量信息,而扫描图片中的信息需要人工研判阅读,这给政务办公人员带来了大量的额外工作。
技术实现要素:3.本发明提出了一种人工智能识别自动归集方法及系统,系统通过高清扫描仪等方式对纸质文档进行采集,通过人工智能技术进行识别处理后,存入数据共享平台。
4.本发明通过以下技术方案实现:
5.一种人工智能识别自动归集方法:
6.所述方法具体包括以下步骤:
7.步骤s1:按照类别对纸质政务文件进行数据采集;
8.步骤s2:对步骤s1采集的数据进行自动归集识别;
9.步骤s3:对步骤s2得到的文档图像进行识别分析;
10.步骤s4:扫描结果和处理结果上传到数据共享平台。
11.进一步地,在步骤s1中,
12.所述数据采集的具体方法包括:通过扫描仪扫描、通过高拍仪拍摄以及对系统中已存在的图像进行截图;
13.所述纸质政务文件包括上级政策类文件、部门政策类文件、部门通告类文件、部门信息类文件、部门统计数据类文件、业务流程类文件、业务结果类文件和其他需求类文件。
14.进一步地,在步骤s2中,
15.在所述归集识别过程中,根据部门信息对扫描文档图像进行标号,合成为 pdf文件;
16.所述pdf文件的命名规则为:“部门-子部门-证照类型编号-办事流程-扫描日期-处理日期.pdf”。
17.进一步地,在步骤s3中:
18.s3.1:对文档图像进行预处理;
19.s3.2:按照不同的文档类别采用对应的识别处理方式进行识别。
20.进一步地,在步骤s3.1中,
21.所述预处理方法包括:去除图像噪声、去除图像阴影和图像倾斜校正;
22.所述图像去噪方法为:在拍摄或扫描的方式进行文档图像采集时,通过图像中值滤波处理去除噪声;
23.所述图像去除阴影方法为:在通过拍摄的方式进行文档图像采集时时,通过图像直方图均衡化处理去除阴影;
24.所述图像倾斜校正方法为:在通过拍摄或扫描的方式进行文档图像采集时,首先通过霍夫变换检测图像中的直线,检测到直线后,通过直线两端点的坐标信息计算倾斜角度,得到倾斜角度后,最后对图像进行反向旋转操作,完成倾斜校正。
25.进一步地,在步骤s3.2中,
26.所述文档类别包括:普通文档、表格文档、证照文档和流程图文档;
27.s3.2.1:所述普通文档的处理方法为:通过ocr工具提取图像中的文字信息,保存文字识别结果;
28.s3.2.2:所述表格文档的处理方法为:结合深度学习领域的目标检测技术和数字图像处理领域的形态学处理技术进行识别处理;
29.s3.2.2.1:目标检测网络用于定位文档图像中的表格区域:通过 cascadetabnet网络模型定位表格在图像中的位置信息,区分文本区域和表格区域;
30.s3.2.2.1.1:对于文本区域,直接通过ocr工具识别文字内容;
31.s3.2.2.1.2:对于表格区域,通过位置信息,从原始图像中分割出只包括表格的区域图像,通过形态学检测对区域图像进行识别处理;
32.s3.2.2.2:形态学分析表格检测过程具体为:
33.s3.2.2.2.1:将表格区域图像转换为灰度图像,之后进行二值化处理,其中背景像素设置为0,表格线和文字像素设置为255;
34.s3.2.2.2.2:再对二值化后的图像分别进行横向和纵向的形态学开运算处理;
35.s3.2.2.2.3:对横向和纵向的形态学处理结果,分别检测行方向上和列方向上值为255的像素构成的游程的起止位置,过滤长度较短的游程以去除属于文字的线段,分别得到构成表格的横线的集合和纵线集合,
36.其中横线表示为(x0,y0,x1,y0),其中(x0,y0)是横线起点的坐标,(x1,y0) 是横线终点的坐标;纵线表示为(x2,y1,x2,y2),(x2,y1)是纵线起点的坐标, (x2,y2)是纵线终点的坐标;
37.s3.2.2.2.4:根据所有横线的纵坐标和所有纵线的横坐标得到表格的结构信息,包括表格的行数和列数,以及表格中每一个单元格在图像中的位置信息;
38.s3.2.2.2.5:通过ocr工具识别表格中每一个单元格内的文字内容;
39.s3.2.2.2.6:将识别的文字内容,结合表格结构进行保存,作为表格识别结果。
40.进一步地,在步骤s3.2中,
41.s3.2.3:对于证照文档图像的处理过程具体为:
42.s3.2.3.1:通过ocr工具按行识别证照文档图像中的文字信息;
43.s3.2.3.2:对每一行的文字识别结果,通过中文分词工具进行分词处理,将行识别结果划分为由多个词语构成的行内词汇集合;
44.s3.2.3.3:按照从前到后的顺序对集合内的词汇进行组合分割,每次组合为前后
两部分,如集合中包含n个词汇,则最多组合次数为n-1;
45.s3.2.3.4:对组合的前后两部分内容,分别通过预训练的bert模型进行概率预测,将两部分内容的概率预测结果拼接后通过全连接网络预测是否为正确的分割;
46.若为正确的分割,则前一部分内容作为关键字段,后一部分内容是关键字段对应的内容,
47.若为错误的分割,则重新进行分割,直至得到正确的分割;
48.s3.2.3.5:按照“关键字段:关键字段对应的内容”对识别结果进行保存,作为证照文档图像的识别结果;
49.s3.2.4:对于流程图文档图像的处理过程具体为:
50.s3.2.4.1:通过预训练的yolo目标检测模型对流程图进行结构检测,得到构成流程图的结构元素的位置信息以及相应的类别;
51.其中,流程图结构元素类别包括矩形、菱形、平行四边形以及不位于形状图形内的条件文字;
52.s3.2.4.2:通过ocr工具识别结构元素内包含的文字信息;
53.s3.2.4.3:根据s3.2.4.1得到的结构元素位置信息,从图像中去除结构元素部分,此时图像中保留的部分是结构元素之间的表示逻辑执行顺序的箭头线段;
54.s3.2.4.4:通过连通域分析提取图像中的连续像素,得到一组组构成箭头线段的像素集合;
55.s3.2.4.5:分析像素的邻接关系,只有一个邻接的像素是箭头线段的端点,将像素位置作为端点候选位置;
56.s3.2.4.6:计算每一个箭头线段区域在图像上的重心位置,计算端点候选位置与重心的距离,距离重心较近的位置作为箭头线段的箭头位置,距离重心较远的位置作为箭头线段的箭尾位置;
57.s3.2.4.7:通过箭头线段的箭头和箭尾位置查找临近的结构元素,得到结构元素之间的逻辑执行顺序。
58.s3.2.4.8:结合结构元素,结构元素文字内容和逻辑顺序,保存流程图识别结果。
59.一种人工智能识别自动归集系统:
60.所述系统包括:数据采集模块、数据归集模块、识别分析模块和上传模块;
61.数据采集模块,用于按照类别对纸质政务文件进行数据采集;
62.数据归集模块,用于对数据采集模块采集的数据进行自动归集识别;
63.识别分析模块,用于通过人工智能算法对数据归集模块得到的文档图像进行识别分析;
64.上传模块,用于扫描结果和处理结果上传到数据共享平台。
65.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
66.一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现上述任一项所述方法的步骤。
67.本发明有益效果
68.本发明通过自动归集政务文件扫描图像,能够有效缩减政务办公处理流程的中间
环节,从而提高了政务办公人员采集纸质文档时的处理效率;
69.通过人工智能算法自动识别和提取文档中的关键信息,将电子文档和关键信息汇入数据共享平台进行数据注册和挂载,实现了纸质文档对应电子扫描文件的数据反查功能,从而提高了政务文件的检索效率与准确率。
附图说明
70.图1为本发明的方案流程图。
具体实施方式
71.下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
72.根据图1,一种人工智能识别自动归集方法:
73.所述方法具体包括以下步骤:
74.步骤s1:按照类别对纸质政务文件进行数据采集;
75.步骤s2:对步骤s1采集的数据进行自动归集识别;
76.步骤s3:通过人工智能算法对步骤s2得到的文档图像进行识别分析;
77.步骤s4:扫描结果和处理结果上传到数据共享平台。
78.在步骤s1中,
79.所述数据采集的具体方法包括:通过扫描仪扫描、通过高拍仪拍摄以及对系统中已存在的图像进行截图等;
80.所述纸质政务文件包括上级政策类文件、部门政策类文件、部门通告类文件、部门信息类文件、部门统计数据类文件、业务流程类文件、业务结果类文件和其他需求类文件。
81.在步骤s2中,
82.在所述归集识别过程中,根据部门信息对扫描文档图像进行标号,合成为 pdf文件;
83.所述pdf文件的命名规则为:“部门-子部门-证照类型编号-办事流程-扫描日期-处理日期.pdf”。
84.在步骤s3中,具体包括以下步骤:
85.s3.1:对文档图像进行预处理;
86.s3.2:按照不同的文档类别采用对应的识别处理方式进行识别。
87.在步骤s3.1中,
88.所述预处理方法包括:去除图像噪声、去除图像阴影和图像倾斜校正;
89.所述图像去噪方法为:在拍摄或扫描的方式进行文档图像采集时,可能因为设备原因导致图像中出现噪声,为防止对识别产生干扰,通过图像中值滤波处理去除噪声;
90.所述图像去除阴影方法为:在通过拍摄的方式进行文档图像采集时时,可能因为对光照遮挡导致图像中出现阴影,为了识别的准确性,通过图像直方图均衡化处理去除阴影;
91.所述图像倾斜校正方法为:在通过拍摄或扫描的方式进行文档图像采集时,可能因为纸质文档放置时没有摆正,从而导致图像中的文档区域呈现倾斜的状态,为了识别的准确性,需校正图像。过程是首先通过霍夫变换检测图像中的直线,检测到直线后,通过直线两端点的坐标信息计算倾斜角度,得到倾斜角度后,最后对图像进行反向旋转操作,完成倾斜校正。
92.在步骤s3.2中,
93.所述文档类别包括:普通文档、表格文档、证照文档和流程图文档;
94.s3.2.1:所述普通文档的处理方法为:通过ocr工具提取图像中的文字信息,保存文字识别结果;
95.s3.2.2:所述表格文档的处理方法为:结合深度学习领域的目标检测技术和数字图像处理领域的形态学处理技术进行识别处理;
96.s3.2.2.1:目标检测网络用于定位文档图像中的表格区域:通过 cascadetabnet网络模型定位表格在图像中的位置信息,区分文本区域和表格区域;
97.s3.2.2.1.1:对于文本区域,直接通过ocr工具识别文字内容;
98.s3.2.2.1.2:对于表格区域,通过位置信息,从原始图像中分割出只包括表格的区域图像,通过形态学检测对区域图像进行识别处理;
99.s3.2.2.2:形态学分析表格检测过程具体为:
100.s3.2.2.2.1:将表格区域图像转换为灰度图像,之后进行二值化处理,其中背景像素设置为0,表格线和文字像素设置为255;
101.s3.2.2.2.2:再对二值化后的图像分别进行横向和纵向的形态学开运算处理;
102.s3.2.2.2.3:对横向和纵向的形态学处理结果,分别检测行方向上和列方向上值为255的像素构成的游程的起止位置,过滤长度较短的游程以去除属于文字的线段,分别得到构成表格的横线的集合和纵线集合,
103.其中横线表示为(x0,y0,x1,y0),其中(x0,y0)是横线起点的坐标,(x1,y0) 是横线终点的坐标;纵线表示为(x2,y1,x2,y2),(x2,y1)是纵线起点的坐标, (x2,y2)是纵线终点的坐标;
104.s3.2.2.2.4:根据所有横线的纵坐标和所有纵线的横坐标得到表格的结构信息,包括表格的行数和列数,以及表格中每一个单元格在图像中的位置信息等;
105.s3.2.2.2.5:通过ocr工具识别表格中每一个单元格内的文字内容;
106.s3.2.2.2.6:将识别的文字内容,结合表格结构进行保存,作为表格识别结果。
107.在步骤s3.2中,
108.s3.2.3:对于证照文档图像的处理过程具体为:
109.s3.2.3.1:通过ocr工具按行识别证照文档图像中的文字信息;
110.s3.2.3.2:对每一行的文字识别结果,通过中文分词工具进行分词处理,将行识别结果划分为由多个词语构成的行内词汇集合;如某一行的文字识别结果为“水源类型地下水”,分词后的结果为:“水源”,“类型”,“地下”,“水”。
111.s3.2.3.3:按照从前到后的顺序对集合内的词汇进行组合分割,每次组合为前后两部分,如集合中包含n个词汇,则最多组合次数为n-1;如组合分割结果为“水源”、“类型地下水”;“水源类型”、“地下水”;“水源类型地下”、“水”。
112.s3.2.3.4:对组合的前后两部分内容,分别通过预训练的bert模型进行概率预测,将两部分内容的概率预测结果拼接后通过全连接网络预测是否为正确的分割;
113.若为正确的分割,则前一部分内容作为关键字段,后一部分内容是关键字段对应的内容,例如,通过两步骤的预测,得到“水源类型”、“地下水”的分割组合是正确的分割,则“水源类型”是关键字段,“地下水”是关键字段对应的内容。
114.若为错误的分割,则重新进行分割,直至得到正确的分割;
115.s3.2.3.5:按照“关键字段:关键字段对应的内容”对识别结果进行保存,作为证照文档图像的识别结果;
116.s3.2.4:对于流程图文档图像的处理过程具体为:
117.s3.2.4.1:通过预训练的yolo目标检测模型对流程图进行结构检测,得到构成流程图的结构元素的位置信息以及相应的类别;
118.其中,流程图结构元素类别包括矩形、菱形、平行四边形以及不位于形状图形内的条件文字;
119.s3.2.4.2:通过ocr工具识别结构元素内包含的文字信息;
120.s3.2.4.3:根据s3.2.4.1得到的结构元素位置信息,从图像中去除结构元素部分,此时图像中保留的部分是结构元素之间的表示逻辑执行顺序的箭头线段;
121.s3.2.4.4:通过连通域分析提取图像中的连续像素,得到一组组构成箭头线段的像素集合;
122.s3.2.4.5:分析像素的邻接关系,只有一个邻接的像素是箭头线段的端点,将像素位置作为端点候选位置;
123.s3.2.4.6:计算每一个箭头线段区域在图像上的重心位置,计算端点候选位置与重心的距离,距离重心较近的位置作为箭头线段的箭头位置,距离重心较远的位置作为箭头线段的箭尾位置;
124.s3.2.4.7:通过箭头线段的箭头和箭尾位置查找临近的结构元素,得到结构元素之间的逻辑执行顺序。
125.s3.2.4.8:结合结构元素,结构元素文字内容和逻辑顺序,保存流程图识别结果。
126.一种人工智能识别自动归集系统:
127.所述系统包括:数据采集模块、数据归集模块、识别分析模块和上传模块;
128.数据采集模块,用于按照类别对纸质政务文件进行数据采集;
129.数据归集模块,用于对数据采集模块采集的数据进行自动归集识别;
130.识别分析模块,用于通过人工智能算法对数据归集模块得到的文档图像进行识别分析;
131.上传模块,用于扫描结果和处理结果上传到数据共享平台。
132.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
133.一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现上述任一项所述方法的步骤。
134.以上对本发明所提出的一种人工智能识别自动归集方法及系统,进行了详细介绍,对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明
的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
技术特征:1.一种人工智能识别自动归集方法,其特征在于:所述方法具体包括以下步骤:步骤s1:按照类别对纸质政务文件进行数据采集;步骤s2:对步骤s1采集的数据进行自动归集识别;步骤s3:对步骤s2得到的文档图像进行识别分析;步骤s4:扫描结果和处理结果上传到数据共享平台。2.根据权利要求1所述方法,其特征在于:在步骤s1中,所述数据采集的具体方法包括:通过扫描仪扫描、通过高拍仪拍摄以及对系统中已存在的图像进行截图;所述纸质政务文件包括上级政策类文件、部门政策类文件、部门通告类文件、部门信息类文件、部门统计数据类文件、业务流程类文件、业务结果类文件和其他需求类文件。3.根据权利要求2所述方法,其特征在于:在步骤s2中,在所述归集识别过程中,根据部门信息对扫描文档图像进行标号,合成为pdf文件;所述pdf文件的命名规则为:“部门-子部门-证照类型编号-办事流程-扫描日期-处理日期.pdf”。4.根据权利要求3所述方法,其特征在于:在步骤s3中,具体包括以下步骤:s3.1:对文档图像进行预处理;s3.2:按照不同的文档类别采用对应的识别处理方式进行识别。5.根据权利要求4所述方法,其特征在于:在步骤s3.1中,所述预处理方法包括:去除图像噪声、去除图像阴影和图像倾斜校正;所述图像去噪方法为:在拍摄或扫描的方式进行文档图像采集时,通过图像中值滤波处理去除噪声;所述图像去除阴影方法为:在通过拍摄的方式进行文档图像采集时时,通过图像直方图均衡化处理去除阴影;所述图像倾斜校正方法为:在通过拍摄或扫描的方式进行文档图像采集时,首先通过霍夫变换检测图像中的直线,检测到直线后,通过直线两端点的坐标信息计算倾斜角度,得到倾斜角度后,最后对图像进行反向旋转操作,完成倾斜校正。6.根据权利要求5所述方法,其特征在于:在步骤s3.2中,所述文档类别包括:普通文档、表格文档、证照文档和流程图文档;s3.2.1:所述普通文档的处理方法为:通过ocr工具提取图像中的文字信息,保存文字识别结果;s3.2.2:所述表格文档的处理方法为:结合深度学习领域的目标检测技术和数字图像处理领域的形态学处理技术进行识别处理;s3.2.2.1:目标检测网络用于定位文档图像中的表格区域:通过cascadetabnet网络模型定位表格在图像中的位置信息,区分文本区域和表格区域;s3.2.2.1.1:对于文本区域,直接通过ocr工具识别文字内容;s3.2.2.1.2:对于表格区域,通过位置信息,从原始图像中分割出只包括表格的区域图像,通过形态学检测对区域图像进行识别处理;s3.2.2.2:形态学分析表格检测过程具体为:
s3.2.2.2.1:将表格区域图像转换为灰度图像,之后进行二值化处理,其中背景像素设置为0,表格线和文字像素设置为255;s3.2.2.2.2:再对二值化后的图像分别进行横向和纵向的形态学开运算处理;s3.2.2.2.3:对横向和纵向的形态学处理结果,分别检测行方向上和列方向上值为255的像素构成的游程的起止位置,过滤长度较短的游程以去除属于文字的线段,分别得到构成表格的横线的集合和纵线集合,其中横线表示为(x0,y0,x1,y0),其中(x0,y0)是横线起点的坐标,(x1,y0)是横线终点的坐标;纵线表示为(x2,y1,x2,y2),(x2,y1)是纵线起点的坐标,(x2,y2)是纵线终点的坐标;s3.2.2.2.4:根据所有横线的纵坐标和所有纵线的横坐标得到表格的结构信息,包括表格的行数和列数,以及表格中每一个单元格在图像中的位置信息;s3.2.2.2.5:通过ocr工具识别表格中每一个单元格内的文字内容;s3.2.2.2.6:将识别的文字内容,结合表格结构进行保存,作为表格识别结果。7.根据权利要求6所述方法,其特征在于:在步骤s3.2中,s3.2.3:对于证照文档图像的处理过程具体为:s3.2.3.1:通过ocr工具按行识别证照文档图像中的文字信息;s3.2.3.2:对每一行的文字识别结果,通过中文分词工具进行分词处理,将行识别结果划分为由多个词语构成的行内词汇集合;s3.2.3.3:按照从前到后的顺序对集合内的词汇进行组合分割,每次组合为前后两部分,如集合中包含n个词汇,则最多组合次数为n-1;s3.2.3.4:对组合的前后两部分内容,分别通过预训练的bert模型进行概率预测,将两部分内容的概率预测结果拼接后通过全连接网络预测是否为正确的分割;若为正确的分割,则前一部分内容作为关键字段,后一部分内容是关键字段对应的内容,若为错误的分割,则重新进行分割,直至得到正确的分割;s3.2.3.5:按照“关键字段:关键字段对应的内容”对识别结果进行保存,作为证照文档图像的识别结果;s3.2.4:对于流程图文档图像的处理过程具体为:s3.2.4.1:通过预训练的yolo目标检测模型对流程图进行结构检测,得到构成流程图的结构元素的位置信息以及相应的类别;其中,流程图结构元素类别包括矩形、菱形、平行四边形以及不位于形状图形内的条件文字;s3.2.4.2:通过ocr工具识别结构元素内包含的文字信息;s3.2.4.3:根据s3.2.4.1得到的结构元素位置信息,从图像中去除结构元素部分,此时图像中保留的部分是结构元素之间的表示逻辑执行顺序的箭头线段;s3.2.4.4:通过连通域分析提取图像中的连续像素,得到一组组构成箭头线段的像素集合;s3.2.4.5:分析像素的邻接关系,只有一个邻接的像素是箭头线段的端点,将像素位置作为端点候选位置;
s3.2.4.6:计算每一个箭头线段区域在图像上的重心位置,计算端点候选位置与重心的距离,距离重心较近的位置作为箭头线段的箭头位置,距离重心较远的位置作为箭头线段的箭尾位置;s3.2.4.7:通过箭头线段的箭头和箭尾位置查找临近的结构元素,得到结构元素之间的逻辑执行顺序。s3.2.4.8:结合结构元素,结构元素文字内容和逻辑顺序,保存流程图识别结果。8.一种人工智能识别自动归集系统,其特征在于:所述系统包括:数据采集模块、数据归集模块、识别分析模块和上传模块;数据采集模块,用于按照类别对纸质政务文件进行数据采集;数据归集模块,用于对数据采集模块采集的数据进行自动归集识别;识别分析模块,用于通过人工智能算法对数据归集模块得到的文档图像进行识别分析;上传模块,用于扫描结果和处理结果上传到数据共享平台。9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,用于存储计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
技术总结本发明提出了一种人工智能识别自动归集方法及系统,首先按照类别对纸质政务文件进行数据采集,之后对扫描图像进行自动归集,再通过人工智能算法对文档图像进行识别分析,最后将扫描结果和处理结果上传到数据共享平台;本发明通过人工智能算法自动识别和提取文档中的关键信息,将电子文档和关键信息汇入数据共享平台进行数据注册和挂载,实现了纸质文档对应电子扫描文件的数据反查功能,从而提高了政务文件的检索效率与准确率。务文件的检索效率与准确率。务文件的检索效率与准确率。
技术研发人员:潘维有 张俊鹏 杜宛泽 岳驰涛 杨若冰
受保护的技术使用者:吉林省吉林祥云信息技术有限公司
技术研发日:2022.06.17
技术公布日:2022/11/1