1.本发明涉及文档处理技术领域,特别是涉及一种文档元素标注方法、装置、电子设备和存储介质。
背景技术:2.随着深度学习技术的快速发展,基于深度学习的文档处理技术也得到了广泛应用。例如基于深度学习技术训练的文档元素分类模型可以用于对文档中的文本元素、图片元素和表格元素等各类元素进行分类。而在训练与文档处理相关的深度学习模型时,通常需要对文档元素进行标注,然后将标注后的文档元素作为训练文档处理相关深度学习模型的训练集,用于进行深度学习模型训练。
3.目前,常用的深度学习文档元素训练集标注方式包括:
4.标注方式一:在利用标注软件的基础上,通过人工确定文档中各个元素的区域,然后人工对不同元素进行标注;
5.标注方式二:使用深度学习模型和人工标注相结合的方式进行标注,即利用人工标注的文档元素作为训练集用于训练出文档元素标注模型,利用文档元素标注模型实现文档元素的大量标注。
6.然而,上述标注方式一通过人工确定文档中各个元素的区域对不同元素进行标注,不仅耗费的人力成本高,还会因人工确定区域的误差导致标注的精确率较低;上述标注方式二中训练文档元素标注模型本身成本较高,并且如果想要保证标注的精确率必须要求文档元素标注模型高精度,而高精度的文档元素标注模型意味着需要大量的高质量训练集,而训练集也是通过人工标注的方式得到的,因此标注方式二同样也存在与标注方式一相同的问题。
技术实现要素:7.本发明实施例的目的在于提供一种文档元素标注方法、装置、电子设备和存储介质,以实现在不影响文档元素标注的精确率的同时,减少文档元素标注的人工成本。
8.在本发明实施的一方面,提供了一种文档元素标注方法,包括:
9.将待标注文档转换为目标图像;
10.对所述目标图像进行形态学处理,得到所述目标图像中所述待标注文档的各个元素对应的初步特征区域;
11.将各个所述初步特征区域中的像素值属于同一连通区域的像素点确定为同一目标区域;
12.获取所述目标区域中的元素内容,并基于所述元素内容对所述目标区域进行标注。
13.可选的,所述对所述目标图像进行形态学处理,得到所述目标图像中所述待标注文档的各个元素对应的初步特征区域,包括:
14.将所述目标图像转换为灰度图像;
15.基于预设滤波核对所述灰度图像进行二值化处理,得到所述目标图像中所述待标注文档的各个元素对应的初步特征区域。
16.可选的,所述基于预设滤波核对所述灰度图像进行二值化处理,得到所述目标图像中所述待标注文档的各个元素对应的初步特征区域,包括:
17.针对所述灰度图像中每个像素点,将用255减去该像素点的原像素值后得到的值作为该像素点的新像素值,得到目标灰度图像;
18.基于预设线检测滤波核对所述目标灰度图像进行腐蚀与膨胀处理,得到目标形态学图像;
19.基于预设区域检测滤波核对所述目标形态学图像进行腐蚀与膨胀处理,得到所述待标注文档的各个元素对应的初步特征区域。
20.可选的,所述基于预设线检测滤波核对所述目标灰度图像进行腐蚀与膨胀处理,得到形态学图像,包括:
21.基于预设竖线检测滤波核对所述目标灰度图像进行腐蚀与膨胀处理,得到初步形态学图像;
22.基于预设横线检测滤波核对所述初步形态学图像进行腐蚀与膨胀处理,得到目标形态学图像。
23.可选的,所述将待标注文档转换为目标图像,包括:
24.基于文档处理工具pymupdf将待标注文档转换为目标图像。
25.可选的,所述将各个所述初步特征区域中的像素值属于同一连通区域的像素点确定为同一目标区域,包括:
26.将各个所述初步特征区域中的像素值属于同一4连通区域的像素点确定为同一目标区域,或将各个所述初步特征区域中的像素值属于同一8连通区域的像素点确定为同一目标区域。
27.可选的,所述获取所述目标区域中的元素内容,并基于所述元素内容对所述目标区域进行标注,包括:
28.确定所述目标区域的位置坐标;
29.获取所述目标图像中与所述位置坐标对应位置处的元素内容;
30.确定所述元素内容的类型,并基于所述类型对所述目标区域进行标注。
31.可选的,所述确定所述元素内容的类型,并基于所述类型对所述目标区域进行标注,包括:
32.确定所述元素内容的类型为文档页眉、文档页脚、文本段落、图片、表格或公式,并将所述目标区域标注为所述元素内容的对应类型。
33.在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
34.存储器,用于存放计算机程序;
35.处理器,用于执行存储器上所存放的程序时,实现任一所述的文档元素标注方法的步骤。
36.在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读
存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的文档元素标注方法。
37.在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的文档元素标注方法。
38.采用本发明实施例提供的文档元素标注方法,将待标注文档转换为目标图像;对目标图像进行形态学处理,得到目标图像中待标注文档的各个元素对应的初步特征区域;将各个初步特征区域中的像素值属于同一连通区域的像素点确定为同一目标区域;获取目标区域中的元素内容,并基于元素内容对所述目标区域进行标注。即通过对目标图像进行形态学处理,可以得到目标图片中满足人类视觉标准的区域划分结果,进而通过连通区域分析确定出不同的各个文档元素所在的目标区域,然后根据目标区域中的元素内容可以直接对目标区域进行标注,不仅减少了文档元素标注过程中的人工资源消耗,而且由于传统的形态学处理等图像处理方法本身的区域确定的优越性,利用形态学处理等图像处理方法可以保证确定的目标区域的准确率,即可以保证文档元素标注的精确率。
附图说明
39.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
40.图1为本发明实施例提供的文档元素标注方法的一种流程图;
41.图2为本发明实施例提供的对目标图像进行形态学处理的一种流程图;
42.图3为本发明实施例提供的对图像进行形态学处理的一种示意图;
43.图4为本发明实施例提供的对图像进行形态学处理的另一种示意图;
44.图5为本发明实施例提供的对图像进行形态学处理的又一种示意图;
45.图6为一个十字交叉结构元的示意图;
46.图7为十字交叉结构元的与图像像素矩阵的一种叠加示意图;
47.图8为本发明实施例提供的文档元素标注的一种流程图;
48.图9为本发明实施例提供的电子设备的结构示意图。
具体实施方式
49.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本技术所获得的所有其他实施例,都属于本发明保护的范围。
50.由于现有的文档标注方式存在耗费的人力成本高以及因人工确定区域的误差导致标注的精确率较低的问题,为了实现在不影响文档元素标注的精确率的同时,减少文档元素标注的人工成本,本发明实施例提供了一种文档元素标注方法、装置、电子设备、计算机可读存储介质以及计算机程序产品。
51.下面首先对本发明实施例所提供的文档元素标注方法进行介绍。本发明实施例所提供的文档元素标注方法可以应用于具有图像处理以及文档处理功能的任何电子设备,在此不做具体限定。
52.图1为本发明实施例提供的文档元素标注方法的一种流程图,如图1所示,所述方法包括:
53.步骤101,将待标注文档转换为目标图像。
54.本发明实施例中,待标注文档包括但不限于:ppt格式的文档、pptx格式的文档、txt格式的文档、doc格式的文档、docx格式的文档、xls格式的文档、xlsx格式的文档和pdf格式的文档。
55.本步骤中,可以采用文档处理工具pymupdf将待标注文档转换为目标图像。当然,本步骤中也可以采用其他任何能够进行文档——图像转换的工具,将待标注文档转换为目标图像,此处不做具体限定。
56.步骤102,对目标图像进行形态学处理,得到目标图像中待标注文档的各个元素初步特征区域。
57.本发明实施例中,待标注文档的各个元素可以包括:文档页眉、文档页脚、文本段落、图片、表格和公式等。对于具有批注的待标注文档,待标注文档的各个元素还可以包括批注文本。
58.其中,元素初步特征区域为对目标图像进行形态学处理后得到的目标图像中具有图像特征的区域。目标图像中的文本段落、表格文档页眉等元素所在区域具有图像特征,所以对目标图像进行形态学处理,可以确定这些区域,而大片空白的背景等区域则不属于初步特征区域。
59.步骤103,将各个初步特征区域中的像素值属于同一连通区域的像素点确定为同一目标区域。
60.如果某些像素点的像素值属于同一连通区域,说明这些像素点很可能是同一种元素对应的像素点。例如,对于一段文本来说,其所对应的像素点的像素值基于相同,属于同一连通区域。所以可以将各个初步特征区域中的像素值属于同一连通区域的像素点确定为同一目标区域,同一目标区域所包括的像素点属于同一种元素。
61.本发明实施例中可以将各个初步特征区域中的像素值属于同一4连通区域的像素点确定为同一目标区域,或将各个初步特征区域中的像素值属于同一8连通区域的像素点确定为同一目标区域。
62.例如,若同一4连通区域中各个像素点的像素值均在第一预设像素值范围内,则可以将该4连通区域的像素点确定为同一目标区域,若同一8连通区域中各个像素点的像素值均在第二预设像素值范围内,则可以将该8连通区域的像素点确定为同一目标区域。其中,第一预设像素值范围和第二预设像素值范围可以根据实际应用场景设定,例如,第一预设像素值范围可以设定为[245,255]或[250,255],第二预设像素值范围可以设定为[252,255]或[253,255]。
[0063]
步骤104,获取目标区域中的元素内容,并基于元素内容对目标区域进行标注。
[0064]
本发明实施例中,元素内容为目标区域的位置坐标对应位置处的内容,可以包括文档页眉、文档页脚、文本段落、图片、表格或公式等。在获取目标区域中的元素内容后,基于元素内容所在目标区域的位置坐标,对目标区域进行标注,得到目标区域对应的位置信息。
[0065]
其中,目标区域可以为矩形区域,对目标区域进行标注具体可以为记录该矩形区
域对应的位置坐标、元素内容以及元素类型,位置坐标可以为该矩形区域的四个角点坐标,也可以为矩形区域的一个角点坐标以及矩形区域的高和宽,只要可以标识该矩形区域的位置即可,在此不做具体限定。
[0066]
例如,针对目标区域a,其包括的元素为一段文本,那么可以对其进行标注,记录信息:位置坐标:目标区域a的位置坐标;元素内容:文本内容;元素类型:文本。
[0067]
采用本发明实施例提供的文档元素标注方法,将待标注文档转换为目标图像;对目标图像进行形态学处理,得到目标图像中待标注文档的各个元素对应的初步特征区域;将各个初步特征区域中的像素值属于同一连通区域的像素点确定为同一目标区域;获取目标区域中的元素内容,并基于元素内容对所述目标区域进行标注。即通过对目标图像进行形态学处理,可以得到目标图片中满足人类视觉标准的区域划分结果,进而通过连通区域分析确定出不同的各个文档元素所在的目标区域,然后根据目标区域中的元素内容可以直接对目标区域进行标注,不仅减少了文档元素标注过程中的人工资源消耗,而且由于传统的形态学处理等图像处理方法本身的区域确定的优越性,利用形态学处理等图像处理方法可以保证确定的目标区域的准确率,即可以保证文档元素标注的精确率。
[0068]
在一种可能的实施方式中,图2为本发明实施例提供的对目标图像进行形态学处理的一种流程图,如图2所示,所述对所述目标图像进行形态学处理,得到所述目标图像中所述待标注文档的各个元素对应的初步特征区域的,可以包括:
[0069]
步骤201,将目标图像转换为灰度图像。
[0070]
由于灰度图像具有使图像能够显示更多的细节、提高图像的对比度、能够有选择的突出图像感兴趣的特征或抑制图像中不需要的特征以及可以使像素的分布更为均匀的特点,因此可以将目标图像转换为灰度图像进行进一步处理。
[0071]
具体的,可以针对目标图像中的每一个像素点,基于公式gray=r*0.299+g*0.587+b*0.114将该像素点的像素值进行变换,使得变换后的像素值位于[0,255]中,其中,r、g、b表示红、绿、蓝三个通道的颜色,gray是变换后的像素灰度。
[0072]
步骤202,基于预设滤波核对灰度图像进行二值化处理,得到目标图像中待标注文档的各个元素对应的初步特征区域。
[0073]
在本实施例中,基于预设滤波核对灰度图像进行二值化处理后,可以得到仅具有0和255两种像素值的处理后的图像,对比度更加明显,有利于识别各个元素对应的初步特征区域。在一种情况下,如果待标注文档中包括分栏线,各个元素对应的初步特征区域可以为分栏线所划分的各个区域。在另一种情况下,如果待标注文档中不包括分栏线,各个元素对应的初步特征区域可以为具有文档页眉、文档页脚、文本段落、图片、表格和公式等图像特征的区域。
[0074]
具体的,所述基于预设滤波核对所述灰度图像进行二值化处理,得到目标图像中所述待标注文档的各个元素对应的初步特征区域的步骤,可以包括如下步骤a1-a3:
[0075]
步骤a1,针对所述灰度图像中每个像素点,将用255减去该像素点的原像素值后得到的值作为该像素点的新像素值,得到目标灰度图像。
[0076]
一般灰度图像中各个元素对应的像素点为黑色,背景为白色,而白色亮度较高,便于进行识别等处理,所以,可以对灰度图像进行取反处理,即将用255减去该像素点的原像素值后得到的值作为该像素点的新像素值,得到目标灰度图像。目标灰度图像中,各个元素
对应的像素点为白色,背景为黑色。
[0077]
步骤a2,基于预设线检测滤波核对目标灰度图像进行腐蚀与膨胀处理,得到目标形态学图像。
[0078]
步骤a3,基于预设区域检测滤波核对目标形态学图像进行腐蚀与膨胀处理,得到所述待标注文档的各个元素对应的初步特征区域。
[0079]
其中,腐蚀处理具体可以是通过取每一个位置的像素点的邻域内的最小灰度值作为该位置像素点的输出灰度值。膨胀处理是通过取每一个位置的像素点的邻域内值的最大值作为该位置像素点的输出灰度值。在上述步骤a2和a3中,可以根据实际需求选择不同大小的滤波核以及处理次数进行腐蚀与膨胀处理。为了行文清晰和方案清楚,后续会进行举例介绍。
[0080]
在一种实施方式中,上述基于预设线检测滤波核对所述目标灰度图像进行腐蚀与膨胀处理,得到形态学图像的步骤可以包括如下步骤b1-b2:
[0081]
步骤b1,基于预设竖线检测滤波核对所述目标灰度图像进行腐蚀与膨胀处理,得到初步形态学图像。
[0082]
本发明实施例中,预设竖线检测滤波核可以用于检测目标灰度图像所表示的待标注文档中是否存在分栏竖线,具体可以用于进行目标图像所表示的文档版面分析。预设竖线检测滤波核可以根据实际应用情况设定为m
×
1大小的矩形滤波核,其中,m为矩形滤波核的高度,1为矩形滤波核的宽度,m的值可以取2、3、4等任意合理数值,此处不做限定。具体的,可以使用m
×
1大小的矩形滤波核先对目标灰度图像进行腐蚀处理,以去除目标灰度图像的噪声,然后再m
×
1大小的矩形滤波核对腐蚀处理后得到的图像进行膨胀处理,使图像形成多个闭合区域,进而可以得到具有多个闭合区域的初步形态学图像。
[0083]
腐蚀处理是通过取每一个位置的像素点的邻域内的最小灰度值作为该位置像素点的输出灰度值,也就是说,采用m
×
1大小的矩形滤波核对目标灰度图像进行腐蚀处理时,针对目标灰度图像中的每一个像素,将其m
×
1大小的邻域内的最小灰度值作为该像素的新的灰度值。这样,所以只要当前m
×
1大小的矩形所包括的像素点中存在黑色像素点,那么该像素的新的灰度值便为0。
[0084]
而由于矩形滤波核的宽度是1,也就是以像素列为单位,所以当目标灰度图像中存在分栏竖线时,针对分栏竖线上的像素点而言,m
×
1大小的矩形所包括的像素点均为白色像素点,所以经过腐蚀处理后,分栏竖线所包括的像素点的像素值依然为白色,从而检测出目标灰度图像中的分栏竖线。
[0085]
膨胀处理是通过取每一个位置的像素点的邻域内值的最大值作为该位置像素点的输出灰度值,也就是说,采用m
×
1大小的矩形滤波核对目标灰度图像进行膨胀处理时,针对目标灰度图像中的每一个像素,将其m
×
1大小的邻域内的最大灰度值作为该像素的新的灰度值。这样,所以只要当前m
×
1大小的矩形所包括的像素点中存在白色像素点,那么该像素的新的灰度值便为255。
[0086]
而由于矩形滤波核的宽度是1,也就是以像素列为单位,所以当目标灰度图像中存在分栏竖线时,针对分栏竖线上的像素点而言,由于图像噪声等因素的影响,在某些情况下,m
×
1大小的矩形所包括的像素点可能存在黑色像素点,经过膨胀处理后,分栏竖线所包括的像素点的像素值均为白色,从而可以更加准确的检测出目标灰度图像中的分栏竖线。
[0087]
例如,图3为本发明实施例提供的对图像进行形态学处理的一种示意图,如图3所示,目标灰度图像301中的黑色线条表示目标灰度图像301对应的文档中的分栏竖线,采用预设竖线检测滤波核检测目标灰度图像301,可以检测出如图像302所示的线条,该线条即为目标灰度图像301中的分栏竖线。
[0088]
步骤b2,基于预设横线检测滤波核对所述初步形态学图像进行腐蚀与膨胀处理,得到目标形态学图像。
[0089]
本发明实施例中,预设横线检测滤波核可以用于检测目标图像所表示的待标注文档中是否存在分栏横线或开放型表格。预设横线检测滤波核可以根据实际应用情况设定为1
×
n大小的矩形滤波核,其中,1为矩形滤波核的高度,n为矩形滤波核的宽度,n的值可以取1、2、3等任意合理数值,此处不做限定。具体的,可以使用1
×
n大小的矩形滤波核先对初步形态学图像进行腐蚀处理,以去除初步形态学图像的噪声,然后再继续利用1
×
n大小的矩形滤波核对腐蚀处理后得到的图像进行膨胀处理,进一步加强图像中的闭合区域,得到目标形态学图像。
[0090]
腐蚀处理是通过取每一个位置的像素点的邻域内的最小灰度值作为该位置像素点的输出灰度值,也就是说,采用1
×
n大小的矩形滤波核对初步形态学图像进行腐蚀处理时,针对初步形态学图像中的每一个像素,将其1
×
n大小的邻域内的最小灰度值作为该像素的新的灰度值。这样,所以只要当前1
×
n大小的矩形所包括的像素点中存在黑色像素点,那么该像素的新的灰度值便为0。
[0091]
而由于矩形滤波核的高度是1,也就是以像素行为单位,所以当初步形态学图像中存在分栏横线时,针对分栏横线上的像素点而言,1
×
n大小的矩形所包括的像素点均为白色像素点,所以经过腐蚀处理后,分栏横线所包括的像素点的像素值依然为白色,从而检测出初步形态学图像中的分栏竖线。
[0092]
膨胀处理是通过取每一个位置的像素点的邻域内值的最大值作为该位置像素点的输出灰度值,也就是说,采用1
×
n大小的矩形滤波核对初步形态学图像进行膨胀处理时,针对初步形态学图像中的每一个像素,将其1
×
n大小的邻域内的最大灰度值作为该像素的新的灰度值。这样,所以只要当前1
×
n大小的矩形所包括的像素点中存在白色像素点,那么该像素的新的灰度值便为255。
[0093]
而由于矩形滤波核的高度是1,也就是以像素行为单位,所以当初步形态学图像中存在分栏横线时,针对分栏横线上的像素点而言,由于图像噪声等因素的影响,在某些情况下,1
×
n大小的矩形所包括的像素点可能存在黑色像素点,经过膨胀处理后,分栏横线所包括的像素点的像素值均为白色,从而可以更加准确的检测出目标灰度图像中的分栏横线。
[0094]
例如,图4为本发明实施例提供的对图像进行形态学处理的另一种示意图,如图4所示,初步形态学图像401中包括文档正文内容、分栏横线、开放型表格和图片,预设横线检测滤波核对初步形态学图像401进行腐蚀与膨胀处理可以得到黑色矩形框所示的开放型表格402和分栏横线403。
[0095]
本发明实施例中通过预设竖线检测滤波核和预设横线检测滤波核对目标灰度图像进行腐蚀处理与膨胀处理,可以获得目标图像所表示的待标注文档中的分栏竖线和分栏横线,将所检测到的分栏竖线和分栏横线相加,可以得到目标图像所表示的待标注文档中的封闭表格结构。
[0096]
当目标图像所表示的待标注文档中存在线结构时,利用预设线检测滤波核对目标图像进行线检测可以很好地辅助文档版面分析。
[0097]
当目标图像所表示的待标注文档中不存在线结构时,而是只具有普通的图片、表格和标题段落的文字区域组合时,本发明实施例可以采用预设区域检测滤波核对目标形态学图像进行腐蚀与膨胀处理,得到待标注文档的各个元素对应的初步特征区域。其中,预设区域检测滤波核可以根据实际应用场景选取m
×
n的矩形滤波核,m、n的值可以根据待标注文档的页面大小调整适配。即可以使用m
×
n大小的矩形滤波核先对目标形态学图像进行腐蚀处理,以进一步去除目标形态学图像的噪声,然后再继续利用m
×
n大小的矩形滤波核对腐蚀处理后得到的图像进行膨胀处理,进一步加强图像中的闭合区域,得到待标注文档的各个元素对应的初步特征区域。
[0098]
图5为本发明实施例提供的对图像进行形态学处理的又一种示意图,如图5所示,采用预设区域检测滤波核对目标形态学图像501进行腐蚀与膨胀处理,得到的初步特征区域包括多个图片区域502,页眉区域503和页脚区域504等。
[0099]
图像的形态学处理可以用于简化页面、提取页面主要特征区域,得到符合人类视觉标准的页面不同区域。本发明实施例中,可以根据待标注文档具有的表格、图片、和文本段落等不同文档元素特征选取适应的预设横线检测滤波核、预设竖线检测滤波核以及预设区域检测滤波核对灰度图像进行腐蚀处理和膨胀处理,得到灰度图像中各个不同文档元素特征对应的掩膜,作为初步特征区域。
[0100]
本发明实施例中,针对图像的形态学腐蚀操作具体可以是通过取每一个位置的像素点的邻域内的最小灰度值作为该位置像素点的输出灰度值。像素点的邻域结构可以是矩形结构,也可以是椭圆形结构、十字交叉形结构等,像素点的邻域结构可以被定义为结构元,实际上可以是个01二值矩阵。
[0101]
举例说明,图6为一个十字交叉结构元的示意图,假设目标图像的像素矩阵为:可以将图6所示的十字交叉结构元与该矩阵进行叠加,得到如图7所示的叠加示意图,其中,图7为十字交叉结构元的与图像像素矩阵的一种叠加示意图。图7阴影部分构成的十字结构即为十字交叉结构元,图6中十字交叉结构元的点(0,2)对应图7所示的目标图像中的灰度值“11”,点(1,1)对应图7所示的目标图像中的灰度值“234”,点(1,2)对应图7所示的目标图像中的灰度值“21”,点(1,3)对应图7所示的目标图像中的灰度值“67”,点(2,2)对应图7所示的目标图像中的灰度值“31”。对图6中十字交叉结构元的每个点处对应的图像灰度做处理即对该点在目标图像中对应的图像灰度做处理。因此,在对图6中十字交叉结构元的点(1,2)处对应的图像灰度做处理时,也就是对图7所示的目标图像中的灰度值“21”所在的像素做处理时,可以在十字形邻域内找最小值,赋值给点(1,2)。根据图7可知,目标图像中灰度值“21”的十字形邻域内的最小值为11,则可以将11赋值给灰度值“21”所在的像素点,得到目标图像对应的新像素矩阵
[0102]
根据所得到的新像素矩阵可知,腐蚀操作将目标图像的灰度值降低了,即腐蚀处理后的输出图像总体亮度低于原来的目标图像的亮度,原来的目标图像中较亮的区域面积会变小,比较暗的区域面积增大。
[0103]
针对图像的形态学膨胀操作可以相当于是腐蚀处理的反向操作,具体可以是通过取每一个位置的像素点的邻域内值的最大值作为该位置像素点的输出灰度值。则经过膨胀处理过后的图像相比较原图像,图像中较亮的物体尺寸会变大,较暗的物体尺寸会减小。同样以图7为例进行说明,在对图6中十字交叉结构元的点(1,2)处对应的图像灰度做处理时,也就是对图7所示的目标图像中的灰度值“21”所在的像素做处理时,可以在十字形邻域内找最大值,赋值给点(1,2)点。如图7所示,目标图像中灰度值“21”的十字形邻域内的最小值为234,则可以将234赋值给灰度值“21”所在的像素点,得到目标图像对应的新像素矩阵根据所得到的新像素矩阵可知,膨胀操作将目标图像的灰度值增大了,即膨胀处理后的输出图像总体亮度高于原来的目标图像的亮度,原来的目标图像中较暗的区域面积会变小,比较亮的区域面积增大。
[0104]
本发明实施例中可以对目标图像先做腐蚀处理,再对腐蚀处理后的图像进行膨胀处理,得到目标形态学图像。也可以先对目标图像做膨胀处理,再对膨胀处理后的图像进行腐蚀处理,得到目标形态学图像。
[0105]
在一种可能的实施方式中,所述将各个所述初步特征区域中的像素值属于同一连通区域的像素点确定为同一目标区域的步骤,可以包括:将各个所述初步特征区域中的像素值属于同一4连通区域的像素点确定为同一目标区域,或将各个所述初步特征区域中的像素值属于同一8连通区域的像素点确定为同一目标区域。
[0106]
也就是说,本发明实施例中目标图像的灰度图像经过形态学腐蚀处理、膨胀处理后可以得到以掩膜形式的页面划分——各个初步特征区域,可以将人眼看到以255的像素值对应的区域作为图像前景,以区别于0像素值对应的背景区域。
[0107]
具体的,可以将初步特征区域图像中4连通或8连通的图像前景像素点划分为同一连通域,并标记同一连通域的矩形外轮廓,得到一个或多个闭合连通域,将得到的一个或多个闭合连通域均作为目标区域。
[0108]
在一种可能的实施方式中,图8为本发明实施例提供的文档元素标注的一种流程图,如图8所示,所述获取所述目标区域中的元素内容,并基于所述元素内容对所述目标区域进行标注,可以包括:
[0109]
步骤801,确定目标区域的位置坐标。
[0110]
具体的,在将初步特征区域图像中4连通或8连通的图像前景像素点划分为同一连通域,得到一个或多个闭合连通域作为目标区域后,可以标记出目标区域的矩形外轮廓,并获取该矩形外轮廓的坐标信息。
[0111]
步骤802,获取目标图像中与位置坐标对应位置处的元素内容。
[0112]
本步骤中,可以根据目标区域的矩形外轮廓的坐标信息确定出目标图像中在该坐标处的内容,然后可以利用ocr(optical character recognition,光学字符识别)技术提取目标图像中该位置处的元素内容。
[0113]
或者,本步骤中也可以根据目标区域的矩形外轮廓的坐标信息直接从待标注文档中查找获取对应位置处的元素内容。
[0114]
步骤803,确定元素内容的类型,并基于类型对目标区域进行标注。
[0115]
具体的,可以确定元素内容的类型为文档页眉、文档页脚、文本段落、图片、表格或公式,并将目标区域标注为元素内容的对应类型。例如,如果元素内容的类型为文档页眉,则将目标区域标注为文档页眉,如果元素内容的类型为文本段落,则将目标区域标注为文本段落。
[0116]
采用本发明实施例提供的方法,可以利用形态学检测和连通域分析等数学方法,实现了对待标注文档中各类元素的区域划分,可以用少量的cpu计算资源实现文档元素标注的任务,不仅减少了文档元素标注过程中的人工资源消耗,而且由于传统的形态学处理等图像处理方法本身的区域确定的优越性,利用形态学处理等图像处理方法可以保证确定的目标区域的准确率,也保证了文档元素标注的精确率。
[0117]
本发明实施例还提供了一种电子设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
[0118]
存储器903,用于存放计算机程序;
[0119]
处理器901,用于执行存储器903上所存放的程序时,实现如下步骤:
[0120]
将待标注文档转换为目标图像;
[0121]
对所述目标图像进行形态学处理,得到所述目标图像中所述待标注文档的各个元素对应的初步特征区域;
[0122]
将各个所述初步特征区域中的像素值属于同一连通区域的像素点确定为同一目标区域;
[0123]
获取所述目标区域中的元素内容,并基于所述元素内容对所述目标区域进行标注。
[0124]
上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0125]
通信接口用于上述电子设备与其他设备之间的通信。
[0126]
存储器可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0127]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0128]
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任
一所述的文档元素标注方法。
[0129]
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文档元素标注方法。
[0130]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0131]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0132]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质和计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0133]
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
技术特征:1.一种文档元素标注方法,其特征在于,包括:将待标注文档转换为目标图像;对所述目标图像进行形态学处理,得到所述目标图像中所述待标注文档的各个元素对应的初步特征区域;将各个所述初步特征区域中的像素值属于同一连通区域的像素点确定为同一目标区域;获取所述目标区域中的元素内容,并基于所述元素内容对所述目标区域进行标注。2.根据权利要求1所述的方法,其特征在于,所述对所述目标图像进行形态学处理,得到所述目标图像中所述待标注文档的各个元素对应的初步特征区域,包括:将所述目标图像转换为灰度图像;基于预设滤波核对所述灰度图像进行二值化处理,得到所述目标图像中所述待标注文档的各个元素对应的初步特征区域。3.根据权利要求2所述的方法,其特征在于,所述基于预设滤波核对所述灰度图像进行二值化处理,得到所述目标图像中所述待标注文档的各个元素对应的初步特征区域,包括:针对所述灰度图像中每个像素点,将用255减去该像素点的原像素值后得到的值作为该像素点的新像素值,得到目标灰度图像;基于预设线检测滤波核对所述目标灰度图像进行腐蚀与膨胀处理,得到目标形态学图像;基于预设区域检测滤波核对所述目标形态学图像进行腐蚀与膨胀处理,得到所述待标注文档的各个元素对应的初步特征区域。4.根据权利要求3所述的方法,其特征在于,所述基于预设线检测滤波核对所述目标灰度图像进行腐蚀与膨胀处理,得到形态学图像,包括:基于预设竖线检测滤波核对所述目标灰度图像进行腐蚀与膨胀处理,得到初步形态学图像;基于预设横线检测滤波核对所述初步形态学图像进行腐蚀与膨胀处理,得到目标形态学图像。5.根据权利要求1-4任一项所述的方法,其特征在于,所述将待标注文档转换为目标图像,包括:基于文档处理工具pymupdf将待标注文档转换为目标图像。6.根据权利要求1-4任一项所述的方法,其特征在于,所述将各个所述初步特征区域中的像素值属于同一连通区域的像素点确定为同一目标区域,包括:将各个所述初步特征区域中的像素值属于同一4连通区域的像素点确定为同一目标区域,或将各个所述初步特征区域中的像素值属于同一8连通区域的像素点确定为同一目标区域。7.根据权利要求1-4任一项所述的方法,其特征在于,所述获取所述目标区域中的元素内容,并基于所述元素内容对所述目标区域进行标注,包括:确定所述目标区域的位置坐标;获取所述目标图像中与所述位置坐标对应位置处的元素内容;确定所述元素内容的类型,并基于所述类型对所述目标区域进行标注。
8.根据权利要求7所述的方法,其特征在于,所述确定所述元素内容的类型,并基于所述类型对所述目标区域进行标注,包括:确定所述元素内容的类型为文档页眉、文档页脚、文本段落、图片、表格或公式,并将所述目标区域标注为所述元素内容的对应类型。9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的方法步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤。
技术总结本发明涉及文档处理技术领域,本发明实施例提供了一种文档元素标注方法、装置、电子设备和存储介质,上述方法包括:将待标注文档转换为目标图像;对目标图像进行形态学处理,得到目标图像中待标注文档的各个元素对应的初步特征区域;将各个初步特征区域中的像素值属于同一连通区域的像素点确定为同一目标区域;获取目标区域中的元素内容,并基于元素内容对目标区域进行标注。采用该方法不仅减少了文档元素标注过程中的人工资源消耗,而且由于传统的形态学处理等图像处理方法本身的区域确定的优越性,利用形态学处理等图像处理方法可以保证确定的目标区域的准确率,即可以保证文档元素标注的精确率。元素标注的精确率。元素标注的精确率。
技术研发人员:徐支勇 李长亮
受保护的技术使用者:北京金山数字娱乐科技有限公司
技术研发日:2022.07.25
技术公布日:2022/11/1