文字检测方法、装置、计算机设备及存储介质与流程

专利2024-12-04  46



1.本技术涉及数据处理技术领域,尤其涉及一种文字检测方法、装置、计 算机设备及存储介质。


背景技术:

2.如何从图片中准确高效的识别出文字信息对自动驾驶,地图导航,图片搜 索等应用场景具有重要意义。文字检测作为文字识别的先决步骤,检测结果 的优劣能够直接影响到识别结果。
3.目前的文本检测方法通常是使用特殊算子(例如,颜色、纹理,或者指定 的矩形框等),对图片中的文字进行检测,来实现简单场景下的文字检测。但 是不同于扫描的纸质文档,自然场景中的文字可能存在透视,形变,强暗光, 背景嘈杂等特性,现有的文本检测方法对于自然场景下的文字识别结果并不 理想。


技术实现要素:

4.本技术实施例的目的在于提出一种文字检测方法、装置、计算机设备及 存储介质,以至少解决现有技术中对于自然场景下的文字识别结果不理想的 问题。
5.为了解决上述技术问题,本技术实施例提供一种文字检测方法,采用了 如下的技术方案:
6.获取目标图片对应的融合特征图;将所述融合特征图输入卷积网络,获 取所述目标图片的字符偏移图、字符分布图、单词分布图、单词中心线图; 根据所述字符偏移图、所述单词分布图以及所述字符分布图确定多边形包围 框;将与所述单词中心线图有交集的所述多边形包围框对应的区域,识别为 文字区域;解码所述文字区域,得到所述目标图片对应的文字检测结果。
7.进一步的,上述获取目标图片对应的融合特征图的步骤,包括:获取目 标图片;采用resnet50特征提取器对所述目标图片进行特征提取,得到至少 一个初始特征图;使用上采样方式对所述初始特征图进行特征融合处理,得 到融合特征图。
8.进一步的,在上述采用resnet50特征提取器对所述目标图片进行特征提 取,得到至少一个初始特征图之前,所述文字检测方法还包括:对所述目标 图像进行缩放处理和归一化处理。
9.进一步的,上述根据所述字符偏移图、所述单词分布图以及所述字符分 布图确定多边形包围框的步骤,包括:对所述单词分布图进行二值化处理, 得到第一单词分布图;根据所述第一单词分布图对所述字符偏移图和所述字 符分布图进行噪声过滤,得到第一字符偏移图和第一字符分布图;对所述第 一字符偏移图进行二值化处理,得到第二字符偏移图;对所述第二字符偏移 图和所述第一单词分布图进行取差值处理,得到综合单词分布图;从第一字 符分布图中提取多个字符特征点坐标;根据所述字符特征点坐标和所述综合 单词分布图,确定多边形包围框。
10.进一步的,上述将与所述单词中心线图有交集的所述多边形包围框对应 的区域,识别为文字区域的步骤,包括:根据第一单词分布图对所述单词中 心线图进行噪声过滤,得到第一单词中心线图;所述第一单词分布图为对所 述单词分布图进行二值化处理得到的;对所述第一单词中心线图进行二值化 处理,得到第二单词中心线图;将与所述第二单词中心线图有交集的多边形 包围框对应的区域,识别为文字区域。
11.进一步的,在上述将所述融合特征图输入卷积网络,获取所述目标图片 的字符偏移图、字符分布图、单词分布图、单词中心线图之前,所述文字检 测方法还包括:以历史图片的历史融合特征图作为输入,历史字符偏移图、 历史字符分布图、历史单词分布图、历史单词中心线图作为输出,采用弱监 督策略和预设卷积网络模型训练得到所述卷积网络。
12.为了解决上述技术问题,本技术实施例还提供一种文字检测装置,采用 了如下的技术方案:
13.第一获取模块,用于获取目标图片对应的融合特征图;第二获取模块, 用于将所述融合特征图输入卷积网络,获取所述目标图片的字符偏移图、字 符分布图、单词分布图、单词中心线图;确定模块,用于根据所述字符偏移 图、所述单词分布图以及所述字符分布图确定多边形包围框;文字识别模块, 用于将与所述单词中心线图有交集的所述多边形包围框对应的区域,识别为 文字区域;文字解码模块,用于解码所述文字区域,得到所述目标图片对应 的文字检测结果。
14.进一步的,所述第一获取模块包括获取子模块、提取子模块以及第一处 理子模块;所述获取子模块,用于获取目标图片;所述提取子模块,用于采 用resnet50特征提取器对所述目标图片进行特征提取,得到至少一个初始特 征图;所述第一处理子模块,用于使用上采样方式对所述初始特征图进行特 征融合处理,得到融合特征图。
15.进一步的,所述第一获取模块还包括第二处理子模块;所述第二处理子 模块,用于对所述目标图像进行缩放处理和归一化处理。
16.进一步的,所述确定模块包括单词处理子模块、过滤子模块、字符处理 子模块、取差处理子模块、坐标提取子模块、确定子模块;所述单词处理子 模块,用于对所述单词分布图进行二值化处理,得到第一单词分布图;所述 过滤子模块,用于根据所述第一单词分布图对所述字符偏移图和所述字符分 布图进行噪声过滤,得到第一字符偏移图和第一字符分布图;所述字符处理 子模块,用于对所述第一字符偏移图进行二值化处理,得到第二字符偏移图; 所述取差处理子模块,用于对所述第二字符偏移图和所述第一单词分布图进 行取差值处理,得到综合单词分布图;所述坐标提取子模块,用于从第一字 符分布图中提取多个字符特征点坐标;所述确定子模块,用于根据所述字符 特征点坐标和所述综合单词分布图,确定多边形包围框。
17.进一步的,所述文字识别模块包括噪声过滤子模块、中心线图处理子模 块以及识别子模块;所述噪声过滤子模块,用于根据第一单词分布图对所述 单词中心线图进行噪声过滤,得到第一单词中心线图;所述第一单词分布图 为对所述单词分布图进行二值化处理得到的;所述中心线图处理子模块,用 于对所述第一单词中心线图进行二值化处理,得到第二单词中心线图;所述 识别子模块,用于将与所述第二单词中心线图有交集的多边形包围框对应的 区域,识别为文字区域。
18.进一步的,所述文字检测装置还包括训练模块;所述训练模块,用于以 历史图片
的历史融合特征图作为输入,历史字符偏移图、历史字符分布图、 历史单词分布图、历史单词中心线图作为输出,采用弱监督策略和预设卷积 网络模型训练得到所述卷积网络。
19.为了解决上述技术问题,本技术实施例还提供了一种计算机设备,该计 算机设备包括存储器和处理器,存储器中存储有计算机程序,处理器执行计 算机程序时实现如上述的文字检测方法的步骤。
20.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质, 该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实 现如上述的文字检测方法的步骤。
21.与现有技术相比,本技术实施例主要有以下有益效果:将目标图片对应 的融合特征图输入卷积网络,获取目标图片的字符偏移图、字符分布图、单 词分布图、单词中心线图。之后,根据字符偏移图、单词分布图以及字符分 布图确定多边形包围框,并将与单词中心线图有交集的多边形包围框对应的 区域,识别为文字区域。最后,解码文字区域,得到目标图片对应的文字检 测结果。这样,使得字符模块对应的字符偏移图和字符分布图,单词模块对 应的单词分布图和单词中心线图共享目标图片的融合特征图,即采用字符和 单词两种监督信号来检测图片中文字信息,提高了文字检测结果的准确性。
附图说明
22.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需 要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的 一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
23.图1是本技术可以应用于其中的示例性系统架构图;
24.图2是本技术的文字检测方法的一个实施例的流程图;
25.图3是图2中步骤s21的一个实施例的流程图;
26.图4是图2中步骤s23的一个实施例的流程图;
27.图5是图2中步骤s24的一个实施例的流程图;
28.图6是本技术的文字检测装置的一个实施例的结构示意图;
29.图7是根据本技术的计算机设备的一个实施例的结构示意图。
具体实施方式
30.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技 术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的 术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的 说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们 的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或 上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描 述特定顺序。
31.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或 特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该 短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备 选的实施例。本领域技术人员显式地
和隐式地理解的是,本文所描述的实施 例可以与其它实施例相结合。
32.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对 本技术实施例中的技术方案进行清楚、完整地描述。
33.如图1所示,系统架构100可以包括终端设备101、102、103,网络104 和服务器105。网络104用以在终端设备101、102、103和服务器105之间提 供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信 链路或者光纤电缆等等。
34.用户可以使用终端设备101、102、103通过网络104与服务器105交互, 以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户 端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、 邮箱客户端、社交平台软件等。
35.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电 子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器 (moving picture expertsgroup audio layer iii,动态影像专家压缩标准音频层 面3)、mp4(moving pictureexperts group audio layer iv,动态影像专家压缩 标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
36.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、 103上显示的页面提供支持的后台服务器。
37.需要说明的是,本技术实施例提供的文字检测方法可以应用于上述服务 器设备105,也可以应用于上述终端设备101、102、103。该服务器设备105 和终端设备101、102、103可以统称为电子设备。即本技术实施例提供的文 字检测方法的执行主体可以为文字检测装置,文字检测装置可以为上述电子 设备(如服务器设备105或终端设备101、102、103)。
38.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。 根据实现需要,可以具有任意数目的终端设备、网络和服务器。
39.继续参考图2,示出了根据本技术的文字检测方法的一个实施例的流程图。 所述的文字检测方法,包括以下步骤:
40.步骤s21,获取目标图片对应的融合特征图。
41.具体的,图3为本技术实施例提供的一种获取目标图片对应的融合特征 图的流程示意图。参照图3所示,包括步骤s211-步骤s213。
42.步骤s211,获取目标图片。
43.步骤s212,采用resnet50特征提取器对目标图片进行特征提取,得到至 少一个初始特征图。
44.在获取到目标图片之后,首先对目标图片进行缩放处理。
45.具体的,对于大小为h*w的目标图片,将该目标图片按照短边长度为第 一数值的像素进行缩放,并为两条长边分别拼贴黑色像素,使得长边的像素 长度能被第二数值整除,得到缩放处理后的目标图片。
46.之后,对缩放处理后的目标图片进行归一化处理。
47.具体的,先将缩放处理后的目标图片的像素值除以第三数值,然后在bgr 通道按照预设均值和预设方差对缩放处理后的目标图片进行归一化处理,得 到预设大小的预处理图片。
48.例如,对于大小为h*w的目标图片,将该目标图片按照短边长度为800 的像素进行
缩放,并为两条长边分别拼贴黑色像素,使得长边的像素长度能 被32整除,得到缩放处理后的目标图片。之后,将缩放处理后的目标图片的 像素值除以255,并在bgr通道按照均值pixel_means=[0.406,0.456,0.485] 和方差pixel_stds=[0.225,0.224,0.229]对缩放处理后的目标图片进行归一化 处理,得到大小为3*h’*w’的预处理图片。
[0049]
最后,采用resnet50特征提取器对预处理图片进行特征提取,得到至少 一个初始特征图。
[0050]
具体的,采用resnet50特征提取器对预处理图片进行特征提取,可以得 到不同大小和不同通道深度的5组特征图f0,f1,f2,f3,f4。f0的通道深 度和大小分别为(128,1/2*h’,1/2*w’),f1的通道深度和大小分别为(256, 1/4*h’,1/4*w’),f2的通道深度和大小分别为(512,1/8*h’,1/8*w’), f3的通道深度和大小分别为(1024,1/16*h’,1/16*w’),f4的通道深度和 大小分别为(2048,1/32*h’,1/32*w’)。
[0051]
在本实施例中,浅层的特征图中包含了更多的细节和位置信息,更利于 检测出小的文字;深层的特征图中包含了更多的上下文语义信息,更利于检 测出大的文字,可以进一步抑制假阳性预测,提高文字检测的准确率。
[0052]
步骤s213,使用上采样方式对初始特征图进行特征融合处理,得到融合 特征图。
[0053]
具体的,将f1,f2,f3,f4作为融合源,使用上采样方式将浅层特征图 融合进深层特征图。例如,通过指令f1’=up_sample(reduce_channel(f2’), reduce_channel(f1)),将浅层特征图融合进深层特征图。其中,up_sample 表示逐元素相加,reduce_channel为一个卷积神经网络,该卷积神经网络中 包含卷积层、批量归一化层以及非线性函数激活层,可以通过改变卷积层中 卷积核的大小来实现特征图的降维处理。这样,得到f1’的深度和大小分别 (256,1/4*h’,1/4*w’),f2’的深度和大小分别(256,1/8*h’,1/8*w’), f3’的深度和大小分别(256,1/16*h’,1/16*w’),f4’的深度和大小分别(256, 1/32*h’,1/32*w’)。
[0054]
然后,将f1’、f2’、f3’、f4’和f0、f1、f2、f3、f4按照通道进行合并, 得到初始融合特征图。之后,使用1*1大小的卷积核对初始融合特征图进行 降维,得到最终的融合特征图f5’,f5’的深度和大小分别(256,1/4*h’,1/4*w’)。
[0055]
步骤s22,将融合特征图输入卷积网络,获取目标图片的字符偏移图、字 符分布图、单词分布图、单词中心线图。
[0056]
可选的,在步骤s22之前,文字检测方法还包括以历史图片的历史融合 特征图作为输入,历史字符偏移图、历史字符分布图、历史单词分布图、历 史单词中心线图作为输出,采用弱监督策略和预设卷积网络模型训练得到卷 积网络。
[0057]
其中,预设卷积网络模型包括卷积层、批量归一化层、非线形激活层以 及反卷积层。
[0058]
历史字符偏移图为历史图片中的字符中心与历史图片的中心点之间的第 一距离组成的特征图(背景所属的第一距离值为0)。
[0059]
历史字符分布图为历史图片中的每个点与其所属字符中心之间的第二距 离组成的特征图(背景所属的第二距离值为0)。
[0060]
可选的,第一距离和第二距离均可以为欧氏距离。
[0061]
历史单词分布图为历史图片中的文字区域组成的特征图。例如,若某一 坐标点位于文字区域,则该坐标点的标签值为1,否则为0。
[0062]
历史单词中心线图为历史图片中的文字区域的中心线组成的特征图。例 如,在确定出历史单词分布图之后,首先确定出历史单词分布图的几何中心 线(无宽度)。然后在该几何中心线上取20(可根据实际情况取值,如根据历 史单词分布图的大小取值)个等分点,每个等分点用合适直径(根据实际文 字区域的大小取值)的圆来覆盖文字区域。最后,统计该20个圆的平均直径, 并将平均直径的合适宽度(如平均直径的70%)作为中心线的宽度,将原几 何中心线的首尾分别缩进合适的长度(如平均直径的50%)作为中心线的长 度,得到历史单词中心线图。
[0063]
具体的,首先以历史图片的历史融合特征图作为输入,历史字符偏移图、 历史字符分布图、历史单词分布图、历史单词中心线图作为输出,训练预设 卷积网络模型,得到初级卷积网络。之后,将调整图片的调整融合特征图作 为初级卷积网络的输入,根据输出的调整图片的调整单词分布图和调整单词 中心线图,对初级卷积网络进行调整,并进行迭代,在迭代预设次数后,得 到调整卷积网络。然后,将测试图片的测试融合特征图作为调整卷积网络的 输入,输出测试字符偏移图(称为字符伪标签)、测试字符分布图(称为字符 伪标签)、测试单词分布图、测试单词中心线图。利用测试单词分布图和测试 单词中心线图来评估字符偏移图和测试字符分布图的质量,并将得分较低的 字符偏移图和测试字符分布图对应的位置设置为非重点(donotcare),得到测 试卷积网络。最后,利用字符伪标签对测试卷积网络进行迭代训练,直至损 失函数收敛,得到最终的卷积网络。
[0064]
在本实施例中,使用单词分布图和单词中心线图作为监督信号,生成字 符伪标签,然后将质量较低的字符伪标签对应的位置设置为非重点。这样, 减少了卷积网络训练过程中的迭代次数,提升了卷积网络的训练速度。
[0065]
之后,将目标图片的融合特征图输入训练好的卷积网络,卷积网络的输 出为目标图片的字符偏移图、字符分布图、单词分布图、单词中心线图。其 中,字符偏移图的大小为(h’,w’),字符分布图的大小(2,h’,w’),单词分 布图的大小为(h’,w’),单词中心线图的大小为(h’,w’)。
[0066]
步骤s23,根据字符偏移图、单词分布图以及字符分布图确定多边形包围 框。
[0067]
具体的,图4为本技术实施例提供的一种确定多边形包围框的流程示意 图。参照图4所示,包括步骤s231-步骤s236。
[0068]
步骤s231,对单词分布图进行二值化处理,得到第一单词分布图。
[0069]
例如,用0.5的阈值对单词分布图进行二值化处理,将单词分布图中大于 或者等于0.5的点的像素设置为255,将单词分布图中小于0.5的点的像素设 置为0,得到第一单词分布图。
[0070]
步骤s232,根据第一单词分布图对字符偏移图和字符分布图进行噪声过 滤,得到第一字符偏移图和第一字符分布图。
[0071]
具体的,将字符偏移图和字符分布图中,与第一单词分布图中像素为0 的点对应的点置0,得到第一字符偏移图和第一字符分布图。
[0072]
步骤s233,对第一字符偏移图进行二值化处理,得到第二字符偏移图。
[0073]
例如,用0.7的阈值对第一字符偏移图进行二值化处理,将第一字符偏移 图中大于或者等于0.7的点的像素设置为255,将单词分布图中小于0.7的点 的像素设置为0,得到第二字符偏移图。
[0074]
步骤s234,对第二字符偏移图和第一单词分布图进行取差值处理,得到综合单词分布图。
[0075]
具体的,将第二字符偏移图中像素为0,且第一单词分布图像素为255的点的像素设置为255,得到综合单词分布图。
[0076]
步骤s235,从第一字符分布图中提取多个字符特征点坐标。
[0077]
具体的,可以采用预先训练的提取模块从第一字符分布图中提取多个字符特征点坐标。
[0078]
步骤s236,根据字符特征点坐标和综合单词分布图,确定多边形包围框。
[0079]
具体的,根据字符特征点坐标,从综合单词分布图中得到至少两个边界上的一组点的位置,然后将该组中所有点的位置连起来,得到任意形状文字区域的多边形包围框。
[0080]
步骤s24,将与单词中心线图有交集的多边形包围框对应的区域,识别为文字区域。
[0081]
具体的,图5为本技术实施例提供的一种识别为文字区域的流程示意图。参照图5所示,包括步骤s241-步骤s243。
[0082]
步骤s241,根据第一单词分布图对单词中心线图进行噪声过滤,得到第一单词中心线图。
[0083]
具体的,将单词中心线图中与第一单词分布图中像素为0的点对应的点置0,得到第一单词中心线图。其中,第一单词分布图为对单词分布图进行二值化处理得到的。
[0084]
步骤s242,对第一单词中心线图进行二值化处理,得到第二单词中心线图。
[0085]
例如,用0.5的阈值对第一单词中心线图进行二值化处理,将第一单词中心线图中大于或者等于0.5的点的像素设置为255,将第一单词中心线图中小于0.5的点的像素设置为0,得到第二单词中心线图。
[0086]
步骤s243,将与第二单词中心线图有交集的多边形包围框对应的区域,识别为文字区域。
[0087]
步骤s25,解码文字区域,得到目标图片对应的文字检测结果。
[0088]
在本实施例中,将目标图片对应的融合特征图输入卷积网络,获取目标图片的字符偏移图、字符分布图、单词分布图、单词中心线图。之后,根据字符偏移图、单词分布图以及字符分布图确定多边形包围框,并将与单词中心线图有交集的多边形包围框对应的区域,识别为文字区域。最后,解码文字区域,得到目标图片对应的文字检测结果。这样,使得字符模块对应的字符偏移图和字符分布图,单词模块对应的单词分布图和单词中心线图共享目标图片的融合特征图,即采用字符和单词两种监督信号来检测图片中文字信息,提高了文字检测结果的准确性。
[0089]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)等非易失性存储介质,或随机存储记忆体(randomaccessmemory,ram)等。
[0090]
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤
的执行并没有严格的顺序限制,其可以以其他的顺序 执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多 个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在 不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或 者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0091]
进一步参考图6,作为对上述图2所示方法的实现,本技术提供了一种文 字检测装置的一个实施例,该装置实施例与图2所示的方法实施例相对应, 该装置具体可以应用于各种电子设备中。
[0092]
如图6所示,本实施例的文字检测装置60包括:第一获取模块61、第二 获取模块62、确定模块63、文字识别模块64以及文字解码模块65。其中:
[0093]
第一获取模块61,用于获取目标图片对应的融合特征图;第二获取模块 62,用于将融合特征图输入卷积网络,获取目标图片的字符偏移图、字符分 布图、单词分布图、单词中心线图;确定模块63,用于根据字符偏移图、单 词分布图以及字符分布图确定多边形包围框;文字识别模块64,用于将与单 词中心线图有交集的多边形包围框对应的区域,识别为文字区域;文字解码 模块65,用于解码文字区域,得到目标图片对应的文字检测结果。
[0094]
在本实施例中,将目标图片对应的融合特征图输入卷积网络,获取目标 图片的字符偏移图、字符分布图、单词分布图、单词中心线图。之后,根据 字符偏移图、单词分布图以及字符分布图确定多边形包围框,并将与单词中 心线图有交集的多边形包围框对应的区域,识别为文字区域。最后,解码文 字区域,得到目标图片对应的文字检测结果。这样,使得字符模块对应的字 符偏移图和字符分布图,单词模块对应的单词分布图和单词中心线图共享目 标图片的融合特征图,即采用字符和单词两种监督信号来检测图片中文字信 息,提高了文字检测结果的准确性。
[0095]
在本实施例的一些可选的实现方式中,第一获取模块61包括获取子模块、 提取子模块以及第一处理子模块;获取子模块,用于获取目标图片;提取子 模块,用于采用resnet50特征提取器对目标图片进行特征提取,得到至少一 个初始特征图;第一处理子模块,用于使用上采样方式对初始特征图进行特 征融合处理,得到融合特征图。
[0096]
在本实施例中,采用resnet50特征提取器对目标图片进行特征提取,能 够得到不同深度的特征图。浅层的特征图中包含了更多的细节和位置信息, 更利于检测出小的文字,深层的特征图中包含了更多的上下文语义信息,更 利于检测出大的文字,可以进一步抑制假阳性预测,提高文字检测的准确率。
[0097]
在本实施例的一些可选的实现方式中,第一获取模块61还包括第二处理 子模块;第二处理子模块,用于对目标图像进行缩放处理和归一化处理。
[0098]
在本实施例的一些可选的实现方式中,确定模块63包括单词处理子模块、 过滤子模块、字符处理子模块、取差处理子模块、坐标提取子模块、确定子 模块;单词处理子模块,用于对单词分布图进行二值化处理,得到第一单词 分布图;过滤子模块,用于根据第一单词分布图对字符偏移图和字符分布图 进行噪声过滤,得到第一字符偏移图和第一字符分布图;字符处理子模块, 用于对第一字符偏移图进行二值化处理,得到第二字符偏移图;取差处理子 模块,用于对第二字符偏移图和第一单词分布图进行取差值处理,得到综合 单词分布图;坐标提取子模块,用于从第一字符分布图中提取多个字符特征 点坐标;确定子模块,用于根据字符特征点坐标和综合单词分布图,确定多 边形包围框。
[0099]
在本实施例的一些可选的实现方式中,文字识别模块64包括噪声过滤子 模块、中心线图处理子模块以及识别子模块;噪声过滤子模块,用于根据第 一单词分布图对单词中心线图进行噪声过滤,得到第一单词中心线图;第一 单词分布图为对单词分布图进行二值化处理得到的;中心线图处理子模块, 用于对第一单词中心线图进行二值化处理,得到第二单词中心线图;识别子 模块,用于将与第二单词中心线图有交集的多边形包围框对应的区域,识别 为文字区域。
[0100]
在本实施例的一些可选的实现方式中,文字检测装置还包括训练模块; 训练模块,用于以历史图片的历史融合特征图作为输入,历史字符偏移图、 历史字符分布图、历史单词分布图、历史单词中心线图作为输出,采用弱监 督策略和预设卷积网络模型训练得到卷积网络。
[0101]
在本实施例中,使用单词分布图和单词中心线图作为监督信号,生成字 符伪标签,然后将质量较低的字符伪标签对应的位置设置为非重点。这样, 减少了卷积网络训练过程中的迭代次数,提升了卷积网络的训练速度。
[0102]
为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图7, 图7为本实施例计算机设备基本结构框图。
[0103]
所述计算机设备70包括通过系统总线相互通信连接存储器71、处理器 72、网络接口73。需要指出的是,图中仅示出了具有组件71-73的计算机设 备70,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更 多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设 备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理 的设备,其硬件包括但不限于微处理器、专用集成电路(application specificintegrated circuit,asic)、可编程门阵列(field-programmable gate array, fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
[0104]
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器 等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板 或声控设备等方式进行人机交互。
[0105]
所述存储器71至少包括一种类型的可读存储介质,所述可读存储介质包 括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访 问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电 可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存 储器、磁盘、光盘等。在一些实施例中,所述存储器71可以是所述计算机设 备70的内部存储单元,例如该计算机设备70的硬盘或内存。在另一些实施例 中,所述存储器71也可以是所述计算机设备70的外部存储设备,例如该计算 机设备70上配备的插接式硬盘,智能存储卡(smart media card,smc),安全 数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器71 还可以既包括所述计算机设备70的内部存储单元也包括其外部存储设备。本 实施例中,所述存储器71通常用于存储安装于所述计算机设备70的操作系统 和各类应用软件,例如文字检测方法的程序代码等。此外,所述存储器71还 可以用于暂时地存储已经输出或者将要输出的各类数据。
[0106]
所述处理器72在一些实施例中可以是中央处理器(central processing unit, cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器72 通常用于控制所述
计算机设备70的总体操作。本实施例中,所述处理器72 用于运行所述存储器71中存储的程序代码或者处理数据,例如运行所述文字 检测方法的程序代码。
[0107]
所述网络接口73可包括无线网络接口或有线网络接口,该网络接口73 通常用于在所述计算机设备70与其他电子设备之间建立通信连接。
[0108]
在本实施例中,使得字符模块对应的字符偏移图和字符分布图,单词模 块对应的单词分布图和单词中心线图共享目标图片的融合特征图,即采用字 符和单词两种监督信号来检测图片中文字信息,提高了文字检测结果的准确 性。
[0109]
本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所 述计算机可读存储介质存储有文字检测程序,所述文字检测程序可被至少一 个处理器执行,以使所述至少一个处理器执行如上述的文字检测方法的步骤。
[0110]
在本实施例中,使得字符模块对应的字符偏移图和字符分布图,单词模 块对应的单词分布图和单词中心线图共享目标图片的融合特征图,即采用字 符和单词两种监督信号来检测图片中文字信息,提高了文字检测结果的准确 性。
[0111]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光 盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务 器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
[0112]
显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的 实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。 本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使 对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进 行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体 实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替 换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在 其他相关的技术领域,均同理在本技术专利保护范围之内。

技术特征:
1.一种文字检测方法,其特征在于,包括下述步骤:获取目标图片对应的融合特征图;将所述融合特征图输入卷积网络,获取所述目标图片的字符偏移图、字符分布图、单词分布图、单词中心线图;根据所述字符偏移图、所述单词分布图以及所述字符分布图确定多边形包围框;将与所述单词中心线图有交集的所述多边形包围框对应的区域,识别为文字区域;解码所述文字区域,得到所述目标图片对应的文字检测结果。2.根据权利要求1所述的文字检测方法,其特征在于,所述获取目标图片对应的融合特征图,包括:获取目标图片;采用resnet50特征提取器对所述目标图片进行特征提取,得到至少一个初始特征图;使用上采样方式对所述初始特征图进行特征融合处理,得到融合特征图。3.根据权利要求2所述的文字检测方法,其特征在于,在采用resnet50特征提取器对所述目标图片进行特征提取,得到至少一个初始特征图之前,所述文字检测方法还包括:对所述目标图像进行缩放处理和归一化处理。4.根据权利要求1所述的文字检测方法,其特征在于,所述根据所述字符偏移图、所述单词分布图以及所述字符分布图确定多边形包围框,包括:对所述单词分布图进行二值化处理,得到第一单词分布图;根据所述第一单词分布图对所述字符偏移图和所述字符分布图进行噪声过滤,得到第一字符偏移图和第一字符分布图;对所述第一字符偏移图进行二值化处理,得到第二字符偏移图;对所述第二字符偏移图和所述第一单词分布图进行取差值处理,得到综合单词分布图;从第一字符分布图中提取多个字符特征点坐标;根据所述字符特征点坐标和所述综合单词分布图,确定多边形包围框。5.根据权利要求1所述的文字检测方法,其特征在于,所述将与所述单词中心线图有交集的所述多边形包围框对应的区域,识别为文字区域,包括:根据第一单词分布图对所述单词中心线图进行噪声过滤,得到第一单词中心线图;所述第一单词分布图为对所述单词分布图进行二值化处理得到的;对所述第一单词中心线图进行二值化处理,得到第二单词中心线图;将与所述第二单词中心线图有交集的多边形包围框对应的区域,识别为文字区域。6.根据权利要求1所述的文字检测方法,其特征在于,在将所述融合特征图输入卷积网络,获取所述目标图片的字符偏移图、字符分布图、单词分布图、单词中心线图之前,所述文字检测方法还包括:以历史图片的历史融合特征图作为输入,历史字符偏移图、历史字符分布图、历史单词分布图、历史单词中心线图作为输出,采用弱监督策略和预设卷积网络模型训练得到所述卷积网络。7.一种文字检测装置,其特征在于,包括:第一获取模块,用于获取目标图片对应的融合特征图;
第二获取模块,用于将所述融合特征图输入卷积网络,获取所述目标图片的字符偏移图、字符分布图、单词分布图、单词中心线图;确定模块,用于根据所述字符偏移图、所述单词分布图以及所述字符分布图确定多边形包围框;文字识别模块,用于将与所述单词中心线图有交集的所述多边形包围框对应的区域,识别为文字区域;文字解码模块,用于解码所述文字区域,得到所述目标图片对应的文字检测结果。8.根据权利要求7所述的文字检测装置,其特征在于,所述第一获取模块包括获取子模块、提取子模块以及第一处理子模块;所述获取子模块,用于获取目标图片;所述提取子模块,用于采用resnet50特征提取器对所述目标图片进行特征提取,得到至少一个初始特征图;所述第一处理子模块,用于使用上采样方式对所述初始特征图进行特征融合处理,得到融合特征图。9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的文字检测方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的文字检测方法的步骤。

技术总结
本申请实施例属于数据处理技术领域,涉及一种文字检测方法、装置、计算机设备及存储介质,文字检测方法包括:获取目标图片对应的融合特征图;将融合特征图输入卷积网络,获取目标图片的字符偏移图、字符分布图、单词分布图、单词中心线图;根据字符偏移图、单词分布图以及字符分布图确定多边形包围框;将与单词中心线图有交集的多边形包围框对应的区域,识别为文字区域;解码文字区域,得到目标图片对应的文字检测结果。本申请能够提高文字检测结果的准确性。准确性。准确性。


技术研发人员:田越 周建东 吴得泱 杜锟 曾峰
受保护的技术使用者:惠州永惠智能科技有限公司
技术研发日:2022.06.17
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-10694.html

最新回复(0)