一种矩阵式字符关键点检测方法和装置

专利2025-07-01  28


本发明涉及计算机视觉目标识别领域,尤其涉及到一种矩阵式字符关键点检测方法和装置。


背景技术:

1、现有的ocr字符关键点识别技术尚依赖于计算机视觉原理,从字符的结构上进行分析。这类技术在学习较为复杂结构字符时,则会产生误差。目前的深度学习算法基于边缘特征和拐点特征进行训练,但对于大字号字符,其生成的关键点仍不够居中。因此应对复杂结构字符和大字号字符的问题仍亟待解决,随着监督学习与无监督学习的发展,可以通过监督学习得到小面积的预测范围再进行无监督的精确聚类以获取精确的关键点坐标。


技术实现思路

1、本发明的目的在于针对现有技术的不足,提供一种矩阵式字符关键点检测方法和装置。本发明采用监督学习关键点范围,再通过无监督进行聚类以获取字符的关键点坐标。

2、本发明的第一个方面涉及一种矩阵式字符关键点检测方法,包括如下步骤:

3、(1)ocr字符像素矩阵图获取。调用电脑内置字体,将其放置于预设矩阵尺寸中央,生成像素矩阵图;

4、(1.1)通过python中pil库调用电脑字符图,字体包括不限于楷体、宋体、timesnew roman等,字号包括[5,72];

5、(1.2)预设矩阵尺寸的矩形边长大小取值范围为[10,100],矩形边长数值需大于字号,矩阵值均为0;

6、(1.3)获取调用的字符图长宽,计算其中心坐标;

7、(1.4)将步骤(1.3)的中心坐标放置于预设矩阵中心,并叠加其字符图值得到像素矩阵图;

8、(2)字符像素图制作。二值化阈值默认值255,取值范围为[128,255],将步骤(1.4)的像素矩阵图二值化,大于二值化阈值像素点值置为0;

9、(3)标注若干簇关键点。基于步骤(2)得到的字符像素图,标注其字符所有笔画的起点、终点、交叉点处若干个像素点,记录标注像素点的坐标及簇数量作为标签;

10、(3.1)标注若干簇关键点,标注步骤(2)字符像素图所有起点、终点、

11、交叉点位置处的随机位置像素,随机位置数量范围为[1,10],默认值为3;

12、(3.2)记录步骤(3.1)的若干像素点的矩阵坐标及若干簇的数量,存为标签文档;

13、(4)训练字符像素图与若干簇关键点。将步骤(2)的字符像素图及步骤(3.2)的标签放入深度学习神经网络训练得到训练后模型。

14、(4.1)使用深度学习网络训练字符像素图与若干簇关键点,其深度学习

15、网络包括不限于卷积神经网络,transformer网络等;

16、(4.2)同时训练若干关键点位置及其簇数量得到网络训练后模型;

17、(4.3)对所需检测关键点字符制作步骤(1)至步骤(2)得待检测像素字符图,使用步骤(4.2)训练后模型预测待检测像素字符图关键点坐标及簇数量;

18、(5)无监督聚类得到各关键点中心。将步骤(4.3)得到的模型对所需检测关键点字符测试得到若干关键像素点,再使用无监督聚类算法得到字符关键点中心坐标。

19、(5.1)无监督聚类方法包括不限于k-means、层次聚类、密度聚类等;

20、(5.2)利用步骤(5.3)簇中心和若干坐标及步骤(6.1)采用得聚类方法得到字符关键点坐标。

21、本发明的第二个方面涉及一种矩阵式字符关键点检测装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现本发明的一种矩阵式字符关键点检测方法。

22、本发明的第三个方面涉及一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现本发明的一种矩阵式字符关键点检测方法。

23、本发明的有益效果是,通过深度学习神经网络监督学习关键点范围能够保障涵盖住关键点以应对复杂结构型字符的关键点识别问题。再通过无监督聚类能够确保本发明在应对大号字符时得到的关键点更拟合真实的关键点位置。本发明提出了先进行监督学习获取小面积目标,再通过无监督聚类得到精确的关键点坐标。方法简洁,效果优于现有方法且具有通用性等特点。



技术特征:

1.一种矩阵式字符关键点检测方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种矩阵式字符关键点检测方法,其特征在于,步骤(1)所述的ocr字符像素矩阵图获取,包括如下子步骤:

3.根据权利要求1所述的一种矩阵式字符关键点检测方法,其特征在于,步骤(2)所述的字符像素图制作包括:

4.根据权利要求1所述的一种矩阵式字符关键点检测方法,其特征在于,步骤(3)所述的标注若干簇关键点包括如下子步骤:

5.根据权利要求1所述的一种矩阵式字符关键点检测方法,其特征在于,所述步骤(4)训练字符像素图与若干簇关键点,包括如下子步骤:

6.根据权利要求5所述的一种矩阵式字符关键点检测方法,其特征在于,所述步骤(5)无监督聚类得到各关键点中心包括如下子步骤:

7.一种矩阵式字符关键点检测装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-6中任一项所述的一种矩阵式字符关键点检测方法。

8.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-6中任一项所述的一种矩阵式字符关键点检测方法。


技术总结
本发明公开了一种矩阵式字符关键点检测方法和装置,该方法基于监督学习训练若干关键点簇,再通过无监督聚类得到字符各关键点的中心坐标,包括:(1)将OCR字符图映射至固定规格的像素矩阵;(2)设定阈值参数二值化该像素矩阵得到字符像素图;(3)标注该字符像素图中的笔画起点、笔画终点、笔画交叉点处的若干像素,并记录簇数量;(4)用深度学习神经网络学习该像素矩阵的若干簇关键点;(5)再用无监督聚类算法得到各簇关键点中心。本发明具有高准度,低延迟,鲁棒性强特点,可用于常规字符型盲文板、辅助盲人跳过学习盲文直接学习理解常规字符等产品功能应用,具有较好的商业化前景。

技术研发人员:卜佳俊,吕青松,李亮城,张旭,许诚,王炜
受保护的技术使用者:浙江大学
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-15534.html

最新回复(0)