1.本公开涉及图像处理技术领域,尤其涉及一种目标对象识别方法、装置、设备及介质。
背景技术:2.车牌识别技术是智能交通系统中的一项非常重要的技术,针对检测出来的车牌图片,进行车牌字符的识别,目前主要的方法一般分为两类:第一类是基于目标检测的车牌识别方法,其是把车牌识别当做目标检测来进行识别;第二类是基于文字序列的车牌识别方法,其是把整个车牌字符当做一个文字序列来识别。这两类方法都是基于深度学习框架,但各有利弊。前者运用目标检测网络,对字符进行单个识别和定位,会缺少字符之间的联系性,从而造成很多误报和误识别;后者是把整个车牌字符当做序列来识别,对于一些有规律性的车牌和大数据集的车牌识别效果比较好,但缺少车牌字符的位置信息,从而降低了准确率。
3.因此,如何进一步提高车牌识别的准确率,是目前需要解决的问题。
技术实现要素:4.本公开提供一种目标对象识别方法、装置、设备及介质,提高识别目标对象的准确率。
5.根据本公开实施例的第一方面,提供一种目标对象识别方法,该方法包括:
6.获取包括目标对象的待识别图片,并输入第一字符识别网络进行字符识别和位置识别,得到对应的第一字符类别信息和字符位置信息,所述目标对象包含至少一个字符;
7.将所述待识别图片输入第二字符识别网络进行字符识别,得到对应的第二字符类别信息;
8.将所述第一字符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果;
9.从所述待识别图片中确定出所述目标字符位置信息对应的各字符的各字符图像;并对所述各字符图片进行字符识别,得到所述待识别图片的识别结果。
10.在一种可能的实现方式中,所述从所述待识别图片中确定出所述目标字符位置信息对应的各字符的各字符图像,包括:
11.利用所述目标字符位置信息所对应的各字符的轮廓范围,分别对所述待识别图片进行裁剪得到各字符图片。
12.在一种可能的实现方式中,所述对所述各字符图片进行字符识别,得到所述待识别图片的识别结果,包括:
13.将所述各字符图片输入第三字符识别网络进行字符识别,将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,根据对比结果确定所述待识别图片的识别结果。
14.在一种可能的实现方式中,所述将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,根据对比结果确定所述待识别图片的识别结果,包括:
15.将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,确定与所述字符图片在匹配结果中对应的字符类别信息相一致的第三字符类别信息,得到所述待识别图片的识别结果。
16.在一种可能的实现方式中,所述将所述第一字符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果,包括:
17.将得到的第一字符类别信息和字符位置信息分别保存在第一位置和第三位置,及将得到的第二字符类别信息保存在第二位置,将所述第一字符类别信息和第二字符类别信息进行匹配,并且删除所述第三位置中与第二字符类别信息不匹配的字符类别信息以及对应的目标字符位置信息,得到匹配结果;或者
18.将得到的第一字符类别信息和字符位置信息保存在第一位置,及将得到的第二字符类别信息保存在第二位置,将所述第一字符类别信息和第二字符类别信息进行匹配,将相匹配的字符类别信息和对应的目标字符位置信息保存在第三位置,得到匹配结果。
19.在一种可能的实现方式中,所述将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,确定与所述字符图片在匹配结果中对应的字符类别信息相一致的第三字符类别信息,得到所述待识别图片的识别结果,包括:
20.将得到的第三字符类别信息保存在第四位置,将保存的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,删除不一致的第三字符类别信息,得到所述待识别图片的识别结果;或者
21.将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,在第四位置保存相一致的第三字符类别信息,得到所述待识别图片的识别结果。
22.在一种可能的实现方式中,所述第一字符识别网络与第二字符识别网络复用同一个字符识别网络模型的特征提取层,并采用所述字符识别网络模型的第一输出分支进行字符识别和位置识别,采用所述字符识别网络模型的第二输出分支进行字符识别。
23.根据本公开实施例的第二方面,提供一种字符识别网络模型训练方法,该方法包括:
24.获取训练样本集,所述训练样本集包括样本图片及标注的目标对象信息;
25.将所述训练样本集中的各样本图片输入字符识别网络模型,利用所述字符识别网络模型进行特征提取并预测目标对象信息,以输出所述样本图片的目标对象信息为目标训练所述字符识别网络模型;
26.其中,所述样本图片为包括目标对象的待识别图片,标注的目标对象信息为字符类别信息及字符位置信息,训练结束得到的字符识别网络模型为第一字符识别网络;所述样本图片为包括目标对象的待识别图片,标注的目标对象信息为字符类别信息,训练结束得到的字符识别网络模型为第二字符识别网络;所述样本图片为字符图片,标注的目标对象信息为字符类别信息,训练结束得到的字符识别网络模型为第三字符识别网络。
27.在一种可能的实现方式中,所述字符识别网络模型包括输入层、特征提取层、第一输出分支和第二输出分支,所述将所述训练样本集中的各样本图片输入字符识别网络模
型,利用所述字符识别网络模型进行特征提取并预测目标对象信息,以输出所述样本图片的目标对象信息为目标训练所述字符识别网络模型,包括:
28.将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;
29.利用所述第一输出分支进行字符识别和位置识别,预测字符类别信息和字符位置信息并根据标注的字符类别信息和字符位置信息计算第一损失函数值;
30.基于所述第一损失函数值更新所述特征提取层及第一输出分支的参数;
31.更新结束后,将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;
32.利用所述第二输出分支进行字符识别,预测字符类别信息并根据标注的字符类别信息计算第二损失函数值;
33.基于所述第二损失函数值更新所述第二输出分支的参数。
34.在一种可能的实现方式中,所述字符识别网络模型包括输入层、特征提取层、第一输出分支和第二输出分支,所述将所述训练样本集中的各样本图片输入字符识别网络模型,利用所述字符识别网络模型进行特征提取并预测目标对象信息,以输出所述样本图片的目标对象信息为目标训练所述字符识别网络模型,包括:
35.将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;
36.利用所述第二输出分支进行字符识别,预测字符类别信息并根据标注的字符类别信息计算第二损失函数值;
37.基于所述第二损失函数值更新所述特征提取层及第二输出分支的参数;
38.更新结束后,将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;
39.利用所述第一输出分支进行字符识别和位置识别,预测字符类别信息和字符位置信息并根据标注的字符类别信息和字符位置信息计算第一损失函数值;
40.基于所述第一损失函数值更新所述第一输出分支的参数。
41.根据本公开实施例的第三方面,提供一种目标对象识别装置,该装置包括:
42.第一识别模块,用于获取包括目标对象的待识别图片,并输入第一字符识别网络进行字符识别和位置识别,得到对应的第一字符类别信息和字符位置信息,所述目标对象包含至少一个字符;
43.第二识别模块,用于将所述待识别图片输入第二字符识别网络进行字符识别,得到对应的第二字符类别信息;
44.字符匹配模块,用于将所述第一字符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果;
45.识别结果获得模块,用于从所述待识别图片中确定出所述目标字符位置信息对应的各字符的各字符图像;并对所述各字符图片进行字符识别,得到所述待识别图片的识别结果。
46.根据本公开实施例的第四方法,提供一种字符识别网络模型训练装置,该装置包括:
47.样本获取模块,用于获取训练样本集,所述训练样本集包括样本图片及标注的目标对象信息;
48.模型训练模块,用于将所述训练样本集中的各样本图片输入字符识别网络模型,利用所述字符识别网络模型进行特征提取并预测目标对象信息,以输出所述样本图片的目标对象信息为目标训练所述字符识别网络模型;
49.其中,所述样本图片为包括目标对象的待识别图片,标注的目标对象信息为字符类别信息及字符位置信息,训练结束得到的字符识别网络模型为第一字符识别网络;所述样本图片为包括目标对象的待识别图片,标注的目标对象信息为字符类别信息,训练结束得到的字符识别网络模型为第二字符识别网络;所述样本图片为字符图片,标注的目标对象信息为字符类别信息,训练结束得到的字符识别网络模型为第三字符识别网络。
50.根据本公开实施例的第五方面,提供一种电子设备包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器通过运行所述可执行指令以实现上述目标对象识别方法的步骤,或实现上述字符识别网络模型训练方法的步骤。
51.根据本公开实施例的第六方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述目标对象识别方法的步骤,或实现上述字符识别网络模型训练方法的步骤。
52.本公开的实施例提供的技术方案至少带来以下有益效果:
53.本公开利用第一字符识别网络包括字符位置信息,字符之间的联系性较高的优点,以及第二字符识别网络的识别准确性高的优点,将待识别图片输入第一字符识别网络进行字符识别和位置识别,得到对应的第一字符类别信息和字符位置信息;将所述待识别图片输入第二字符识别网络进行字符识别,得到对应的第二字符类别信息;将所述第一字符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果,从而提高了识别目标对象的准确性。并且为了进一步的提高识别目标对象的准确性,基于目标字符位置信息获得各字符图片,并对所述各字符图片进行字符识别,得到所述待识别图片的识别结果。
附图说明
54.为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
55.图1是根据一示例性实施例示出的应用场景示意图;
56.图2是根据一示例性实施例示出的一种目标对象识别方法的流程图;
57.图3是根据一示例性实施例示出的一种带有车牌的图片;
58.图4是根据一示例性实施例示出的一种目标对象识别方法的具体流程图;
59.图5是根据一示例性实施例示出的另一种目标对象识别方法的具体流程图;
60.图6是根据一示例性实施例示出的通过裁剪获得字符图片的方法的示意图;
61.图7是根据一示例性实施例示出的通过对比获得待识别图片的方法的示意图;
62.图8是根据一示例性实施例示出的一种字符识别网络模型训练方法的流程图;
63.图9是根据一示例性实施例示出的一种目标对象识别装置的示意图;
64.图10是根据一示例性实施例示出的一种字符识别网络模型训练装置的示意图;
65.图11是根据一示例性实施例示出的一种目标对象识别方法的电子设备示意图;
66.图12是根据一示例性实施例示出的一种字符识别网络模型训练方法的电子设备示意图;
67.图13是根据一示例性实施例示出的一种目标对象识别方法的程序产品示意图。
具体实施方式
68.为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开的保护范围。
69.下面对文中出现的一些词语进行解释:
70.1、本公开实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
71.2、本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
72.本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案,并不构成对于本公开实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本公开实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
73.目前,针对车牌识别,基于目标检测的车牌识别方法和基于文字序列的车牌识别方法都是基于深度学习框架,但各有利弊。前者运用目标检测网络,对字符进行单个识别和定位,会缺少字符之间的联系性,从而造成很多误报和误识别;后者是把整个车牌字符当做序列来识别,对于一些有规律性的车牌和大数据集的车牌识别效果比较好,但缺少车牌字符的位置信息,从而降低了准确率。因此,如何进一步提高车牌识别的准确率,是目前需要解决的问题。
74.因此,为了解决上述问题,本公开提供了一种目标对象识别方法、装置、设备及介质,提高识别目标对象的准确率。
75.首先参考图1,其为本公开实施例的应用场景示意图,包括采集器11和服务器12。其中采集器11可以为相机、手机/计算机的摄像头和录像机等,用于采集包括目标对象的待识别图片;服务器12用于根据采集器11采集的待识别图片进行目标对象识别。
76.本公开实施例中,采集器11将采集的待识别图片发送给服务器12,服务器12获取包括目标对象的待识别图片,并输入第一字符识别网络进行字符识别和位置识别,得到对应的第一字符类别信息和字符位置信息,所述目标对象包含至少一个字符;将所述待识别图片输入第二字符识别网络进行字符识别,得到对应的第二字符类别信息;将所述第一字
符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果;从所述待识别图片中确定出所述目标字符位置信息对应的各字符的各字符图像;并对所述各字符图片进行字符识别,得到所述待识别图片的识别结果。
77.本公开实施例中,提供了一种目标对象识别方法,本公开基于同一构思,还提供了一种目标对象识别装置、一种电子设备以及一种计算机可读存储介质。
78.在一些实施例中,下面通过具体的实施例对本公开提供的一种目标对象识别方法进行说明,如图2所示,包括:
79.步骤201,获取包括目标对象的待识别图片,并输入第一字符识别网络进行字符识别和位置识别,得到对应的第一字符类别信息和字符位置信息,所述目标对象包含至少一个字符;
80.其中,上述第一字符识别网络可以是基于目标检测的字符识别网络。上述待识别图片可以是车牌图片,目标对象可以是车牌字符。
81.步骤202,将所述待识别图片输入第二字符识别网络进行字符识别,得到对应的第二字符类别信息;
82.其中,上述第二字符识别网络可以是基于文字序列的字符识别网络。
83.步骤203,将所述第一字符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果;
84.其中,将得到的第一字符类别信息和字符位置信息保存在第一位置,及将得到的第二字符类别信息保存在第二位置,并将包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果保存在第三位置。
85.步骤204,从所述待识别图片中确定出所述目标字符位置信息对应的各字符的各字符图像;并对所述各字符图片进行字符识别,得到所述待识别图片的识别结果。
86.可以利用croping(裁剪)技术对所述待识别图片进行裁剪得到各字符图片。
87.具体的,可以将所述各字符图片输入第三字符识别网络进行字符识别,将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,确定与所述字符图片在匹配结果中对应的字符类别信息相一致的第三字符类别信息,得到所述待识别图片的识别结果。
88.本公开利用第一字符识别网络包括字符位置信息,字符之间的联系性较高的优点,以及第二字符识别网络的识别准确性高的优点,将待识别图片输入第一字符识别网络进行字符识别和位置识别,得到对应的第一字符类别信息和字符位置信息;将所述待识别图片输入第二字符识别网络进行字符识别,得到对应的第二字符类别信息;将所述第一字符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果,从而提高了识别目标对象的准确性。并且为了进一步的提高识别目标对象的准确性,基于目标字符位置信息获得各字符图片,并对所述各字符图片进行字符识别,得到所述待识别图片的识别结果。
89.本公开提供的目标对象识别方法,其具体步骤如下:
90.首先,获取包括目标对象的待识别图片;
91.上述目标对象包含至少一个字符,上述待识别图片可以为车牌图片。利用摄像机等设备获得的图片可能是图3示例的图片,即图片中除了包括车牌图片外,还包括其他内
容。
92.可以通过以下方法获取车牌图片:将此图片输入训练好的车牌检测模型,得到车牌检测模型输出的所述图片中车牌区域的位置信息,并利用所述位置信息所对应的车牌的轮廓范围,对所述图片进行裁剪得到该图片中的车牌图片。其具体过程为现有技术,此处不再详细赘述。
93.然后,将所述待识别图片输入第一字符识别网络进行字符识别和位置识别,得到对应的第一字符类别信息和字符位置信息;将所述待识别图片输入第二字符识别网络进行字符识别,得到对应的第二字符类别信息;
94.上述第一字符识别网络可以是基于目标检测的字符识别网络,第二字符识别网络可以是基于字符序列的字符识别网络。
95.如图4所示,将车牌图片输入基于目标检测的字符识别网络进行字符识别和位置识别,得到对应的第一字符类别信息和字符位置信息;将车牌图片输入基于字符序列的字符识别网络进行字符识别,得到对应的第二字符类别信息。
96.上述第一字符识别网络与第二字符识别网络可以复用同一个字符识别网络模型的特征提取层,并采用字符识别网络模型的第一输出分支进行字符识别和位置识别,采用所述字符识别网络模型的第二输出分支进行字符识别。
97.如图5所示,将车牌图片输入字符识别网络模型进行字符识别和位置识别,得到所述字符识别网络模型第一输出分支输出的第一字符类别信息和字符位置信息,得到所述字符识别网络模型的第二输出分支输出的第二字符类别信息。
98.之后,将所述第一字符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果;
99.上述将所述第一字符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果,具体包括以下两种匹配方式:
100.第一种匹配方式,将得到的第一字符类别信息和字符位置信息分别保存在第一位置和第三位置,及将得到的第二字符类别信息保存在第二位置,将所述第一字符类别信息和第二字符类别信息进行匹配,并且删除所述第三位置中与第二字符类别信息不匹配的字符类别信息以及对应的目标字符位置信息,得到匹配结果;
101.例如,第一字符类别信息为a{x1,x2,x3,x4,x5,x6,x7},分别保存在第一位置和第三位置,第二字符类别信息为b{y1,y2,y3,y4,y5,y6,y7},保存在第二位置。以集合a中的x1开始,集合b中从左往右开始匹配,若集合a中的x1与集合b中y1相匹配,则第三位置中的x1以及对应的目标字符位置信息保持不变。若集合a中的x2与集合b中y2不匹配,则删除第三位置中的x2以及对应的目标字符位置信息。一直到集合a中的x7与集合b中y7匹配完成时结束,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果。
102.第二种匹配方式,将得到的第一字符类别信息和字符位置信息保存在第一位置,及将得到的第二字符类别信息保存在第二位置,将所述第一字符类别信息和第二字符类别信息进行匹配,将相匹配的字符类别信息和对应的目标字符位置信息保存在第三位置,得到匹配结果。
103.例如,第一字符类别信息为a{m1,m2,m3,m4,m5,m6,m7},保存在第一位置,第二字符类别信息为b{n1,n2,n3,n4,n5,n6,n7},保存在第二位置。以集合a中的m1开始,集合b中从左往
右开始匹配,若集合a中的m1与集合b中n1相匹配,则集合a中的m1以及对应的目标字符位置信息保存在第三位置。若集合a中的m2与集合b中n2不匹配,则不将集合a中的m2以及对应的目标字符位置信息保存在第三位置。一直到集合a中的m7与集合b中n7匹配完成时结束,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果。
104.接下来,从所述待识别图片中确定出所述目标字符位置信息对应的各字符的各字符图像;
105.可以通过以下方法获得各字符图像:利用所述目标字符位置信息所对应的各字符的轮廓范围,分别对所述待识别图片进行裁剪得到各字符图片;
106.如图6所示,获得带有7个字符的车牌图片以及所述目标字符位置信息,利用裁剪技术进行裁剪,得到7张字符图片,每张字符图片分别带有字符“津”、“a”、“x1”、“x2”、“x3”、“x4”和“x5”。
107.最后,对所述各字符图片进行字符识别,得到所述待识别图片的识别结果。
108.如图7所示,该步骤具体包括:
109.将所述各字符图片输入第三字符识别网络进行字符识别,将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,根据对比结果确定所述待识别图片的识别结果。
110.其中,将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,根据对比结果确定所述待识别图片的识别结果,包括:
111.将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,确定与所述字符图片在匹配结果中对应的字符类别信息相一致的第三字符类别信息,得到所述待识别图片的识别结果。
112.上述将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,确定与所述字符图片在匹配结果中对应的字符类别信息相一致的第三字符类别信息,得到所述待识别图片的识别结果,包括以下两种对比方法:
113.第一种对比方法,将得到的第三字符类别信息保存在第四位置,将保存的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,删除不一致的第三字符类别信息,得到所述待识别图片的识别结果;
114.例如,第三字符类别信息为c{a1,a2,a3,a4,a5,a6,a7},保存在第四位置,所述字符图片在匹配结果中对应的字符类别信息为d{b1,b2,b3,b4,b5,b6,b7}。以集合c中的a1开始与集合d中对应的字符类别信息进行对比,若集合c中的a1与集合d中b1一致,则保存在第四位置的集合c中的a1保持不变。若集合c中的a2与集合d中b2不一致,则删除在第四位置中的集合c中的a2。一直到集合c中的a7与集合d中b7匹配完成时结束,得到所述待识别图片的识别结果。
115.第二种对比方法,将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,在第四位置保存相一致的第三字符类别信息,得到所述待识别图片的识别结果。
116.例如,第三字符类别信息为c{f1,f2,f3,f4,f5,f6,f7},所述字符图片在匹配结果中对应的字符类别信息为d{l1,l2,l3,l4,l5,l6,l7}。以集合c中的f1开始与集合d中对应的字符类别信息进行对比,若集合c中的f1与集合d中l1一致,则将集合c中的f1保存在第四位置。若
集合c中的f2与集合d中l2不一致,则不将集合c中的f2保存在第四位置。一直到集合c中的f7与集合d中l7匹配完成时结束,得到所述待识别图片的识别结果。
117.在一些实施例中,下面通过具体的实施例对本公开提供的一种字符识别网络模型训练方法进行说明,如图8所示,包括:
118.步骤801,获取训练样本集,所述训练样本集包括样本图片及标注的目标对象信息;
119.步骤802,将所述训练样本集中的各样本图片输入字符识别网络模型,利用所述字符识别网络模型进行特征提取并预测目标对象信息,以输出所述样本图片的目标对象信息为目标训练所述字符识别网络模型;
120.其中,所述样本图片为包括目标对象的待识别图片,标注的目标对象信息为字符类别信息及字符位置信息,训练结束得到的字符识别网络模型为第一字符识别网络;所述样本图片为包括目标对象的待识别图片,标注的目标对象信息为字符类别信息,训练结束得到的字符识别网络模型为第二字符识别网络;所述样本图片为字符图片,标注的目标对象信息为字符类别信息,训练结束得到的字符识别网络模型为第三字符识别网络。
121.当所述字符识别网络模型包括输入层、特征提取层、第一输出分支和第二输出分支时,可以通过以下两种训练方式训练所述字符识别网络模型:
122.第一种训练方式,具体步骤如下:
123.将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;
124.利用所述第一输出分支进行字符识别和位置识别,预测字符类别信息和字符位置信息并根据标注的字符类别信息和字符位置信息计算第一损失函数值;
125.基于所述第一损失函数值更新所述特征提取层及第一输出分支的参数;
126.更新结束后,将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;
127.利用所述第二输出分支进行字符识别,预测字符类别信息并根据标注的字符类别信息计算第二损失函数值;
128.基于所述第二损失函数值更新所述第二输出分支的参数。
129.第二种训练方式,具体步骤如下:
130.将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;
131.利用所述第二输出分支进行字符识别,预测字符类别信息并根据标注的字符类别信息计算第二损失函数值;
132.基于所述第二损失函数值更新所述特征提取层及第二输出分支的参数;
133.更新结束后,将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;
134.利用所述第一输出分支进行字符识别和位置识别,预测字符类别信息和字符位置信息并根据标注的字符类别信息和字符位置信息计算第一损失函数值;
135.基于所述第一损失函数值更新所述第一输出分支的参数。
136.在一些实施例中,基于相同的发明构思,本公开实施例还提供一种目标对象识别
装置,由于该装置即是本公开实施例中的方法中的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
137.如图9所示,上述装置包括以下模块:
138.第一识别模块901,用于获取包括目标对象的待识别图片,并输入第一字符识别网络进行字符识别和位置识别,得到对应的第一字符类别信息和字符位置信息,所述目标对象包含至少一个字符;
139.第二识别模块902,用于将所述待识别图片输入第二字符识别网络进行字符识别,得到对应的第二字符类别信息;
140.字符匹配模块903,用于将所述第一字符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果;
141.识别结果获得模块904,用于从所述待识别图片中确定出所述目标字符位置信息对应的各字符的各字符图像;并对所述各字符图片进行字符识别,得到所述待识别图片的识别结果。
142.作为一种可选的实施方式,所述识别结果获得模块,用于从所述待识别图片中确定出所述目标字符位置信息对应的各字符的各字符图像,包括:
143.利用所述目标字符位置信息所对应的各字符的轮廓范围,分别对所述待识别图片进行裁剪得到各字符图片。
144.作为一种可选的实施方式,所述识别结果获得模块,用于对所述各字符图片进行字符识别,得到所述待识别图片的识别结果,包括:
145.将所述各字符图片输入第三字符识别网络进行字符识别,将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,根据对比结果确定所述待识别图片的识别结果。
146.作为一种可选的实施方式,所述识别结果获得模块,用于将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,根据对比结果确定所述待识别图片的识别结果,包括:
147.将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,确定与所述字符图片在匹配结果中对应的字符类别信息相一致的第三字符类别信息,得到所述待识别图片的识别结果。
148.作为一种可选的实施方式,所述字符匹配模块,用于将所述第一字符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果,包括:
149.将得到的第一字符类别信息和字符位置信息分别保存在第一位置和第三位置,及将得到的第二字符类别信息保存在第二位置,将所述第一字符类别信息和第二字符类别信息进行匹配,并且删除所述第三位置中与第二字符类别信息不匹配的字符类别信息以及对应的目标字符位置信息,得到匹配结果;或者
150.将得到的第一字符类别信息和字符位置信息保存在第一位置,及将得到的第二字符类别信息保存在第二位置,将所述第一字符类别信息和第二字符类别信息进行匹配,将相匹配的字符类别信息和对应的目标字符位置信息保存在第三位置,得到匹配结果。
151.作为一种可选的实施方式,所述识别结果获得模块,用于将得到的第三字符类别
信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,确定与所述字符图片在匹配结果中对应的字符类别信息相一致的第三字符类别信息,得到所述待识别图片的识别结果,包括:
152.将得到的第三字符类别信息保存在第四位置,将保存的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,删除不一致的第三字符类别信息,得到所述待识别图片的识别结果;或者
153.将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,在第四位置保存相一致的第三字符类别信息,得到所述待识别图片的识别结果。
154.作为一种可选的实施方式,所述第一字符识别网络与第二字符识别网络复用同一个字符识别网络模型的特征提取层,并采用所述字符识别网络模型的第一输出分支进行字符识别和位置识别,采用所述字符识别网络模型的第二输出分支进行字符识别。
155.在一些实施例中,基于相同的发明构思,本公开实施例还提供一种字符识别网络模型训练装置,由于该装置即是本公开实施例中的方法中的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
156.如图10所示,上述装置包括以下模块:。
157.样本获取模块101,用于获取训练样本集,所述训练样本集包括样本图片及标注的目标对象信息;
158.模型训练模块102,用于将所述训练样本集中的各样本图片输入字符识别网络模型,利用所述字符识别网络模型进行特征提取并预测目标对象信息,以输出所述样本图片的目标对象信息为目标训练所述字符识别网络模型;
159.其中,所述样本图片为包括目标对象的待识别图片,标注的目标对象信息为字符类别信息及字符位置信息,训练结束得到的字符识别网络模型为第一字符识别网络;所述样本图片为包括目标对象的待识别图片,标注的目标对象信息为字符类别信息,训练结束得到的字符识别网络模型为第二字符识别网络;所述样本图片为字符图片,标注的目标对象信息为字符类别信息,训练结束得到的字符识别网络模型为第三字符识别网络。
160.作为一种可选的实施方式,所述字符识别网络模型包括输入层、特征提取层、第一输出分支和第二输出分支,所述模型训练模块,用于将所述训练样本集中的各样本图片输入字符识别网络模型,利用所述字符识别网络模型进行特征提取并预测目标对象信息,以输出所述样本图片的目标对象信息为目标训练所述字符识别网络模型,包括:
161.将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;
162.利用所述第一输出分支进行字符识别和位置识别,预测字符类别信息和字符位置信息并根据标注的字符类别信息和字符位置信息计算第一损失函数值;
163.基于所述第一损失函数值更新所述特征提取层及第一输出分支的参数;
164.更新结束后,将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;
165.利用所述第二输出分支进行字符识别,预测字符类别信息并根据标注的字符类别信息计算第二损失函数值;
166.基于所述第二损失函数值更新所述第二输出分支的参数。
167.作为一种可选的实施方式,所述字符识别网络模型包括输入层、特征提取层、第一输出分支和第二输出分支,所述模型训练模块,用于将所述训练样本集中的各样本图片输入字符识别网络模型,利用所述字符识别网络模型进行特征提取并预测目标对象信息,以输出所述样本图片的目标对象信息为目标训练所述字符识别网络模型,包括:
168.将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;
169.利用所述第二输出分支进行字符识别,预测字符类别信息并根据标注的字符类别信息计算第二损失函数值;
170.基于所述第二损失函数值更新所述特征提取层及第二输出分支的参数;
171.更新结束后,将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;
172.利用所述第一输出分支进行字符识别和位置识别,预测字符类别信息和字符位置信息并根据标注的字符类别信息和字符位置信息计算第一损失函数值;
173.基于所述第一损失函数值更新所述第一输出分支的参数。
174.在一些实施例中,基于相同的发明构思,本公开实施例中还提供了一种目标对象识别设备,该设备可以实现前文论述的目标对象识别功能,请参考图11,该设备包括处理器111和存储器112,其中所述存储器112用于存储程序指令;
175.所述处理器111调用所述存储器中存储的程序指令,通过运行所述程序指令以实现:
176.获取包括目标对象的待识别图片,并输入第一字符识别网络进行字符识别和位置识别,得到对应的第一字符类别信息和字符位置信息,所述目标对象包含至少一个字符;
177.将所述待识别图片输入第二字符识别网络进行字符识别,得到对应的第二字符类别信息;
178.将所述第一字符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果;
179.从所述待识别图片中确定出所述目标字符位置信息对应的各字符的各字符图像;并对所述各字符图片进行字符识别,得到所述待识别图片的识别结果。
180.作为一种可选的实施方式,所述从所述待识别图片中确定出所述目标字符位置信息对应的各字符的各字符图像,包括:
181.利用所述目标字符位置信息所对应的各字符的轮廓范围,分别对所述待识别图片进行裁剪得到各字符图片。
182.作为一种可选的实施方式,所述对所述各字符图片进行字符识别,得到所述待识别图片的识别结果,包括:
183.将所述各字符图片输入第三字符识别网络进行字符识别,将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,根据对比结果确定所述待识别图片的识别结果。
184.作为一种可选的实施方式,所述将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,根据对比结果确定所述待识别图片的识别结果,包括:
185.将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,确定与所述字符图片在匹配结果中对应的字符类别信息相一致的第三字符类别信息,得到所述待识别图片的识别结果。
186.作为一种可选的实施方式,所述将所述第一字符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果,包括:
187.将得到的第一字符类别信息和字符位置信息分别保存在第一位置和第三位置,及将得到的第二字符类别信息保存在第二位置,将所述第一字符类别信息和第二字符类别信息进行匹配,并且删除所述第三位置中与第二字符类别信息不匹配的字符类别信息以及对应的目标字符位置信息,得到匹配结果;或者
188.将得到的第一字符类别信息和字符位置信息保存在第一位置,及将得到的第二字符类别信息保存在第二位置,将所述第一字符类别信息和第二字符类别信息进行匹配,将相匹配的字符类别信息和对应的目标字符位置信息保存在第三位置,得到匹配结果。
189.作为一种可选的实施方式,所述将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,确定与所述字符图片在匹配结果中对应的字符类别信息相一致的第三字符类别信息,得到所述待识别图片的识别结果,包括:
190.将得到的第三字符类别信息保存在第四位置,将保存的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,删除不一致的第三字符类别信息,得到所述待识别图片的识别结果;或者
191.将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,在第四位置保存相一致的第三字符类别信息,得到所述待识别图片的识别结果。
192.作为一种可选的实施方式,所述第一字符识别网络与第二字符识别网络复用同一个字符识别网络模型的特征提取层,并采用所述字符识别网络模型的第一输出分支进行字符识别和位置识别,采用所述字符识别网络模型的第二输出分支进行字符识别。
193.在一些实施例中,基于相同的发明构思,本公开实施例中还提供了一种字符识别网络模型训练设备,该设备可以实现前文论述的字符识别网络模型训练功能,请参考图12,该设备包括处理器121和存储器122,其中所述存储器122用于存储程序指令;
194.所述处理器121调用所述存储器中存储的程序指令,通过运行所述程序指令以实现:
195.获取训练样本集,所述训练样本集包括样本图片及标注的目标对象信息;
196.将所述训练样本集中的各样本图片输入字符识别网络模型,利用所述字符识别网络模型进行特征提取并预测目标对象信息,以输出所述样本图片的目标对象信息为目标训练所述字符识别网络模型;
197.其中,所述样本图片为包括目标对象的待识别图片,标注的目标对象信息为字符类别信息及字符位置信息,训练结束得到的字符识别网络模型为第一字符识别网络;所述样本图片为包括目标对象的待识别图片,标注的目标对象信息为字符类别信息,训练结束得到的字符识别网络模型为第二字符识别网络;所述样本图片为字符图片,标注的目标对象信息为字符类别信息,训练结束得到的字符识别网络模型为第三字符识别网络。
198.作为一种可选的实施方式,所述字符识别网络模型包括输入层、特征提取层、第一输出分支和第二输出分支,所述将所述训练样本集中的各样本图片输入字符识别网络模
型,利用所述字符识别网络模型进行特征提取并预测目标对象信息,以输出所述样本图片的目标对象信息为目标训练所述字符识别网络模型,包括:
199.将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;
200.利用所述第一输出分支进行字符识别和位置识别,预测字符类别信息和字符位置信息并根据标注的字符类别信息和字符位置信息计算第一损失函数值;
201.基于所述第一损失函数值更新所述特征提取层及第一输出分支的参数;
202.更新结束后,将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;
203.利用所述第二输出分支进行字符识别,预测字符类别信息并根据标注的字符类别信息计算第二损失函数值;
204.基于所述第二损失函数值更新所述第二输出分支的参数。
205.作为一种可选的实施方式,所述字符识别网络模型包括输入层、特征提取层、第一输出分支和第二输出分支,所述将所述训练样本集中的各样本图片输入字符识别网络模型,利用所述字符识别网络模型进行特征提取并预测目标对象信息,以输出所述样本图片的目标对象信息为目标训练所述字符识别网络模型,包括:
206.将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;
207.利用所述第二输出分支进行字符识别,预测字符类别信息并根据标注的字符类别信息计算第二损失函数值;
208.基于所述第二损失函数值更新所述特征提取层及第二输出分支的参数;
209.更新结束后,将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;
210.利用所述第一输出分支进行字符识别和位置识别,预测字符类别信息和字符位置信息并根据标注的字符类别信息和字符位置信息计算第一损失函数值;
211.基于所述第一损失函数值更新所述第一输出分支的参数。
212.在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,如图13所示,该计算机程序产品130包括计算机程序代码,当该计算机程序代码在计算机上运行时,使得计算机执行如前文论述任一的目标对象识别方法。由于上述计算机程序产品解决问题的原理与目标对象识别方法相似,因此上述计算机程序产品的实施可以参见方法的实施,重复之处不再赘述。
213.本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
214.本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
215.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
216.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
217.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
218.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
技术特征:1.一种目标对象识别方法,其特征在于,该方法包括:获取包括目标对象的待识别图片,并输入第一字符识别网络进行字符识别和位置识别,得到对应的第一字符类别信息和字符位置信息,所述目标对象包含至少一个字符;将所述待识别图片输入第二字符识别网络进行字符识别,得到对应的第二字符类别信息;将所述第一字符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果;从所述待识别图片中确定出所述目标字符位置信息对应的各字符的各字符图像;并对所述各字符图片进行字符识别,得到所述待识别图片的识别结果。2.根据权利要求1所述的方法,其特征在于,所述从所述待识别图片中确定出所述目标字符位置信息对应的各字符的各字符图像,包括:利用所述目标字符位置信息所对应的各字符的轮廓范围,分别对所述待识别图片进行裁剪得到各字符图片。3.根据权利要求1所述的方法,其特征在于,所述对所述各字符图片进行字符识别,得到所述待识别图片的识别结果,包括:将所述各字符图片输入第三字符识别网络进行字符识别,将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,根据对比结果确定所述待识别图片的识别结果。4.根据权利要求3所述的方法,其特征在于,所述将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,根据对比结果确定所述待识别图片的识别结果,包括:将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,确定与所述字符图片在匹配结果中对应的字符类别信息相一致的第三字符类别信息,得到所述待识别图片的识别结果。5.根据权利要求1所述的方法,其特征在于,所述将所述第一字符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果,包括:将得到的第一字符类别信息和字符位置信息分别保存在第一位置和第三位置,及将得到的第二字符类别信息保存在第二位置,将所述第一字符类别信息和第二字符类别信息进行匹配,并且删除所述第三位置中与第二字符类别信息不匹配的字符类别信息以及对应的目标字符位置信息,得到匹配结果;或者将得到的第一字符类别信息和字符位置信息保存在第一位置,及将得到的第二字符类别信息保存在第二位置,将所述第一字符类别信息和第二字符类别信息进行匹配,将相匹配的字符类别信息和对应的目标字符位置信息保存在第三位置,得到匹配结果。6.根据权利要求4所述的方法,其特征在于,所述将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,确定与所述字符图片在匹配结果中对应的字符类别信息相一致的第三字符类别信息,得到所述待识别图片的识别结果,包括:将得到的第三字符类别信息保存在第四位置,将保存的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,删除不一致的第三字符类别信息,得到
所述待识别图片的识别结果;或者将得到的第三字符类别信息与所述字符图片在匹配结果中对应的字符类别信息进行对比,在第四位置保存相一致的第三字符类别信息,得到所述待识别图片的识别结果。7.根据权利要求1所述的方法,其特征在于,所述第一字符识别网络与第二字符识别网络复用同一个字符识别网络模型的特征提取层,并采用所述字符识别网络模型的第一输出分支进行字符识别和位置识别,采用所述字符识别网络模型的第二输出分支进行字符识别。8.一种字符识别网络模型训练方法,其特征在于,包括:获取训练样本集,所述训练样本集包括样本图片及标注的目标对象信息;将所述训练样本集中的各样本图片输入字符识别网络模型,利用所述字符识别网络模型进行特征提取并预测目标对象信息,以输出所述样本图片的目标对象信息为目标训练所述字符识别网络模型;其中,所述样本图片为包括目标对象的待识别图片,标注的目标对象信息为字符类别信息及字符位置信息,训练结束得到的字符识别网络模型为第一字符识别网络;所述样本图片为包括目标对象的待识别图片,标注的目标对象信息为字符类别信息,训练结束得到的字符识别网络模型为第二字符识别网络;所述样本图片为字符图片,标注的目标对象信息为字符类别信息,训练结束得到的字符识别网络模型为第三字符识别网络。9.根据权利要求8所述的方法,其特征在于,所述字符识别网络模型包括输入层、特征提取层、第一输出分支和第二输出分支,所述将所述训练样本集中的各样本图片输入字符识别网络模型,利用所述字符识别网络模型进行特征提取并预测目标对象信息,以输出所述样本图片的目标对象信息为目标训练所述字符识别网络模型,包括:将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;利用所述第一输出分支进行字符识别和位置识别,预测字符类别信息和字符位置信息并根据标注的字符类别信息和字符位置信息计算第一损失函数值;基于所述第一损失函数值更新所述特征提取层及第一输出分支的参数;更新结束后,将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;利用所述第二输出分支进行字符识别,预测字符类别信息并根据标注的字符类别信息计算第二损失函数值;基于所述第二损失函数值更新所述第二输出分支的参数。10.根据权利要求8所述的方法,其特征在于,所述字符识别网络模型包括输入层、特征提取层、第一输出分支和第二输出分支,所述将所述训练样本集中的各样本图片输入字符识别网络模型,利用所述字符识别网络模型进行特征提取并预测目标对象信息,以输出所述样本图片的目标对象信息为目标训练所述字符识别网络模型,包括:将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;利用所述第二输出分支进行字符识别,预测字符类别信息并根据标注的字符类别信息计算第二损失函数值;
基于所述第二损失函数值更新所述特征提取层及第二输出分支的参数;更新结束后,将所述训练样本集中的包括目标对象的待识别图片输入所述特征提取层,利用所述特征提取层进行特征提取,得到对应的特征;利用所述第一输出分支进行字符识别和位置识别,预测字符类别信息和字符位置信息并根据标注的字符类别信息和字符位置信息计算第一损失函数值;基于所述第一损失函数值更新所述第一输出分支的参数。11.一种目标对象识别装置,其特征在于,该装置包括:第一识别模块,用于获取包括目标对象的待识别图片,并输入第一字符识别网络进行字符识别和位置识别,得到对应的第一字符类别信息和字符位置信息,所述目标对象包含至少一个字符;第二识别模块,用于将所述待识别图片输入第二字符识别网络进行字符识别,得到对应的第二字符类别信息;字符匹配模块,用于将所述第一字符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果;识别结果获得模块,用于从所述待识别图片中确定出所述目标字符位置信息对应的各字符的各字符图像;并对所述各字符图片进行字符识别,得到所述待识别图片的识别结果。12.一种字符识别网络模型训练装置,其特征在于,该装置包括:样本获取模块,用于获取训练样本集,所述训练样本集包括样本图片及标注的目标对象信息;模型训练模块,用于将所述训练样本集中的各样本图片输入字符识别网络模型,利用所述字符识别网络模型进行特征提取并预测目标对象信息,以输出所述样本图片的目标对象信息为目标训练所述字符识别网络模型;其中,所述样本图片为包括目标对象的待识别图片,标注的目标对象信息为字符类别信息及字符位置信息,训练结束得到的字符识别网络模型为第一字符识别网络;所述样本图片为包括目标对象的待识别图片,标注的目标对象信息为字符类别信息,训练结束得到的字符识别网络模型为第二字符识别网络;所述样本图片为字符图片,标注的目标对象信息为字符类别信息,训练结束得到的字符识别网络模型为第三字符识别网络。13.一种电子设备,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器通过运行所述可执行指令以实现权利要求1至7任一项所述方法的步骤,或实现权利要求8至10任一项所述方法的步骤。14.一种计算机可读写存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至7任一项所述方法的步骤,或实现权利要求8至10任一项所述方法的步骤。
技术总结本公开涉及一种目标对象识别方法、装置、设备及介质,该方法包括:获取包括目标对象的待识别图片,并输入第一字符识别网络进行字符识别和位置识别,得到对应的第一字符类别信息和字符位置信息,所述目标对象包含至少一个字符;将所述待识别图片输入第二字符识别网络进行字符识别,得到对应的第二字符类别信息;将所述第一字符类别信息和第二字符类别信息进行匹配,得到包括相匹配的字符类别信息和对应的目标字符位置信息的匹配结果;从所述待识别图片中确定出所述目标字符位置信息对应的各字符的各字符图像;并对所述各字符图片进行字符识别,得到所述待识别图片的识别结果。本公开能够提高识别目标对象的准确率。开能够提高识别目标对象的准确率。开能够提高识别目标对象的准确率。
技术研发人员:吕臻
受保护的技术使用者:浙江大华技术股份有限公司
技术研发日:2022.07.07
技术公布日:2022/11/1