1.本公开涉及计算机技术领域,具体而言,涉及一种多音字读音预测网络的训练方法、语音生成方法及装置。
背景技术:2.在语音合成时,需要先对待生成语音的文本进行读音识别,确定文本的读音,然后再根据确定的文本的读音合成文本对应的音频。在文本中包含多音字的情况下,就需要确定该多音字在文本语境中的读音。
3.相关技术中,一般是预设多音字在不同词组中的读音,通过识别文本中的词组确定多音字的读音,但是这种方法需要大量的存储空间存储多音字在不同词组中的读音,并且容易出现多音字与相邻的汉字被误认为是预设的词组的情况,准确率较低,因此如何快速且准确地确定文本中多音字的读音成为亟待解决的问题。
技术实现要素:4.本公开实施例至少提供一种多音字读音预测网络的训练方法、语音生成方法及装置。
5.第一方面,本公开实施例提供了一种多音字读音预测网络的训练方法,包括:
6.获取包含多音字的样本文本,以及所述样本文本对应的标签,其中,所述样本文本对应的标签用于表征所述样本文本中多音字在预先构建的目标词表中的文本标识,所述目标词表中同一汉字的不同读音对应有不同的文本标识;
7.将所述样本文本转换为对应的样本文本标识;其中,所述样本文本标识中同一汉字的不同读音对应的文本标识相同;
8.将所述样本文本标识输入至待训练的多音字读音预测网络中,得到所述样本文本对应的读音预测结果;其中,所述读音预测结果用于表征所述样本文本所包含的各个字为所述目标词表中的各个文本标识对应的汉字的概率;
9.基于所述读音预测结果以及所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。
10.上述方法中,在目标词表中,不同读音的多音字对应有不同的文本标识,因此,可以通过文本标识对多音字的不同读音进行区分;在将所述样本文本转换为对应的样本文本标识时,由于样本文本标识中同一汉字的不同读音对应的文本标识相同,因此可以使多音字读音预测网络对同一字的不同读音进行预测,进一步的,根据读音预测结果和样本文本对应的标签(即多音字对应的正确读音的文本标识)对所述待训练的多音字读音预测网络进行训练,从而可以提升多音字读音预测网络将多音字归类为正确读音的能力,提升了多音字读音预测网络对多音字的读音进行预测的精度。
11.一种可能的实施方式中,所述样本文本中的多音字携带有对应读音的读音标记;
12.获取所述样本文本对应的标签,包括:
13.基于所述目标词表和所述样本文本中的多音字的读音标记,确定所述样本文本中多音字的文本标识。
14.一种可能的实施方式中,所述多音字读音预测网络包括初始特征提取模块,编码模块以及概率预测模块,所述多音字读音预测网络为预训练的模型;
15.在将所述样本文本标识输入至待训练的多音字读音预测网络中之前,所述方法还包括根据以下方法对所述待训练的多音字读音预测网络进行初始化:
16.确定所述多音字读音预测网络中与目标汉字对应的初始参数;其中,所述目标汉字对应有多个读音;
17.基于所述目标汉字对应的初始参数对所述多音字读音预测网络的全连接层和掩码语言层的参数进行调整。
18.采用这种结构,可以在现有的预训练的自然语言模型的基础上进行训练,并且可以对所述多音字读音预测网络的整体直接进行训练,不需要再接入其它神经网络,提升了训练的效率。
19.一种可能的实施方式中,所述基于所述目标汉字对应的初始参数对所述多音字读音预测网络的全连接层和所述掩码语言层的参数进行调整,包括:
20.将所述目标汉字对应的初始参数作为更新汉字对应的初始参数;其中,所述更新汉字为携带有不同读音标记的目标汉字;
21.将所述更新汉字对应的初始参数添加至所述多音字读音预测网络的全连接层和所述掩码语言层的参数中。
22.由于所述目标汉字与所述更新汉字为同一汉字,所述目标汉字与所述更新汉字的特征较为相似,因此使所述更新汉字继承所述目标汉字的权重和偏置参数,比起随机初始化所述更新汉字的权重和偏置参数,可以降低所述多音字读音预测网络的训练次数,提升训练效率。
23.一种可能的实施方式中,所述将所述样本文本转换为对应的样本文本标识,包括:
24.确定所述样本文本对应的掩码,并基于所述掩码替换所述样本文本中携带有读音标记的多音字;
25.基于所述掩码剔除所述样本文本中的读音标记;
26.将剔除读音标记的所述样本文本转换为对应的样本文本标识。
27.采用这种方法,可以将所述样本文本中的各读音的多音字的转化为不区分读音的文本标识,以使所述多音字读音预测网络对不携带读音标记的多音字进行特征提取,避免多音字的读音标记对于特征提取的影响,提升多音字读音预测的精度。
28.一种可能的实施方式中,所述方法还包括根据以下方法构建所述目标词表:
29.获取初始词表;其中,所述初始词表中包括各个汉字对应的文本标识;
30.确定所述初始词表中的多音字,以及所述多音字的各个读音;
31.为不同读音下的所述多音字分别添加读音标记,并确定所述多音字在不同读音下分别对应的文本标识;
32.基于添加读音标记的多音字,以及所述多音字在不同读音下分别对应的文本标识,对所述初始词表进行更新得到所述目标词表。
33.采用这种方法,可以将多音字按照不同读音拆分为多个汉字,从而使后续可以基
于所述目标词表将不同读音的多音字转化为不同的文本标识,从而可以训练多音字读音预测网络对不同读音的预测能力。
34.一种可能的实施方式中,所述将所述样本文本转换为对应的样本文本标识,包括:
35.基于所述目标词表,将所述样本文本转换为对应的样本文本标识。
36.一种可能的实施方式中,所述待训练的多音字读音预测网络为预训练的网络;
37.所述基于所述读音预测结果以及所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练,包括:
38.确定所述读音预测结果中所述多音字对应的目标预测结果;
39.基于所述目标预测结果和所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。
40.采用这种方法,可以通过所述多音字读音预测网络对多音字的预测结果(即所述目标预测结果)对所述多音字读音预测网络进行训练,提升了所述多音字读音预测网络对多音字进行预测的精度。
41.一种可能的实施方式中,所述读音预测结果包括概率矩阵;
42.所述确定所述读音预测结果中所述多音字对应的目标预测结果,包括:
43.确定所述概率矩阵中与所述多音字对应的概率向量;
44.所述基于所述目标预测结果和所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练,包括:
45.基于所述多音字对应的概率向量和所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。
46.第二方面,本公开实施例提供了一种语音生成方法,包括:
47.获取待检测文本;
48.基于第一方面或第一方面任一种可能的实施方式所述的多音字读音预测网络的训练方法训练得到的多音字读音预测网络,对所述待检测文本进行识别,得到所述待检测文本中对应的文本检测结果,其中,所述文本检测结果包括所述待检测文本中的各个汉字在所述目标词表中对应的文本标识;
49.基于预先确定的读音映射关系,确定所述文本检测结果对应的目标读音;
50.基于所述目标读音合成目标语音。
51.上述方法中,可以获取待检测文本,并将所述待检测文本输入至所述多音字读音预测网络,并基于所述多音字读音预测网络准确地预测所述待检测文本中的多音字的读音,从而可以基于包含准确的多音字读音的文本检测结果,确定目标读音,并生成正确的目标语音。采用这种方法,提升了目标语音的准确度,并仅由所述多音字读音预测网络进行读音预测,不需要其他额外的神经网络,节省了存储空间,提升了读音预测的效率。
52.第三方面,本公开实施例还提供一种多音字读音预测网络的训练装置,包括:
53.第一获取模块,用于获取包含多音字的样本文本,以及所述样本文本对应的标签,其中,所述样本文本对应的标签用于表征所述样本文本中多音字在预先构建的目标词表中的文本标识,所述目标词表中同一汉字的不同读音对应有不同的文本标识;
54.转换模块,用于将所述样本文本转换为对应的样本文本标识;其中,所述样本文本标识中同一汉字的不同读音对应的文本标识相同;
55.预测模块,用于将所述样本文本标识输入至待训练的多音字读音预测网络中,得到所述样本文本对应的读音预测结果;其中,所述读音预测结果用于表征所述样本文本所包含的各个字为所述目标词表中的各个文本标识对应的汉字的概率;
56.训练模块,用于基于所述读音预测结果以及所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。
57.一种可能的实施方式中,所述样本文本中的多音字携带有对应读音的读音标记;
58.所述第一获取模块,在获取所述样本文本对应的标签时,用于:
59.基于所述目标词表和所述样本文本中的多音字的读音标记,确定所述样本文本中多音字的文本标识。
60.一种可能的实施方式中,所述多音字读音预测网络包括初始特征提取模块,编码模块以及概率预测模块,所述多音字读音预测网络为预训练的模型;
61.在将所述样本文本标识输入至待训练的多音字读音预测网络中之前,所述预测模块还用于对所述待训练的多音字读音预测网络进行初始化:
62.确定所述多音字读音预测网络中与目标汉字对应的初始参数;其中,所述目标汉字对应有多个读音;
63.基于所述目标汉字对应的初始参数对所述多音字读音预测网络的全连接层和掩码语言层的参数进行调整。
64.一种可能的实施方式中,所述预测模块,在基于所述目标汉字对应的初始参数对所述多音字读音预测网络的全连接层和所述掩码语言层的参数进行调整时,用于:
65.将所述目标汉字对应的初始参数作为更新汉字对应的初始参数;其中,所述更新汉字为携带有不同读音标记的目标汉字;
66.将所述更新汉字对应的初始参数添加至所述多音字读音预测网络的全连接层和所述掩码语言层的参数中。
67.一种可能的实施方式中,所述转换模块,在将所述样本文本转换为对应的样本文本标识时,用于:
68.确定所述样本文本对应的掩码,并基于所述掩码替换所述样本文本中携带有读音标记的多音字;
69.基于所述掩码剔除所述样本文本中的读音标记;
70.将剔除读音标记的所述样本文本转换为对应的样本文本标识。
71.一种可能的实施方式中,所述第一获取模块,还用于根据以下方法构建所述目标词表:
72.获取初始词表;其中,所述初始词表中包括各个汉字对应的文本标识;
73.确定所述初始词表中的多音字,以及所述多音字的各个读音;
74.为不同读音下的所述多音字分别添加读音标记,并确定所述多音字在不同读音下分别对应的文本标识;
75.基于添加读音标记的多音字,以及所述多音字在不同读音下分别对应的文本标识,对所述初始词表进行更新得到所述目标词表。
76.一种可能的实施方式中,所述转换模块,在将所述样本文本转换为对应的样本文本标识时,用于:
77.基于所述目标词表,将所述样本文本转换为对应的样本文本标识。
78.一种可能的实施方式中,所述待训练的多音字读音预测网络为预训练的网络;
79.所述训练模块,在基于所述读音预测结果以及所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练时,用于:
80.确定所述读音预测结果中所述多音字对应的目标预测结果;
81.基于所述目标预测结果和所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。
82.一种可能的实施方式中,所述读音预测结果包括概率矩阵;
83.所述训练模块,在确定所述读音预测结果中所述多音字对应的目标预测结果时,用于:
84.确定所述概率矩阵中与所述多音字对应的概率向量;
85.所述训练模块,在基于所述目标预测结果和所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练时,用于:
86.基于所述多音字对应的概率向量和所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。
87.第四方面,本公开实施例还提供一种语音生成装置,包括:
88.第二获取模块,用于获取待检测文本;
89.识别模块,用于基于第一方面或第一方面任一种可能的实施方式所述的多音字读音预测网络的训练方法训练得到的多音字读音预测网络,对所述待检测文本进行识别,得到所述待检测文本中对应的文本检测结果,其中,所述文本检测结果包括所述待检测文本中的各个汉字在所述目标词表中对应的文本标识;
90.确定模块,用于基于预先确定的读音映射关系,确定所述文本检测结果对应的目标读音;
91.合成模块,用于基于所述目标读音合成目标语音。
92.第五方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤,或执行上述第二方面,或第二方面中任一种可能的实施方式中的步骤。
93.第六方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤,或执行上述第二方面,或第二方面中任一种可能的实施方式中的步骤。
94.关于上述多音字读音预测网络的训练、语音生成装置、计算机设备、及计算机可读存储介质的效果描述参见上述多音字读音预测网络的训练方法、语音生成方法的说明,这里不再赘述。
95.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开的技术方案。
96.为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合
所附附图,作详细说明如下。
附图说明
97.此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
98.为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
99.图1示出了本公开实施例所提供的一种多音字读音预测网络的训练方法的流程图;
100.图2示出了本公开实施例所提供的一种多音字读音预测网络的整体训练流程的示意图;
101.图3示出了本公开实施例所提供的一种语音生成方法的流程图;
102.图4示出了本公开实施例所提供的一种对待检测文本进行识别的流程的示意图;
103.图5示出了本公开实施例所提供的一种多音字读音预测网络的训练装置的架构示意图;
104.图6示出了本公开实施例所提供的一种语音生成装置的架构示意图;
105.图7示出了本公开实施例所提供的一种计算机设备的结构示意图;
106.图8示出了本公开实施例所提供的另一种计算机设备的结构示意图。
具体实施方式
107.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
108.在语音合成时,需要先对待生成语音的文本进行读音识别,确定文本的读音,然后再根据确定的文本的读音合成文本对应的音频。在文本中包含多音字的情况下,就需要确定该多音字在文本语境中的读音。
109.相关技术中,一般是预设多音字在不同词组中的读音,通过识别文本中的词组确定多音字的读音,如预设“泊”字在词组“湖泊”中念“po1”(“po”表示拼音字母,“1”表示读音的声调为一声),在词组“漂泊”中念“bo2”(“bo”表示拼音字母,“2”表示读音的声调为二声),在识别到句子中存在词组“湖泊”时,则确定“泊”字念“po1”。但是这种方法需要大量的存储空间存储多音字在不同词组中的读音,并且容易出现多音字与相邻的汉字被误认为是预设的词组的情况,准确率较低,如预设词组“还书”中的“还”的读音念“huan2”(“huan”表
示拼音字母,“2”表示读音的声调为二声),而在句子“xxx还书写了一篇新的文章”中“还”和“书”虽然相连但并不是一个词组,并且显然在这个语境下“还”字读音为“hai2”(“hai”表示拼音字母,“2”表示读音的声调为二声)。
110.或者,是通过bert模型(bidirectional encoder representation from transformers)提取文本的文本特征,然后将文本特征输入至读音分类模型确定多音字的读音,但是这种方法,需要分别对bert模型和读音分类模型进行训练,并且bert模型的词表中每个多音字都采用同一标识进行表示,在训练bert模型时,bert模型提取出的多音字的特征不会按照不同读音进行区分,而实际上多音字的不同读音所表征的语义是不同的,因此这样训练出的bert模型提取出的多音字的特征是不准确的,从而使语音分类模型根据该特征进行读音预测的结果准确度较低。因此如何快速且准确地确定文本中多音字的读音成为亟待解决的问题。
111.基于上述研究,本公开提供了一种多音字读音预测网络的训练方法、语音生成方法及装置,在目标词表中,不同读音的多音字对应有不同的文本标识,因此,可以通过文本标识对多音字的不同读音进行区分;在将所述样本文本转换为对应的样本文本标识时,由于样本文本标识中同一汉字的不同读音对应的文本标识相同,因此可以使多音字读音预测网络对同一字的不同读音进行预测,进一步的,根据读音预测结果和样本文本对应的标签(即多音字对应的正确读音的文本标识)对所述待训练的多音字读音预测网络进行训练,从而可以提升多音字读音预测网络将多音字归类为正确读音的能力,提升了多音字读音预测网络对多音字的读音进行预测的精度。
112.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
113.本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括a、b、c中的至少一种,可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。
114.为便于对本实施例进行理解,首先对本公开实施例所公开的一种多音字读音预测网络的训练方法进行详细介绍,本公开实施例所提供的多音字读音预测网络的训练方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:用户端或者服务器,所述用户端例如可以为平板电脑、智能手机、个人计算机等。在一些可能的实现方式中,该多音字读音预测网络的训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
115.参见图1所示,为本公开实施例提供的多音字读音预测网络的训练方法的流程图,所述方法包括步骤101~步骤104,其中:
116.步骤101、获取包含多音字的样本文本,以及所述样本文本对应的标签,其中,所述样本文本对应的标签用于表征所述样本文本中多音字在预先构建的目标词表中的文本标识,所述目标词表中同一汉字的不同读音对应有不同的文本标识;
117.步骤102、将所述样本文本转换为对应的样本文本标识;其中,所述样本文本标识中同一汉字的不同读音对应的文本标识相同;
118.步骤103、将所述样本文本标识输入至待训练的多音字读音预测网络中,得到所述
样本文本对应的读音预测结果;其中,所述读音预测结果用于表征所述样本文本所包含的各个字为所述目标词表中的各个文本标识对应的汉字的概率;
119.步骤104、基于所述读音预测结果以及所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。
120.以下是针对上述步骤的详细说明:
121.针对步骤101、
122.其中,所述样本文本可以包括句子、语段、文章、词组等,所述样本文本示例性的如“小船漂泊在湖泊里”,其中“泊”为多音字。所述文本标识为文本在目标词表中的唯一标识,例如可以是所述样本文本中多音字在所述目标词表中的编号(identity document,id),如“泊”的文本标识为3788。
123.所述目标词表中各汉字对应有不同的文本标识,对于目标词表中的多音字,除了对应该汉字本身对应的文本标识外,还对应有不同读音对应的文本标识。
124.示例性的,“泊”有两个读音,可以分别对应三个文本标识:“泊”字本身的文本标识3788(即在初始词表中的文本标识),“bo2”读音的文本标识为21569,“po1”读音的文本标识为21474。
125.本实施例中,多音字的读音用“拼音字母”+“声调”的方式进行表示,声调可以用“1”“2”“3”“4”“5”进行表示,其中“1”“2”“3”“4”分别表示“一声”“二声”“三声”“四声”,“5”表示“轻声”,如上述读音“bo2”表示拼音字母“bo”的读音为二声。
126.在一种可能的实施方式中,可以根据以下方法(a1~a4)构建所述目标词表:
127.a1、获取初始词表;其中,所述初始词表中包括各个汉字对应的文本标识。
128.所述初始词表示例性的可以是中文bert词表,所述中文bert词表中共有21128个文本标识,所述初始词表中每一个汉字对应有唯一的文本标识,如“泊”对应3788,所述初始词表中除汉字外还可以包括特殊符号对应的文本标识,如“[cls]”对应101,“[sep]”对应102,“。”对应511。
[0129]
a2、确定所述初始词表中的多音字,以及所述多音字的各个读音。
[0130]
示例性的,所述中文bert词表中共有354个多音字,任一多音字可以对应至少两个读音,如所述354个多音字如果按照读音进行拆分,可以拆分成741个对应唯一读音的多音字,如“降”可以拆分成读音为“jiang4”,和读音为“xiang2”的两个对应唯一读音的多音字。
[0131]
a3、为不同读音下的所述多音字分别添加读音标记,并确定所述多音字在不同读音下分别对应的文本标识。
[0132]
具体的,在确定所述多音字在不同读音下分别对应的文本标识时,可以将延续所述初始词表中的文本标识作为所述不同读音下的所述多音字的文本标识。示例性的,所述读音标记可以是阿拉伯数字(如1、2、3
……
),所述中文bert词表中最大的文本标识为21128,则可以从21129开始依次编号作为所述多音字在不同读音下分别对应的文本标识,如泊字共有两个读音,在对“泊”添加所述读音标记后,可以表示为“泊1”和“泊2”,“泊1”对应的文本标识为21474,“泊1”对应的读音为“po1”,“泊2”对应的文本标识为21569,“泊2”对应的读音为“bo2”。
[0133]
a4、基于添加读音标记的多音字,以及所述多音字在不同读音下分别对应的文本标识,对所述初始词表进行更新得到所述目标词表。
[0134]
具体的,将所述添加读音标记的多音字以及所述多音字在不同读音下分别对应的文本标识添加至所述初始词表中,可以得到所述目标词表。示例性的,所述中文bert词表在更新后(添加了741个多音字的读音对应的文本标识后),词表中的文本标识的数量(或者说是词表长度)由21128变为21869。
[0135]
采用这种方法,可以将多音字按照不同读音拆分为多个汉字,从而使后续可以基于所述目标词表将不同读音的多音字转化为不同的文本标识,从而可以训练多音字读音预测网络对不同读音的预测能力。
[0136]
在得到所述目标词表后,则可以根据所述目标词表,确定所述样本文本对应的标签。在一种可能的实施方式中,所述样本文本中的多音字携带有对应读音的读音标记,在获取所述样本文本对应的标签时,可以基于所述目标词表和所述样本文本中的多音字的读音标记,确定所述样本文本中多音字的文本标识。
[0137]
具体的,可以根据添加了所述读音标记的多音字在所述目标词表中进行搜索,得到添加了所述读音标记的多音字在所述目标词表中对应的文本标识。示例性的,如果所述样本文本中的多音字为“泊”,读音标记为“1”,则可以基于“泊1”在所述目标词表中进行搜索,得到“泊1”对应的文本标识21474。
[0138]
由于待训练的多音字读音预测网络可以是预训练的,因此本公开所提供的方法可以是对所述多音字读音预测网络进行微调训练的方法,这里可以仅基于多音字的标签对待训练的多音字读音预测网络进行训练。
[0139]
针对步骤102、
[0140]
由于所述多音字读音预测网络无法直接对汉字进行处理,因此,需要先将样本文本转换为对应的样本文本标识。同时由于样本文本标识输入至多音字读音预测网络之后,多音字读音预测网络要基于样本文本标识进行特征提取,而不同读音的多音字对应的本质仍为一个字,因此所述样本文本标识中同一汉字的不同读音对应的文本标识可以相同。
[0141]
在一种可能的实施方式中,在将所述样本文本转换为对应的样本文本标识时,可以基于所述目标词表,将所述样本文本转换为对应的样本文本标识。
[0142]
具体的,可以从所述目标词表中确定所述样本文本中每个文字的位置处对应的文本标识。示例性的,如果所述样本文本为“小船”,则转换之后的样本文本标识为“101 2207 5670102”。
[0143]
具体的,在将所述样本文本转换为对应的样本文本标识时,具体可以分为以下步骤b1~b3:
[0144]
b1、确定所述样本文本对应的掩码,并基于所述掩码替换所述样本文本中携带有读音标记的多音字;
[0145]
其中,所述样本文本对应的掩码可以是[mask]字符。示例性的,如果所述样本文本为“小船漂泊2在湖泊1里。”,则替换后的样本文本为“小船漂[mask]在湖[mask]里。”。
[0146]
b2、基于所述掩码剔除所述样本文本中的读音标记;
[0147]
具体的,可以将掩码所覆盖位置处的携带所述读音标记的多音字替换为不携带所述读音标记的多音字,延续上例掩码所覆盖位置处的汉字为“泊1”何“泊2”,可以将“泊”再替换至该位置处,最终替换结果为“小船漂泊在湖泊里。”。
[0148]
b3、将剔除读音标记的所述样本文本转换为对应的样本文本标识。
[0149]
具体的,可以如上文所述基于所述目标词表,确定所述样本文本对应的样本文本标识。示例性的,如果所述样本文本为“小船漂泊在湖泊里。”,则转换之后的样本文本标识为“101 2207 5670 4023 3788 1762 3959 3788 7027 511 102”。
[0150]
这里,如果所述多音字读音预测网络为预训练的bert网络,则在将所述样本文本转换为对应的样本文本标识时,需要在所述样本文本的句首和句子间隔处分别加入[cls]和[sep]对应的文本标识,如[cls]对应的文本标识为101,[sep]对应的文本标识为102。
[0151]
采用这种方法,可以将所述样本文本中的各读音的多音字的转化为不区分读音的文本标识,以使所述多音字读音预测网络对不携带读音标记的多音字进行特征提取,避免多音字的读音标记对于特征提取的影响,提升多音字读音预测的精度。
[0152]
针对步骤103、
[0153]
其中,所述多音字读音预测网络可以为预训练的模型(自然语言模型),如预训练的bert网络。所述读音预测结果,示例性的,如果所述目标词表中有21869个文本标识,则所述读音预测结果用于表示所述样本文本所包含的各个字分别属于21869个文本标识的概率,即所述样本文本中每一个字对应有21869个概率。
[0154]
在一种可能的实施方式中,所述多音字读音预测网络包括初始特征提取模块,编码模块以及概率预测模块,所述多音字读音预测网络为预训练的模型。所述多音字读音预测网络的初始特征提取模块,如嵌入层(embedding层),用于将所述样本文本标识转化为嵌入特征向量,并提取所述嵌入特征向量的初始特征信息,所述编码模块可以由12层变换器(transformer)网络中的编码器(encoder)组成,所述编码模块的维度为768,所述编码模块采用自注意力机制(self-attention),并包含12个注意力头,可以从所述初始特征信息中提取出深层特征信息,所述概率预测模块为多分类网络,如掩码语言网络(masked language model,mlm),所述概率预测模块可以根据所述深层特征信息,确定所述读音预测结果。
[0155]
采用这种结构,可以在现有的预训练的自然语言模型的基础上进行训练,并且可以对所述多音字读音预测网络的整体直接进行训练,不需要再接入其它神经网络,提升了训练的效率。
[0156]
在一种可能的实施方式中,在将所述样本文本标识输入至待训练的多音字读音预测网络中之前,可以根据以下方法对所述待训练的多音字读音预测网络进行初始化:确定所述多音字读音预测网络中与目标汉字对应的初始参数;其中,所述目标汉字对应有多个读音(即多音字);然后基于所述目标汉字对应的初始参数对所述多音字读音预测网络的全连接层和掩码语言层的参数进行调整。
[0157]
在一种可能的实施方式中,所述多音字读音预测网络中与目标汉字对应的初始参数可以包括:所述初始特征提取模块中的全连接层中的权重,以及所述概率预测模块中的掩码语言层的偏置参数(bias参数)。
[0158]
在基于所述目标汉字对应的初始参数对所述多音字读音预测网络的全连接层和掩码语言层的参数进行调整时,可以将所述目标汉字对应的初始参数作为更新汉字对应的初始参数;其中,所述更新汉字为携带有不同读音标记的目标汉字,然后将所述更新汉字对应的初始参数添加至所述多音字读音预测网络的全连接层和所述掩码语言层的参数中。
[0159]
具体的,所述全连接层包括多个汉字分别对应的权重,为了使所述全连接层能够
对携带有读音标记的多音字的文本标识进行处理,需要在所述全连接层中确定所述更新汉字对应的权重以建立所述更新汉字的链接,同理,所述掩码语言层需要输出所述样本文本中各个字为所述目标词表中的各个文本标识对应的汉字的概率,因此为了使所述掩码语言层能够输出所述样本文本中各个字属于所述目标词典中多个携带有读音标记的多音字的概率,需要确定所述更新汉字的偏置参数。示例性的,可以将“泊”的权重和偏置参数作为“泊1”的权重和“泊2”的权重和偏置参数。
[0160]
由于所述目标汉字与所述更新汉字为同一汉字,所述目标汉字与所述更新汉字的特征较为相似,因此相较于随机初始化所述更新汉字的权重和偏置参数,让所述更新汉字继承所述目标汉字的权重和偏置参数,可以提升所述多音字读音预测网络对所述更新汉字的处理能力,从而提升所述多音字读音预测网络的准确率。
[0161]
针对步骤104、
[0162]
在一种可能的实施方式中,所述待训练的多音字读音预测网络为预训练的网络;在基于所述读音预测结果以及所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练时,可以先确定所述读音预测结果中所述多音字对应的目标预测结果,然后基于所述目标预测结果和所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。
[0163]
具体的,由于只有一个读音的汉字不需要进行读音预测,因此只需要基于所述多音字对应的目标预测结果对所述多音字读音预测网络进行训练。
[0164]
所述目标预测结果表示多音字为所述目标词表中的各个文本标识对应的汉字的概率,在基于所述目标预测结果和所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练时,针对任一多音字,可以先将所述目标预测结果中最高概率对应的文本标识作为目标预测标识,然后基于所述目标预测标识的概率和该多音字的标签对应的文本标识计算目标损失值(如交叉熵损失),然后基于所述目标损失值对所述多音字读音预测网络的参数进行训练。
[0165]
采用这种方法,可以通过所述多音字读音预测网络对多音字的预测结果(即所述目标预测结果)对所述多音字读音预测网络进行训练,提升了所述多音字读音预测网络对多音字进行预测的准确率。
[0166]
以下步骤c1~c2为上述方法的一种具体的实施步骤:
[0167]
c1、所述读音预测结果包括概率矩阵,在确定所述读音预测结果中所述多音字对应的目标预测结果时,可以先确定所述概率矩阵中与所述多音字对应的概率向量。
[0168]
具体的,所述概率矩阵的每一行数字表示所述样本文本标识中的任一文本标识对应的汉字、为所述目标词表中的各个文本标识对应的汉字的概率,并且每一行按照所述样本文本标识的输入顺序排列,如当样本文本标识为“101 2207 5670 4023 3788 1762 3959 3788 7027 511 102”时,输出的概率矩阵的第一行表示文本标识101对应的样本文本中的、汉字为所述目标词表中的各个文本标识对应的汉字的概率,第二行表示文本标识2207对应的样本文本中的汉字、为所述目标词表中的各个文本标识对应的汉字的概率,第三行表示文本标识5670对应的样本文本中的汉字、为所述目标词表中的各个文本标识对应的汉字的概率,依次类推。
[0169]
因此,可以根据所述样本文本中多音字的文本标识的目标索引,确定所述概率矩
阵中与所述多音字对应的概率向量。所述目标索引为所述多音字在所述样本文本中的位置,如图2所示,所述样本文本为“小船漂泊2在湖泊1里”,该样本文本在转换为样本文本标识后,其中的多音字“泊2”和“泊1”在第5位和第8位,则5和8为所述目标索引,则可以将所述概率矩阵的第5行和第8行的概率作为所述概率向量(即图2中的p4和p7)。
[0170]
c2、在基于所述目标预测结果和所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练时,可以基于所述多音字对应的概率向量和所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。
[0171]
具体的,可以将所述多音字对应的概率向量中最高概率对应的文本标识作为目标预测标识,然后基于所述目标预测标识的概率和该多音字的标签对应的文本标识计算目标损失值(如交叉熵损失),然后基于所述目标损失值对所述多音字读音预测网络的参数进行训练。
[0172]
最后,如图2所示,对所述多音字读音预测网络的整体训练流程进行介绍:
[0173]
d1、获取初始词表,为初始词表中不同读音下的多音字分别添加读音标记,并确定所述多音字在不同读音下分别对应的文本标识,然后将添加读音标记的多音字以及对应的文本标识,加入至所述初始词表中,得到目标词表;
[0174]
d2、获取包含多音字的样本文本,以及所述样本文本对应的标签;
[0175]
d3、基于所述目标词表,将所述样本文本转换为对应的样本文本标识;
[0176]
d4、将所述样本文本标识输入至待训练的多音字读音预测网络中,经过所述初始特征提取模块处理得到所述样本文本对应的初始特征信息,再经过编码模块处理得到所述样本文本对应的深层特征信息,最后经概率预测模块处理,得到所述样本文本对应的读音预测结果;
[0177]
d5、基于所述读音预测结果以及所述样本文本对应的标签计算目标损失值,基于所述目标损失值对所述待训练的多音字读音预测网络进行训练。
[0178]
本公开实施例提供的多音字读音预测网络的训练方法,在目标词表中,不同读音的多音字对应有不同的文本标识,因此,可以通过文本标识对多音字的不同读音进行区分;在将所述样本文本转换为对应的样本文本标识时,由于样本文本标识中同一汉字的不同读音对应的文本标识相同,因此可以使多音字读音预测网络对同一字的不同读音进行预测,进一步的,根据读音预测结果和样本文本对应的标签(即多音字对应的正确读音的文本标识)对所述待训练的多音字读音预测网络进行训练,从而可以提升多音字读音预测网络将多音字归类为正确读音的能力,提升了多音字读音预测网络对多音字的读音进行预测的精度。
[0179]
基于同一发明构思,本公开还提供了一种语音生成方法,该方法应用于用户端或者服务器,所述用户端例如可以为平板电脑、智能手机、个人计算机等;参见图3所示,为本公开实施例提供的一种语音生成方法的流程图,所述方法包括步骤301~步骤304,其中:
[0180]
步骤301、获取待检测文本;
[0181]
步骤302、基于上述实施例所述的多音字读音预测网络的训练方法训练得到的多音字读音预测网络,对所述待检测文本进行识别,得到所述待检测文本中对应的文本检测结果,其中,所述文本检测结果包括所述待检测文本中的各个汉字在所述目标词表中对应的文本标识;
[0182]
步骤303、基于预先确定的读音映射关系,确定所述文本检测结果对应的目标读音;
[0183]
步骤304、基于所述目标读音合成目标语音。
[0184]
以下是针对上述步骤的详细说明:
[0185]
针对步骤301、
[0186]
其中,所述待检测文本可以包括句子、语段、文章、词组等,所述样本文本中可以包括多音字,如“小舟在湖中心漂泊。”[0187]
针对步骤302、
[0188]
具体的,在对所述待检测文本进行识别时,如图4所示,可以通过以下步骤:
[0189]
步骤一、基于所述目标词表,将所述待检测文本先转换为对应的待检测文本标识;
[0190]
具体的,可以根据所述待检测文本中的各汉字从所述目标词表中进行搜索,确定所述待检测文本中的各汉字对应的文本标识,所述待检测文本中的各汉字对应的文本标识构成所述待检测文本标识。示例性的,“小舟在湖中心漂泊。”对应的待检测文本标识为“101 2207 5660 1762 3959 704 2552 4023 3788 511 102”,其中,101对应的字符[cls]为句子首位的固定字符,102对应的字符[sep]为句子之间的间隔符。
[0191]
步骤二、将所述待检测文本标识输入至所述多音字读音预测网络,得到所述待检测文本对应的目标概率矩阵;
[0192]
具体的,在将所述待检测文本标识输入至所述多音字读音预测网络后,所述多音字读音预测网络中的初始特征提取模块可以将所述待检测文本标识转化为所述待检测文本对应的嵌入特征向量,并对所述嵌入特征向量进行初始特征提取,得到所述待检测文本的初始特征信息,所述编码模块可以基于所述初始特征信息进行深层特征提取,得到所述待检测文本的深层特征信息,所述概率预测模块可以基于所述深层特征信息确定:所述待检测文本所包含的各个字为所述目标词表中的各个文本标识对应的汉字的概率,即所述目标概率矩阵。
[0193]
步骤三、基于所述目标概率矩阵,确定所述待检测文本中各汉字对应的概率向量,并基于所述概率向量和所述目标词表确定所述待检测文本中各汉字对应的文本标识。
[0194]
具体的,所述目标概率矩阵中的每一行对应所述待检测文本中各汉字的概率向量,根据各汉字在所述样本文本标识中的位置,可以确定所述各汉字对应的概率向量(如上例中泊在第九位,对应的概率向量为p8),然后确定所述待检测文本中各汉字对应的概率向量中的最高概率,并将所述最高概率对应的目标词表中的文本标识作为所述待检测文本中各汉字对应的文本标识,如泊属于“泊2”的概率为0.996,则所述文字检测结果为“小舟在湖中心漂泊2。”[0195]
针对步骤303~304、
[0196]
具体的,所述读音映射关系可以是汉字(包括携带有读音标记的多音字)与拼音之间的映射关系,基于所述读音映射关系,可以确定所述文字检测结果中各汉字对应的读音,如“泊2”对应的拼音为“bo2”,因此,在确定所述文字检测结果中各汉字对应的读音后,可以确定所述待检测文本对应的目标读音,基于所述目标读音可以合成所述目标语音。
[0197]
这里,在基于所述目标读音合成所述目标语音时,还可以对所述待检测文本进行情感分析确定目标声调(即语音的语气)等,并基于所述目标声调和所述目标读音生成所述
目标语音。
[0198]
本公开实施例提供的语音生成方法,可以获取待检测文本,并将所述待检测文本输入至所述多音字读音预测网络,并基于所述多音字读音预测网络准确地预测所述待检测文本中的多音字的读音,从而可以基于包含准确的多音字读音的文本检测结果,确定目标读音,并生成正确的目标语音。采用这种方法,提升了目标语音的准确度,并仅由所述多音字读音预测网络进行读音预测,不需要其他额外的神经网络,节省了存储空间,提升了读音预测的效率。
[0199]
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
[0200]
基于同一发明构思,本公开实施例中还提供了与多音字读音预测网络的训练方法对应的多音字读音预测网络的训练装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述多音字读音预测网络的训练方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
[0201]
参照图5所示,为本公开实施例提供的一种多音字读音预测网络的训练装置的架构示意图,所述装置包括:第一获取模块501、转换模块502、预测模块503、训练模块504;其中,
[0202]
第一获取模块501,用于获取包含多音字的样本文本,以及所述样本文本对应的标签,其中,所述样本文本对应的标签用于表征所述样本文本中多音字在预先构建的目标词表中的文本标识,所述目标词表中同一汉字的不同读音对应有不同的文本标识;
[0203]
转换模块502,用于将所述样本文本转换为对应的样本文本标识;其中,所述样本文本标识中同一汉字的不同读音对应的文本标识相同;
[0204]
预测模块503,用于将所述样本文本标识输入至待训练的多音字读音预测网络中,得到所述样本文本对应的读音预测结果;其中,所述读音预测结果用于表征所述样本文本所包含的各个字为所述目标词表中的各个文本标识对应的汉字的概率;
[0205]
训练模块504,用于基于所述读音预测结果以及所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。
[0206]
一种可能的实施方式中,所述样本文本中的多音字携带有对应读音的读音标记;
[0207]
所述第一获取模块501,在获取所述样本文本对应的标签时,用于:
[0208]
基于所述目标词表和所述样本文本中的多音字的读音标记,确定所述样本文本中多音字的文本标识。
[0209]
一种可能的实施方式中,所述多音字读音预测网络包括初始特征提取模块,编码模块以及概率预测模块503,所述多音字读音预测网络为预训练的模型;
[0210]
在将所述样本文本标识输入至待训练的多音字读音预测网络中之前,所述预测模块503还用于对所述待训练的多音字读音预测网络进行初始化:
[0211]
确定所述多音字读音预测网络中与目标汉字对应的初始参数;其中,所述目标汉字对应有多个读音;
[0212]
基于所述目标汉字对应的初始参数对所述多音字读音预测网络的全连接层和掩码语言层的参数进行调整。
[0213]
一种可能的实施方式中,所述预测模块503,在基于所述目标汉字对应的初始参数对所述多音字读音预测网络的全连接层和所述掩码语言层的参数进行调整时,用于:
[0214]
将所述目标汉字对应的初始参数作为更新汉字对应的初始参数;其中,所述更新汉字为携带有不同读音标记的目标汉字;
[0215]
将所述更新汉字对应的初始参数添加至所述多音字读音预测网络的全连接层和所述掩码语言层的参数中。
[0216]
一种可能的实施方式中,所述转换模块502,在将所述样本文本转换为对应的样本文本标识时,用于:
[0217]
确定所述样本文本对应的掩码,并基于所述掩码替换所述样本文本中携带有读音标记的多音字;
[0218]
基于所述掩码剔除所述样本文本中的读音标记;
[0219]
将剔除读音标记的所述样本文本转换为对应的样本文本标识。
[0220]
一种可能的实施方式中,所述第一获取模块501,还用于根据以下方法构建所述目标词表:
[0221]
获取初始词表;其中,所述初始词表中包括各个汉字对应的文本标识;
[0222]
确定所述初始词表中的多音字,以及所述多音字的各个读音;
[0223]
为不同读音下的所述多音字分别添加读音标记,并确定所述多音字在不同读音下分别对应的文本标识;
[0224]
基于添加读音标记的多音字,以及所述多音字在不同读音下分别对应的文本标识,对所述初始词表进行更新得到所述目标词表。
[0225]
一种可能的实施方式中,所述转换模块502,在将所述样本文本转换为对应的样本文本标识时,用于:
[0226]
基于所述目标词表,将所述样本文本转换为对应的样本文本标识。
[0227]
一种可能的实施方式中,所述待训练的多音字读音预测网络为预训练的网络;
[0228]
所述训练模块504,在基于所述读音预测结果以及所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练时,用于:
[0229]
确定所述读音预测结果中所述多音字对应的目标预测结果;
[0230]
基于所述目标预测结果和所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。
[0231]
一种可能的实施方式中,所述读音预测结果包括概率矩阵;
[0232]
所述训练模块504,在确定所述读音预测结果中所述多音字对应的目标预测结果时,用于:
[0233]
确定所述概率矩阵中与所述多音字对应的概率向量;
[0234]
所述训练模块504,在基于所述目标预测结果和所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练时,用于:
[0235]
基于所述多音字对应的概率向量和所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。
[0236]
对应于图3中所述的语音生成方法,本公开实施例还提供一种语音生成装置的架构示意图,参照图6所示,所述装置包括:第二获取模块601、识别模块602、确定模块603、合
成模块604;其中,
[0237]
第二获取模块601,用于获取待检测文本;
[0238]
识别模块602,用于基于上述实施例所述的多音字读音预测网络的训练方法训练得到的多音字读音预测网络,对所述待检测文本进行识别,得到所述待检测文本中对应的文本检测结果,其中,所述文本检测结果包括所述待检测文本中的各个汉字在所述目标词表中对应的文本标识;
[0239]
确定模块603,用于基于预先确定的读音映射关系,确定所述文本检测结果对应的目标读音;
[0240]
合成模块604,用于基于所述目标读音合成目标语音。
[0241]
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
[0242]
基于同一技术构思,本公开实施例还提供了一种计算机设备。参照图7所示,为本公开实施例提供的计算机设备700的结构示意图,包括处理器701、存储器702、和总线703。其中,存储器702用于存储执行指令,包括内存7021和外部存储器7022;这里的内存7021也称内存储器,用于暂时存放处理器701中的运算数据,以及与硬盘等外部存储器7022交换的数据,处理器701通过内存7021与外部存储器7022进行数据交换,当计算机设备700运行时,处理器701与存储器702之间通过总线703通信,使得处理器701在执行以下指令:
[0243]
获取包含多音字的样本文本,以及所述样本文本对应的标签,其中,所述样本文本对应的标签用于表征所述样本文本中多音字在预先构建的目标词表中的文本标识,所述目标词表中同一汉字的不同读音对应有不同的文本标识;
[0244]
将所述样本文本转换为对应的样本文本标识;其中,所述样本文本标识中同一汉字的不同读音对应的文本标识相同;
[0245]
将所述样本文本标识输入至待训练的多音字读音预测网络中,得到所述样本文本对应的读音预测结果;其中,所述读音预测结果用于表征所述样本文本所包含的各个字为所述目标词表中的各个文本标识对应的汉字的概率;
[0246]
基于所述读音预测结果以及所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。
[0247]
基于同一技术构思,本公开实施例还提供了另一种计算机设备。参照图8所示,为本公开实施例提供的计算机设备800的结构示意图,包括处理器801、存储器802、和总线803。其中,存储器802用于存储执行指令,包括内存8021和外部存储器8022;这里的内存8021也称内存储器,用于暂时存放处理器801中的运算数据,以及与硬盘等外部存储器8022交换的数据,处理器801通过内存8021与外部存储器8022进行数据交换,当计算机设备800运行时,处理器801与存储器802之间通过总线803通信,使得处理器801在执行以下指令:
[0248]
获取待检测文本;
[0249]
基于上述实施例所述的多音字读音预测网络的训练方法训练得到的多音字读音预测网络,对所述待检测文本进行识别,得到所述待检测文本中对应的文本检测结果,其中,所述文本检测结果包括所述待检测文本中的各个汉字在所述目标词表中对应的文本标识;
[0250]
基于预先确定的读音映射关系,确定所述文本检测结果对应的目标读音;
[0251]
基于所述目标读音合成目标语音。
[0252]
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的多音字读音预测网络的训练方法、语音生成方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
[0253]
本公开实施例还提供一种计算机程序产品,该计算机产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的多音字读音预测网络的训练方法、语音生成方法的步骤,具体可参见上述方法实施例,在此不再赘述。
[0254]
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
[0255]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0256]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0257]
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0258]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0259]
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使
相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
[0260]
若本技术技术方案涉及个人信息,应用本技术技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本技术技术方案涉及敏感个人信息,应用本技术技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
技术特征:1.一种多音字读音预测网络的训练方法,其特征在于,包括:获取包含多音字的样本文本,以及所述样本文本对应的标签,其中,所述样本文本对应的标签用于表征所述样本文本中多音字在预先构建的目标词表中的文本标识,所述目标词表中同一汉字的不同读音对应有不同的文本标识;将所述样本文本转换为对应的样本文本标识;其中,所述样本文本标识中同一汉字的不同读音对应的文本标识相同;将所述样本文本标识输入至待训练的多音字读音预测网络中,得到所述样本文本对应的读音预测结果;其中,所述读音预测结果用于表征所述样本文本所包含的各个字为所述目标词表中的各个文本标识对应的汉字的概率;基于所述读音预测结果以及所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。2.根据权利要求1所述的方法,其特征在于,所述样本文本中的多音字携带有对应读音的读音标记;获取所述样本文本对应的标签,包括:基于所述目标词表和所述样本文本中的多音字的读音标记,确定所述样本文本中多音字的文本标识。3.根据权利要求1或2所述的方法,其特征在于,所述多音字读音预测网络包括初始特征提取模块,编码模块以及概率预测模块,所述多音字读音预测网络为预训练的模型;在将所述样本文本标识输入至待训练的多音字读音预测网络中之前,所述方法还包括根据以下方法对所述待训练的多音字读音预测网络进行初始化:确定所述多音字读音预测网络中与目标汉字对应的初始参数;其中,所述目标汉字对应有多个读音;基于所述目标汉字对应的初始参数对所述多音字读音预测网络的全连接层和掩码语言层的参数进行调整。4.根据权利要求3所述的方法,其特征在于,所述基于所述目标汉字对应的初始参数对所述多音字读音预测网络的全连接层和所述掩码语言层的参数进行调整,包括:将所述目标汉字对应的初始参数作为更新汉字对应的初始参数;其中,所述更新汉字为携带有不同读音标记的目标汉字;将所述更新汉字对应的初始参数添加至所述多音字读音预测网络的全连接层和所述掩码语言层的参数中。5.根据权利要求2所述的方法,其特征在于,所述将所述样本文本转换为对应的样本文本标识,包括:确定所述样本文本对应的掩码,并基于所述掩码替换所述样本文本中携带有读音标记的多音字;基于所述掩码剔除所述样本文本中的读音标记;将剔除读音标记的所述样本文本转换为对应的样本文本标识。6.根据权利要求1~5任一所述的方法,其特征在于,所述方法还包括根据以下方法构建所述目标词表:获取初始词表;其中,所述初始词表中包括各个汉字对应的文本标识;
确定所述初始词表中的多音字,以及所述多音字的各个读音;为不同读音下的所述多音字分别添加读音标记,并确定所述多音字在不同读音下分别对应的文本标识;基于添加读音标记的多音字,以及所述多音字在不同读音下分别对应的文本标识,对所述初始词表进行更新得到所述目标词表。7.根据权利要求1~6任一所述的方法,其特征在于,所述将所述样本文本转换为对应的样本文本标识,包括:基于所述目标词表,将所述样本文本转换为对应的样本文本标识。8.根据权利要求1~7任一所述的方法,其特征在于,所述待训练的多音字读音预测网络为预训练的网络;所述基于所述读音预测结果以及所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练,包括:确定所述读音预测结果中所述多音字对应的目标预测结果;基于所述目标预测结果和所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。9.根据权利要求8所述的方法,其特征在于,所述读音预测结果包括概率矩阵;所述确定所述读音预测结果中所述多音字对应的目标预测结果,包括:确定所述概率矩阵中与所述多音字对应的概率向量;所述基于所述目标预测结果和所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练,包括:基于所述多音字对应的概率向量和所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。10.一种语音生成方法,其特征在于,包括:获取待检测文本;基于权利要求1~9任一所述的多音字读音预测网络的训练方法训练得到的多音字读音预测网络,对所述待检测文本进行识别,得到所述待检测文本中对应的文本检测结果,其中,所述文本检测结果包括所述待检测文本中的各个汉字在所述目标词表中对应的文本标识;基于预先确定的读音映射关系,确定所述文本检测结果对应的目标读音;基于所述目标读音合成目标语音。11.一种多音字读音预测网络的训练装置,其特征在于,包括:第一获取模块,用于获取包含多音字的样本文本,以及所述样本文本对应的标签,其中,所述样本文本对应的标签用于表征所述样本文本中多音字在预先构建的目标词表中的文本标识,所述目标词表中同一汉字的不同读音对应有不同的文本标识;转换模块,用于将所述样本文本转换为对应的样本文本标识;其中,所述样本文本标识中同一汉字的不同读音对应的文本标识相同;预测模块,用于将所述样本文本标识输入至待训练的多音字读音预测网络中,得到所述样本文本对应的读音预测结果;其中,所述读音预测结果用于表征所述样本文本所包含的各个字为所述目标词表中的各个文本标识对应的汉字的概率;
训练模块,用于基于所述读音预测结果以及所述样本文本对应的标签对所述待训练的多音字读音预测网络进行训练。12.一种语音生成装置,其特征在于,包括:第二获取模块,用于获取待检测文本;识别模块,用于基于权利要求1~9任一所述的多音字读音预测网络的训练方法训练得到的多音字读音预测网络,对所述待检测文本进行识别,得到所述待检测文本中对应的文本检测结果,其中,所述文本检测结果包括所述待检测文本中的各个汉字在所述目标词表中对应的文本标识;确定模块,用于基于预先确定的读音映射关系,确定所述文本检测结果对应的目标读音;合成模块,用于基于所述目标读音合成目标语音。13.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至9任一项所述的多音字读音预测网络的训练方法的步骤,或执行如权利要求10所述的语音生成方法的步骤。14.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至9任一项所述的多音字读音预测网络的训练方法的步骤,或执行如权利要求10所述的语音生成方法的步骤。
技术总结本公开提供了一种多音字读音预测网络的训练方法、语音生成方法及装置,其中,多音字读音预测网络的训练方法包括:获取包含多音字的样本文本,以及样本文本对应的标签,其中,样本文本对应的标签用于表征样本文本中多音字在预先构建的目标词表中的文本标识,目标词表中同一汉字的不同读音对应有不同的文本标识;将样本文本转换为对应的样本文本标识;将样本文本标识输入至待训练的多音字读音预测网络中,得到样本文本对应的读音预测结果;其中,读音预测结果用于表征样本文本所包含的各个字为目标词表中的各个文本标识对应的汉字的概率;基于读音预测结果以及样本文本对应的标签对待训练的多音字读音预测网络进行训练。待训练的多音字读音预测网络进行训练。待训练的多音字读音预测网络进行训练。
技术研发人员:张松 郑垦 朱晓旭 李宝祥
受保护的技术使用者:北京市商汤科技开发有限公司
技术研发日:2022.06.22
技术公布日:2022/11/1