一种语音合成方法、装置、设备及其存储介质与流程

专利2025-12-26 21

本技术涉及语音合成，应用于文本转语音场景中，尤其涉及一种语音合成方法、装置、设备及其存储介质。

背景技术：

1、随着互联网的快速发展，特别是自媒体行业和金融行业的快速发展。传统的语音合成越来越趋向于ai智能语音合成方向发展，常常需要使用到语音合成技术，即将指定语音以另一人物对象的发音输出。

2、现有的语音合成任务，主要采用将语音拆分为内容、节奏、音高、音色等多个特征，再采用有监督技术和随机采样的方法来对应提取出相应特征，但是，该方案在特征选取上容易造成大量的部分重复性，导致了编解码过多，容易引入较多噪声，无法保证语音合成质量，而且需要大量的目标说话人文本和语料对，造成大量标注消耗。因此，现有技术在进行文本转语音合成上需要大量的语料数据才能实现高质量语音合成的问题。

技术实现思路

1、本技术实施例的目的在于提出一种语音合成方法、装置、设备及其存储介质，以解决现有技术在进行文本转语音合成上需要大量的语料数据才能实现高质量语音合成的问题。

2、为了解决上述技术问题，本技术实施例提供语音合成方法，采用了如下所述的技术方案：

3、一种语音合成方法，包括下述步骤：

4、获取目标对象的音频数据，其中，所述目标对象包括真实发音人；

5、获取目标文本，其中，所述目标文本包括待进行语音合成的文本；

6、将所述目标文本转换为音素序列；

7、采用语音特征提取技术对所述音频数据进行音频特征提取，基于音频特征提取结果初步确定所述目标对象在发出不同音素时分别所占的音频帧长信息；

8、将所述音素序列输入到预设的微调处理模型，基于预设的参考信息，调整所述音素序列的序列帧长信息，获得微调完成的音素序列，其中，所述预设的参考信息为所述目标对象在发出不同音素时分别所占的音频帧长信息；

9、根据所述微调完成的音素序列进行语音合成。

10、进一步的，所述将所述目标文本转换为音素序列的步骤，具体包括：

11、提取所述目标文本中每个语句的句法特征，以及每个语句中所有词语的词语特征；

12、根据所述句法特征和所述词语特征，确定所述目标文本中每个字对应的发音音素；

13、根据所述发音音素将所述目标文本转换为音素序列。

14、进一步的，所述提取所述目标文本中每个语句的句法特征，以及每个语句中所有词语的词语特征的步骤，具体包括：

15、对所述目标文本进行句子拆分，获得拆分后的语句；以及，

16、对拆分后的语句分别进行分词处理，获得每个语句中分别包含的词语；

17、对所述拆分后的语句中的每个字分别进行句中发音标注和句中声调标注，根据所述标注结果以及预设的字读音词典，获得每个语句中的字读音在整个语句读音中对应的声调变化信息，其中，所述字读音词典中标注了每个字在未构成词语和语句时的初始发音信息及初始声调信息；

18、基于所述标注结果，获得每个语句中分别包含的词语对应的句中发音标注和句中声调标注，作为每个词语的读音信息；

19、所述根据所述发音音素将所述目标文本转换为音素序列的步骤，具体包括：

20、获取每个字分别在所述目标文本中的序列位置信息；

21、根据所述序列位置信息，对所述目标文本中每个字对应的发音音素进行序列化排序处理，获得排序结果作为所述音素序列。

22、进一步的，所述根据所述句法特征和所述词语特征，确定所述目标文本中每个字对应的发音音素的步骤，具体包括：

23、根据所述字读音词典，识别当前字是否为多音字；以及

24、根据所述句法特征和所述词语特征识别当前字在相应的整个语句读音中是否涉及到轻重音转换；

25、若所述当前字为非多音字且在相应的整个语句读音中未涉及到轻重音转换，则将当前字的唯一读音作为发音音素；

26、若所述当前字为非多音字但在相应的整个语句读音中涉及到了轻重音转换，则将当前字经轻重音转换后的读音作为发音音素；

27、若所述当前字为多音字且在相应的整个语句读音中未涉及到轻重音转换，则根据所述词语特征识别当前字在对应词语中的读音，以所述读音作为当前字的发音音素；

28、若所述当前字为多音字但在相应的整个语句读音中涉及到了轻重音转换，则根据所述词语特征识别当前字在对应词语中的读音，以及根据所述句法特征识别所述读音的轻重音转换，将所述读音的轻重音转换结果作为发音音素。

29、进一步的，所述采用语音特征提取技术对所述音频数据进行音频特征提取，基于音频特征提取结果初步确定所述目标对象在发出不同音素时分别所占的音频帧长信息的步骤，具体包括：

30、对所述音频数据进行分帧处理，获得连续音频帧片段；

31、采用mfcc系数法或者lpc系数法从所述连续音频帧片段中提取出音频特征；

32、将所述音频特征输入到预设的声学特征识别模型中，识别出每帧音频所对应的发音音素；

33、通过对所述每帧音频所对应的发音音素进行统计和整理，初步确定所述目标对象在发出不同音素时分别所占的音频帧长信息。

34、进一步的，所述微调处理模型由音素编码器、lora微调层和adapter微调层共同组成，所述将所述音素序列输入到预设的微调处理模型，通过所述微调处理模型调整所述音素序列的序列帧长信息，获得微调完成的音素序列的步骤，具体包括：

35、采用所述音素编码器的嵌入层将所述音素序列转换为向量表示，并为所述音素序列中的每个音素添加位置编码信息，其中，所述音素编码器包括transformer结构的编码器；

36、将所述向量表示和所述每个音素对应的位置编码信息输入到添加了所述lora微调层的编码子层，经所述编码子层编码处理，输出被所述lora微调层微调后的音素序列；

37、将所述被所述lora微调层微调后的音素序列输入到所述adapter微调层，继续进行微调，获得微调完成的音素序列，其中，所述lora微调层和所述adapter微调层用于根据所述目标对象的音频特征和音素映射关系调整所述音素序列中不同音素的帧长。

38、进一步的，所述根据所述微调完成的音素序列进行语音合成的步骤，具体包括：

39、将所述微调完成的音素序列映射为逐帧的音频特征；

40、将所述逐帧的音频特征输入到所述音素编码器所对应的transformer结构的解码器中，经解码处理获得波形音频信号；

41、将所述波形音频信号作为语音合成结果，发送到预设的语音输出端。

42、为了解决上述技术问题，本技术实施例还提供语音合成装置，采用了如下所述的技术方案：

43、一种语音合成装置，包括：

44、音频数据获取模块，用于获取目标对象的音频数据，其中，所述目标对象包括真实发音人；

45、目标文本获取模块，用于获取目标文本，其中，所述目标文本包括待进行语音合成的文本；

46、音素序列转换模块，用于将所述目标文本转换为音素序列；

47、音频特征提取模块，用于采用语音特征提取技术对所述音频数据进行音频特征提取，基于音频特征提取结果初步确定所述目标对象在发出不同音素时分别所占的音频帧长信息；

48、音素序列微调模块，用于将所述音素序列输入到预设的微调处理模型，基于预设的参考信息，调整所述音素序列的序列帧长信息，获得微调完成的音素序列，其中，所述预设的参考信息为所述目标对象在发出不同音素时分别所占的音频帧长信息；

49、语音合成模块，用于根据所述微调完成的音素序列进行语音合成。

50、为了解决上述技术问题，本技术实施例还提供一种计算机设备，采用了如下所述的技术方案：

51、一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述所述的语音合成方法的步骤。

52、为了解决上述技术问题，本技术实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

53、一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上述所述的语音合成方法的步骤。

54、与现有技术相比，本技术实施例主要有以下有益效果：

55、本技术实施例所述语音合成方法，通过获取目标对象的音频数据；获取目标文本；将所述目标文本转换为音素序列；采用语音特征提取技术对所述音频数据进行音频特征提取，基于音频特征提取结果初步确定所述目标对象在发出不同音素时分别所占的音频帧长信息；将所述音素序列输入到预设的微调处理模型，通过所述微调处理模型调整所述音素序列的序列帧长信息，获得微调完成的音素序列；根据所述微调完成的音素序列进行语音合成。采用上述方式将所述目标文本转换为音素序列，其目的在于保证所述音素序列的初步准确性，尽量减少后续的微调操作，节省计算机处理资源，预先将所述目标对象在发出不同音素时分别所占的音频帧长信息作为微调参考信息部署到所述微调处理模型中，进行音素序列微调，保证仅需目标对象少量音频数据即可完成高质量的说话人定制，且转换而成的语音更加接近真实语音，本方法应用到金融客服服务行业，能够为客户提供更加优质、良好的音质服务功能。

技术特征：

1.一种语音合成方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的语音合成方法，其特征在于，所述将所述目标文本转换为音素序列的步骤，具体包括：

3.根据权利要求2所述的语音合成方法，其特征在于，所述提取所述目标文本中每个语句的句法特征，以及每个语句中所有词语的词语特征的步骤，具体包括：

4.根据权利要求2所述的语音合成方法，其特征在于，所述根据所述句法特征和所述词语特征，确定所述目标文本中每个字对应的发音音素的步骤，具体包括：

5.根据权利要求2或1所述的语音合成方法，其特征在于，所述采用语音特征提取技术对所述音频数据进行音频特征提取，基于音频特征提取结果初步确定所述目标对象在发出不同音素时分别所占的音频帧长信息的步骤，具体包括：

6.根据权利要求2所述的语音合成方法，其特征在于，所述微调处理模型由音素编码器、lora微调层和adapter微调层共同组成，所述将所述音素序列输入到预设的微调处理模型，通过所述微调处理模型调整所述音素序列的序列帧长信息，获得微调完成的音素序列的步骤，具体包括：

7.根据权利要求6所述的语音合成方法，其特征在于，所述根据所述微调完成的音素序列进行语音合成的步骤，具体包括：

8.一种语音合成装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的语音合成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的语音合成方法的步骤。

技术总结
本申请实施例属于语音合成技术领域，应用于文本转语音场景中，涉及一种语音合成方法、装置、设备及其存储介质，通过获取音频数据和文本；将文本转换为音素序列；对音频数据进行音频特征提取，初步确定目标对象在发出不同音素时分别所占的音频帧长信息；调整音素序列，获得微调完成的音素序列；进行语音合成。采用上述方式将目标文本转换为音素序列，保证音素序列的初步准确性，尽量减少后续的微调操作，节省计算机处理资源，预先将目标对象在发出不同音素时分别所占的音频帧长信息作为微调参考信息，保证仅需目标对象少量音频数据即可完成高质量的说话人定制，本方法应用到金融客服服务行业，能够为客户提供更加优质、良好的音质服务功能。

技术研发人员：张旭龙,王健宗,李泽远
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-18733.html

专利

最新回复(0)