基于模型蒸馏的变声方法、装置、计算机设备及存储介质与流程

专利2025-06-16  33


本发明涉及计算机软件,特别涉及基于模型蒸馏的变声方法、装置、计算机设备及存储介质。


背景技术:

1、随着人工智能和深度学习技术的快速发展,ai变声技术在诸多领域取得了显著进展。然而,尽管现有的ai变声模型在生成高质量、自然的目标语音方面表现优异,但这些ai变声模型的结构都很复杂,因此需要大量的计算资源和存储空间,这就会限制其在资源受限设备上的应用,即适用范围不够广。尤其是在移动设备、物联网(iot)设备以及低端cpu和集显设备中,模型的计算效率和推理延迟变得尤为关键。此外,在桌面端的变声软件中,由于用户场景多为游戏场景,对显卡资源已有较大占用,此时若使用现有的ai变声模型,则会抢占用户的显卡资源,因此实现实时变声所要求的显卡性能也会更高,导致实时变声实现难度增加。

2、传统的变声方法使用高斯混合模型,而当前的变声方法则使用人工神经网络,变声架构通常包括变分自动编码器(vae)和生成对抗网络(gan),通常是在非并行数据集上训练,即说话者不需要执行相同话语的数据集。尽管它们在主流消费级显卡如nvidiartx3060上可以实现实时变声,但其模型架构没有经过训练以处理低延迟流式音频,这就导致听感上的延迟较高(例如音频输入长度200ms,模型推理时间100ms,除了系统延迟外的听感延迟在300ms左右)。此外,简单地转换短连续音频片段也会导致感知输出质量下降。


技术实现思路

1、本发明实施例提供了一种基于模型蒸馏的变声方法、装置、计算机设备及存储介质,旨在保证变声质量的同时提高实时变声的适用性。

2、第一方面,本发明实施例提供了一种基于模型蒸馏的变声方法,包括:

3、获取包含多条语音数据的基础训练集,并将所述基础训练集中的语音数据与预设的模板音频输入至教师模型中进行蒸馏训练,得到包含蒸馏数据的蒸馏数据集;

4、将所述蒸馏数据集中的蒸馏数据输入至学生模型中进行变声训练,得到变声音频,以此构建实时变声模型;

5、利用所述实时变声模型对指定的音频数据进行变声处理。

6、第二方面,本发明实施例提供了一种基于模型蒸馏的变声装置,包括:

7、蒸馏训练单元,用于获取包含多条语音数据的基础训练集,并将所述基础训练集中的语音数据与预设的模板音频输入至教师模型中进行蒸馏训练,得到包含蒸馏数据的蒸馏数据集;

8、变声训练单元,用于将所述蒸馏数据集中的蒸馏数据输入至学生模型中进行变声训练,得到变声音频,以此构建实时变声模型;

9、实时变声单元,用于利用所述实时变声模型对指定的音频数据进行变声处理。

10、第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的基于模型蒸馏的变声方法。

11、第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于模型蒸馏的变声方法。

12、本发明实施例提供了一种基于模型蒸馏的变声方法、装置、计算机设备及存储介质,该方法包括:获取包含多条语音数据的基础训练集,并将所述基础训练集中的语音数据与预设的模板音频输入至教师模型中进行蒸馏训练,得到包含蒸馏数据的蒸馏数据集;将所述蒸馏数据集中的蒸馏数据输入至学生模型中进行变声训练,得到变声音频,以此构建实时变声模型;利用所述实时变声模型对指定的音频数据进行变声处理。本发明实施例首先通过语音数据和模板音频对教师模型进行蒸馏训练,来得到蒸馏数据集,然后利用蒸馏数据集对学生模型进行变声训练,如此不仅能够保留教师模型的部分性能优势,还能显著减少模型参数量和计算开销,从而在保证变声质量的同时,使本实施例所提供的变声方法能够适用于更多的系统平台,而不会受限于系统平台的显卡资源。



技术特征:

1.一种基于模型蒸馏的变声方法,其特征在于,包括:

2.根据权利要求1所述的基于模型蒸馏的变声方法,其特征在于,所述将所述基础训练集中的语音数据与预设的模板音频输入至教师模型中进行蒸馏训练,得到包含蒸馏数据的蒸馏数据集,包括:

3.根据权利要求1所述的基于模型蒸馏的变声方法,其特征在于,所述将所述基础训练集中的语音数据与预设的模板音频输入至教师模型中进行蒸馏训练,得到包含蒸馏数据的蒸馏数据集,还包括:

4.根据权利要求1所述的基于模型蒸馏的变声方法,其特征在于,所述将所述蒸馏数据集中的蒸馏数据输入至学生模型中进行变声训练,得到变声音频,包括:

5.根据权利要求4所述的基于模型蒸馏的变声方法,其特征在于,所述将所述通过因果卷积预处理层对所述蒸馏数据进行特征提取,得到对应的音频特征,包括:

6.根据权利要求4所述的基于模型蒸馏的变声方法,其特征在于,所述将所述通过扩张因果卷积编码器对所述音频特征进行特征编码,得到对应的编码表示,包括:

7.根据权利要求4所述的基于模型蒸馏的变声方法,其特征在于,所述通过transformer解码器对所述编码表示进行解码调节,得到对应的掩码,包括:

8.一种基于模型蒸馏的变声装置,其特征在于,包括:

9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于模型蒸馏的变声方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于模型蒸馏的变声方法。


技术总结
本发明公开了基于模型蒸馏的变声方法、装置、计算机设备及存储介质,该方法包括:获取包含多条语音数据的基础训练集,并将所述基础训练集中的语音数据与预设的模板音频输入至教师模型中进行蒸馏训练,得到包含蒸馏数据的蒸馏数据集;将所述蒸馏数据集中的蒸馏数据输入至学生模型中进行变声训练,得到变声音频,以此构建实时变声模型;利用所述实时变声模型对指定的音频数据进行变声处理。本发明通过对教师模型进行蒸馏训练,来得到蒸馏数据集,然后利用蒸馏数据集对学生模型进行变声训练,如此不仅能够保留教师模型的部分性能优势,还能显著减少模型参数量和计算开销,从而在保证变声质量的同时,还能够使所述的变声方法适用于更多的系统平台。

技术研发人员:姚振财
受保护的技术使用者:深圳牛学长科技有限公司
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-15073.html

最新回复(0)