1.本公开涉及计算机领域和自然语言处理领域,尤其涉及一种说话风格生成方法、装置、电子设备和存储介质。
背景技术:2.随着人机交互的方式由单一语音交互升级演进到多模态交互,出现了语音驱动的虚拟数字人,而虚拟数字人开始进入成长期,已经与文旅、金融、主播、游戏、影视娱乐等产业结合,在人工智能技术继续推动下,正在朝着更加智能化、精细化、多样化的方向发展。不同的人在说话表达时,具有不同的说话风格,例如有的人说话时口型准确、表情丰富,有的人说话时口型偏小,表情严肃等。如此,可以设计出不同说话风格的三维虚拟数字人。
3.然而,采用现有技术方案,每生成一个新的说话风格需要对模型重新进行训练,需要花费时间进行大量的数据运算,导致新说话风格生成的效率较低。
技术实现要素:4.本公开提供了一种说话风格生成方法、装置、电子设备和存储介质,能够实现说话风格的快速迁移,提升说话风格的生成效率。
5.第一方面,本公开提供了一种说话风格生成方法,包括:
6.基于多个风格特征属性拟合目标风格特征属性,确定各风格特征属性的拟合系数;
7.根据所述各风格特征属性的拟合系数和多个风格特征向量,确定目标风格特征向量,所述多个风格特征向量与所述多个风格特征属性一一对应;
8.将所述目标风格特征向量输入至说话风格模型中,输出目标说话风格参数,所述说话风格模型是基于所述多个风格特征向量训练说话风格模型的框架得到的;
9.基于所述目标说话风格参数,生成目标说话风格。
10.第二方面,本公开提供了一种说话风格生成装置,包括:
11.确定模块,用于基于多个风格特征属性拟合目标风格特征属性,确定各风格特征属性的拟合系数;根据所述各风格特征属性的拟合系数和多个风格特征向量,确定目标风格特征向量,所述多个风格特征向量与所述多个风格特征属性一一对应;将所述目标风格特征向量输入至说话风格模型中,输出目标说话风格参数,所述说话风格模型是基于所述多个风格特征向量训练说话风格模型的框架得到的;
12.生成模块,用于基于所述目标说话风格参数,生成目标说话风格。
13.第三方面,本公开还提供了一种电子设备,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的说话风格生成方法的步骤。
14.第四方面,本公开还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一项所述的说话风格生成方法。
15.本公开实施例的技术方案中,通过基于多个风格特征属性拟合目标风格特征属性,确定各风格特征属性的拟合系数;根据各风格特征属性的拟合系数和多个风格特征向量,确定目标风格特征向量,多个风格特征向量与多个风格特征属性一一对应;将目标风格特征向量输入至说话风格模型中,输出目标说话风格参数,说话风格模型是基于多个风格特征向量训练说话风格模型的框架得到的;基于目标说话风格参数,生成目标说话风格,如此,可以将目标风格特征向量用多个风格特征向量来拟合,由于说话模型是基于多个风格特征向量训练得到的,因此,将多个风格特征向量拟合的目标风格特征向量输入至说话模型中可以直接得到相应的新的说话风格,无需针对说话风格模型重新训练,可实现说话风格的快速迁移,提升说话风格的生成效率。
附图说明
16.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
17.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
18.图1a为本公开一些实施例提供的三维虚拟数字人的示意图;
19.图1b为本公开一些实施例提供的三维虚拟数字人的示意图;
20.图1c为本公开一些实施例的生成新的说话风格的原理示意图;
21.图2为根据本公开一些实施例的人机交互场景的示意图;
22.图3是本公开一些实施例提供的说话风格生成方法的流程示意图;
23.图4为本公开一些实施例提供的面部拓扑结构数据划分区域的示意图;
24.图5是本公开一些实施例提供的说话风格生成方法的流程示意图;
25.图6是本公开一些实施例提供的说话风格生成方法的流程示意图;
26.图7是本公开一些实施例提供的说话风格生成方法的流程示意图;
27.图8为本公开一些实施例提供的说话风格模型的框架的结构示意图;
28.图9是本公开一些实施例提供的说话风格生成方法的流程示意图;
29.图10为本公开一些实施例提供的说话风格生成模型的框架的结构示意图;
30.图11是本公开一些实施例提供的说话风格生成方法的流程示意图;
31.图12a为本公开一些实施例提供的说话风格生成模型的框架的结构示意图;
32.图12b为本公开一些实施例提供的说话风格生成模型的框架的结构示意图;
33.图13是本公开一些实施例提供的说话风格生成方法的流程示意图;
34.图14为本公开一些实施例提供的说话风格生成装置的结构示意图;
35.图15为本公开一些实施例提供的说话风格生成装置的结构示意图;
36.图16为本公开一些实施例提供的说话风格生成装置的结构示意图。
具体实施方式
37.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可
以相互组合。
38.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
39.本公开中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一预测分数和第二预测分数等是用于区别不同的预测分数,而不是用于描述预测分数的特定顺序。
40.随着智能化技术的高速发展以及智能终端的日益普及,语音多模态交互成为越来越重要的方式。传统的语音交互是只闻其声,不见其人,用户向智能设备发出语音指令,智能设备接收语音指令后,生成响应信息,并播放相应的语音响应信息,用户可以获取到语音响应信息,从而实现用户与智能设备的交互。在人机交互升级演进的过程中,产生了语音驱动的三维虚拟数字人,智能设备包括显示屏,显示屏可以显示三维虚拟数字人,如图1a所示,智能设备播放语音响应信息的同时,同步显示三维虚拟数字人说话时的表情和口型,如图1b所示,用户既可以听见三维虚拟数字人的声音,又可以看到三维虚拟数字人说话时的表情,给用户一种与人对话的体验感。
41.通常,人们说话的时候,不同的人具有不同的状态,例如,有的人说话时口型准确、表情丰富,有的人说话时口型偏小、表情严肃等。也就是说,不同的人具有不同的说话风格。如此,可以设计出不同说话风格的三维虚拟数字人,即不同说话风格的三维虚拟数字人的口型、表情不同,用户可以与不同说话风格的三维虚拟人进行对话,从而能够提升用户的体验。每设计一种新的三维虚拟人的说话风格,均需要先获取相应的训练样本,基于相应的训练样本重新训练说话风格模型,使得基于重新训练后的说话风格模型可以生成新的说话风格参数,并基于说话风格参数驱动基本说话风格,如图1c所示,可以生成新的说话风格。由于重新训练说话风格模型需要花费大量的时间来采集训练样本和处理大量的数据,因此,每生成一个新的说话风格需要花费比较多的时间,使得说话风格的生成效率比较低下。
42.为了解决上述问题,本公开通过基于多个风格特征属性拟合目标风格特征属性,确定各风格特征属性的拟合系数;根据各风格特征属性的拟合系数和多个风格特征向量,确定目标风格特征向量,多个风格特征向量与多个风格特征属性一一对应;将目标风格特征向量输入至说话风格模型中,输出目标说话风格参数,说话风格模型是基于多个风格特征向量训练说话风格模型的框架得到的;基于目标说话风格参数,生成目标说话风格,如此,可以将目标风格特征向量用多个风格特征向量来拟合,由于说话模型是基于多个风格特征向量训练得到的,因此,将多个风格特征向量拟合的目标风格特征向量输入至说话模型中可以直接得到相应的新的说话风格,无需针对说话风格模型重新训练,可实现说话风格的快速迁移,提升说话风格的生成效率。
43.图2为本公开一些实施例提供的人机交互场景的示意图。如图2所示,用户与智能家居的语音交互场景中,智能设备可以包括智能冰箱110、智能洗衣机120和智能显示设备130等。用户想要对智能设备进行控制时,需要先发出语音指令,而智能设备在接收到该语音指令时,需要对该语音指令进行语义理解,确定与该语音指令所对应的语义理解结果,根据语义理解结果,执行相应的控制指令,满足用户的使用需求。该场景中的智能设备均包括显示屏,显示屏可以是触摸屏,也可以是非触摸屏,对于具有触摸屏的终端设备,用户可以
通过手势、手指或者触控工具(例如,触控笔)实现与终端设备的交互操作。对于非触摸屏的终端设备,可以通过外部设备(例如,鼠标或者键盘等)实现与终端设备的交互操作。显示屏可以显示三维虚拟人,用户通过显示屏可以看到三维虚拟人及其说话时的表情,实现与三维虚拟人的对话交互。
44.本公开实施例提供的说话风格生成方法,可以基于计算机设备,或者计算机设备中的功能模块或者功能实体实现。其中,计算机设备可以为个人计算机(personal computer,pc)、服务器、手机、平板电脑、笔记本电脑、大型计算机等,本公开实施例对此不作具体限定。
45.为了更加详细的说明说话风格生成方案,以下将以示例性的方式结合图3进行说明,可以理解的是,图3中所涉及的步骤在实际实现时可以包括更多的步骤,或者更少的步骤,并且这些步骤之间的顺序也可以不同,以能够实现本技术实施例中提供的说话风格生成方法为准。
46.图3是本公开一些实施例提供的说话风格生成方法的流程示意图,如图3所示,该方法具体包括如下步骤:
47.s101,基于多个风格特征属性拟合目标风格特征属性,确定各风格特征属性的拟合系数。
48.示例性的,采集δt时间段内用户说话时的面部拓扑结构数据序列,在面部拓扑结构数据序列中,每帧面部拓扑结构数据对应一个动态人脸拓扑结构,人脸拓扑结构中包括多个顶点,动态人脸拓扑结构中的每个顶点对应一个顶点坐标(x,y,z)。用户在不说话时,对应一个预设的静态人脸拓扑结构,静态人脸拓扑结构中的每个顶点的顶点坐标为(x’,y’,z’),如此,基于同一顶点在动态人脸拓扑结构中顶点坐标和在静态人脸拓扑结构中的顶点坐标的差值,可以确定每个动态人脸拓扑结构中每个顶点的顶点偏移量(δx,δy,δz),即δx=x-x’,δy=y-y’,δz=z-z’。基于面部拓扑结构数据序列对应的所有动态人脸拓扑结构中每个顶点的顶点偏移量(δx,δy,δz),可以确定动态人脸拓扑结构中每个顶点的平均顶点偏移量
49.图4为本公开实施例提供的一种面部拓扑结构数据划分区域的示意图,如图4所示,可以将面部拓扑结构数据为多个区域,例如,可以将面部拓扑结构数据划分为三个区域,分别为s1、s2和s3,其中,s1为眼睛下边缘之上的所有面部区域,s2为眼睛下边缘至上嘴唇的上边缘的面部区域,s3为上嘴唇的上边缘至下巴的面部区域。在上述实施例的基础上,可以确定出区域s1内的动态人脸拓扑结构的所有顶点的平均顶点偏移量的平均值区域s2内的动态人脸拓扑结构的所有顶点的平均顶点偏移量移量的平均值区域s3内的动态人脸拓扑结构的所有顶点平均顶点偏移量的平均值可以得到风格特征属性,即为属性,即为综上所述,针对一个用户可以得到一个风格特征属性,如此,基于多个用户则可以得到多个风格特征属性。
50.根据获取到的多个风格特征属性,可以拟合形成一个新的风格特征属性,即目标
风格特征属性。例如,可以基于如下公式,拟合得到目标风格特征属性:
[0051][0052]
其中,为目标特征属性,属性,为用户1的风格特征属性,1的风格特征属性,为用户2的风格特征属性,为用户2的风格特征属性,为用户n的风格特征属性,a1为用户1的风格特征属性的拟合系数,a2为用户2的风格特征属性的拟合系数,an为用户n的风格特征属性的拟合系数,n为用户数量,a1+a2+
…
+an=1。
[0053]
基于上述公式,可以采用最优化方法,例如,梯度下降法、高斯牛顿法等,得到每个风格特征属性的拟合系数。
[0054]
需要说明的是,本实施例仅以将面部拓扑结构数据划分为三个区域为例进行实例性说明,并不作为对面部拓扑结构数据区域划分的具体限制。
[0055]
s102,根据所述各风格特征属性的拟合系数和多个风格特征向量,确定目标风格特征向量。
[0056]
所述多个风格特征向量与所述多个风格特征属性一一对应。
[0057]
示例性的,风格特征向量为风格的表征,可以基于分类任务模型,将训练分类任务模型得到的embedding作为风格特征向量,或者,可以直接设计one-hot特征向量为风格特征向量。例如,3个用户对应3个风格特征属性为one-hot特征向量,则3个风格特征向量可以是[1;0;0]、[0;1;0]和[0;0;1]。
[0058]
在上述实施例的基础上,获取n个不同说话风格的用户的风格特征属性,相应的,可以得到n个用户的风格特征向量,这n个风格特征属性与n个风格特征向量一一对应,n个风格特征属性与各自对应的风格特征向量组成风格基本特征基。基于n个风格特征属性各自的拟合系数与对应的风格特征向量相乘,可以将目标风格特征向量以风格基本特征基的形式进行表示,如下公式:
[0059]
p=a1
×
f1+a2
×
f2+
…
+an
×
fn
ꢀꢀ
(2)
[0060]
其中,f1为用户1的风格特征向量,f2为用户2的风格特征向量,fn为用户n的风格特征向量,p为目标风格特征向量。
[0061]
例如,风格特征向量为one-hot特征向量,可以将目标风格特征向量p表示为:
[0062][0063]
s103,将所述目标风格特征向量输入至说话风格模型中,输出目标说话风格参数。
[0064]
所述说话风格模型是基于所述多个风格特征向量训练说话风格模型的框架得到的。
[0065]
示例性的,根据风格基本特征基中的多个风格特征向量,训练说话风格模型的框架,得到训练好的说话风格模型的框架,即说话风格模型。将目标风格特征向量输入至说话风格模型中,可以理解为将多个风格特征向量和各自拟合系数的乘积输入至说话风格模型中,这与训练说话风格模型的框架时输入的训练样本相同。故而,基于说话风格模型,将目标风格特征向量作为输入,可以直接输出得到目标说话风格参数。
[0066]
目标说话风格参数可以是动态人脸拓扑结构中的各顶点与静态人脸拓扑结构中对应顶点的顶点偏移量;或者,可以是动态人脸拓扑结构的表情基的系数,或者还可以是其他参数,本公开对此不作具体限制。
[0067]
s104,基于所述目标说话风格参数,生成目标说话风格。
[0068]
示例性的,目标说话风格参数为动态人脸拓扑结构中的各顶点与静态人脸拓扑结构中对应顶点的顶点偏移量,如此,在静态人脸拓扑结构的基础上,基于各顶点的顶点偏移量,驱动静态人脸拓扑结构的各顶点移动至对相应的位置,则可以得到目标说话风格。
[0069]
在本公开实施例中,通过基于多个风格特征属性拟合目标风格特征属性,确定各风格特征属性的拟合系数;根据各风格特征属性的拟合系数和多个风格特征向量,确定目标风格特征向量,多个风格特征向量与多个风格特征属性一一对应;将目标风格特征向量输入至说话风格模型中,输出目标说话风格参数,说话风格模型是基于多个风格特征向量训练说话风格模型的框架得到的;基于目标说话风格参数,生成目标说话风格,如此,可以将目标风格特征向量用多个风格特征向量来拟合,由于说话模型是基于多个风格特征向量训练得到的,因此,将多个风格特征向量拟合的目标风格特征向量输入至说话模型中可以直接得到相应的新的说话风格,无需针对说话风格模型重新训练,可实现说话风格的快速迁移,提升说话风格的生成效率。
[0070]
图5是本公开一些实施例提供的说话风格生成方法的流程示意图,图5为如图3所示实施例的基础上,执行s101之前还包括:
[0071]
s201,采集多个预设用户朗读多段语音时的多帧面部拓扑结构数据。
[0072]
示例性的,选取不同说话风格的用户作为预设用户,同时还选取多段语音,每个预设用户朗读每段语音时采集该预设用户的多帧面部拓扑结构数据。例如,语音1的时长为t1,采集面部拓扑结构数据的频率为30帧/秒,如此,预设用户1朗读完每段语音1后,可以采集到t1*30帧面部拓扑结构数据。
[0073]
s202,针对每个预设用户:根据所述多段语音对应的所述多帧面部拓扑结构数据各自的说话风格参数和面部拓扑结构数据的划分区域,确定各划分区域内的所述多帧面部拓扑结构数据的所述说话风格参数的平均值。
[0074]
示例性的,基于上述实施例,针对预设用户1,预设用户1朗读完m段语音后,可以采
集到t1*30*m帧面部拓扑结构数据。可以将每帧面部拓扑结构数据中的动态人脸拓扑结构的各顶点和静态人脸拓扑结构的各顶点的顶点偏移量(δx,δy,δz),作为每帧面部拓扑结构数据的说话风格参数,基于预设用户1的t1*30*m帧面部拓扑结构数据对应的所有动态人脸拓扑结构的每个顶点的顶点偏移量(δx,δy,δz),可以确定预设用户1的面部拓扑结构数据中动态人脸拓扑结构的每个顶点的平均顶点偏移量
[0075]
基于面部拓扑结构数据的划分区域,针对预设用户1的每个划分区域,可以得到划分区域内的面部拓扑结构数据中动态人脸拓扑结构的所有顶点的平均顶点偏移量的平均值。例如,面部拓扑结构数据划分为三个区域,其中,区域s1内的面部拓扑结构数据中动态人脸拓扑结构的所有顶点的平均顶点偏移量的平均值为部拓扑结构数据中动态人脸拓扑结构的所有顶点的平均顶点偏移量的平均值为区域s2内的面部拓扑结构数据中动态人脸拓扑结构的所有顶点的平均顶点偏移量的平均值为区域s3内的面部拓扑结构数据中动态人脸拓扑结构的所有顶点的平均顶点偏移量的平均值为
[0076]
s203,将所述各划分区域内的所述多帧面部拓扑结构数据的所述说话风格参数的平均值按照预设顺序拼接,得到所述每个预设用户的风格特征属性。
[0077]
示例性的,预设顺序可以是按照如图4所示的从上到下的顺序,或者,可以是按照如图4所示的从下到上的顺序,本公开对此不做具体限制。若预设顺序为如图4所示的从上到下的顺序,基于上述实施例,可以按照区域s1、s2和s3的顺序拼接各自区域对应的面部拓扑结构数据中动态人脸拓扑结构的所有顶点的平均顶点偏移量的平均值,如此,可以得到预设用户1的风格特征属性,即预设用户1的风格特征属性,即
[0078]
综上所述,针对预设用户1可以得到风格特征属性综上所述,针对预设用户1可以得到风格特征属性如此,针对多个预设用户,可以得到多个风格特征属性。
[0079]
图6是本公开一些实施例提供的说话风格生成方法的流程示意图,图6为如图5所示实施例的基础上,执行s101之前还包括:
[0080]
s301,采集目标用户朗读所述多段语音时的多帧目标面部拓扑结构数据。
[0081]
所述目标用户与所述多个预设用户为不同的用户。
[0082]
示例性的,当前需要生成与多个预设用户的说话风格不同的目标说话风格时,采集目标说话风格对应的目标用户朗读多段语音时的多帧目标面部拓扑结构数据,且目标用户朗读的多段语音的内容与多个预设朗读的多段语音的内容相同。例如,目标用户朗读m段时长为t1的语音后,可以得到的t1*30*m帧目标面部拓扑结构数据。
[0083]
s302,根据所述多段语音对应的所述多帧目标面部拓扑结构数据各自的说话风格参数和所述面部拓扑结构数据的划分区域,确定所述各划分区域内的所述多帧目标面部拓扑结构数据的所述说话风格参数的平均值。
[0084]
可以将每帧目标面部拓扑结构数据中的动态人脸拓扑结构的各顶点和静态人脸
拓扑结构的各顶点的顶点偏移量(δx’,δy’,δz’),作为每帧目标面部拓扑结构数据的说话风格参数,基于目标用户的t1*30*m帧目标面部拓扑结构数据中的所有动态人脸拓扑结构的每个顶点的顶点偏移量(δx’,δy’,δz’),可以确定目标用户的目标面部拓扑结构数据中动态人脸拓扑结构的每个顶点的平均顶点偏移量据中动态人脸拓扑结构的每个顶点的平均顶点偏移量
[0085]
基于上述面部拓扑结构数据的划分区域,针对目标用户的每个划分区域,可以得到划分区域内的目标面部拓扑结构数据中动态人脸拓扑结构的所有顶点的平均顶点偏移量的平均值。例如,面部拓扑结构数据划分为三个区域,其中,区域s1内的目标面部拓扑结构数据中动态人脸拓扑结构的所有顶点的平均顶点偏移量的平均值为区域s2内的目标面部拓扑结构数据中动态人脸拓扑结构的所有顶点的平均顶点偏移量的平均值为顶点的平均顶点偏移量的平均值为区域s3内的目标面部拓扑结构数据中动态人脸拓扑结构的所有顶点的平均顶点偏移量的平均值为
[0086]
s303,将所述各划分区域内的所述多帧目标面部拓扑结构数据的所述说话风格参数的平均值按照所述预设顺序拼接,得到所述目标风格特征属性。
[0087]
示例性的,基于与上述实施例中相同的预设顺序,拼接目标面部拓扑结构数据中动态人脸拓扑结构的所有顶点的平均顶点偏移量的平均值,例如,基于如图4所示的从上到下的顺序,可以按照区域s1、s2和s3的顺序拼接各自区域对应的目标面部拓扑结构数据中动态人脸拓扑结构的所有顶点的平均顶点偏移量的平均值,可以得到目标用户的目标风格特征属性,即特征属性,即
[0088]
需要说明的是,可以先执行如图5所示的s201-s203,再执行如图6所示的s301-s303;或者,可以先执行如图6所示的s301-s303,再执行如图5所示的s201-s203,本公开对此不做具体限制。
[0089]
图7是本公开一些实施例提供的说话风格生成方法的流程示意图,图7为如图5和图4所示实施例的基础上,执行s103之前还包括:
[0090]
s401,获取训练样本集。
[0091]
所述训练样本集包括输入样本集和输出样本集,输入样本包括语音特征及其对应的所述多个风格特征向量,输出样本包括所述说话风格参数。
[0092]
预设用户在朗读语音时,可以提取语音信息的内在特征,主要是提取能表达语音内容的特征,例如,可以提取语音梅尔普特征作为语音特征,或者,可以使用行业内常用的语音特征提取模型来提取语音特征,或者,还可以基于设计好的深度网络模型提取语音特征等。基于语音特征的提取效率,在预设用户朗读完多段语音后,可以提取到语音特征序列,多个预设用户朗读的多段语音的内容完全相同,则针对不同预设用户可以提取到相同的语音特征序列。如此,针对语音特征序列中的同一语音特征,对应有多个预设用户的多个风格特征向量,可以将一个语音特征及其对应的多个风格特征向量作为输入样本,基于语音特征序列的所有语音特征,可以得到多个输入样本,即得到输入样本集。
[0093]
示例性的,提取每个语音特征的同时,可以采集到相应的面部拓扑结构数据,基于面部拓扑结构数据中动态人脸拓扑结构的所有顶点各自的顶点坐标,可以得到面部拓扑结
构数据中动态人脸拓扑结构的所有顶点各自的顶点偏移量。将面部拓扑结构数据中动态人脸拓扑结构的所有顶点各自的顶点偏移量作为一组说话风格参数,一组说话风格参数即为一个输出样本,如此,基于语音特征序列对应的多帧面部拓扑结构数据,可以得到多个输出样本,即输出样本集,输入样本集和输出样本集则构成了训练说话风格生成模型的训练样本集。
[0094]
s402,定义所述说话风格模型的框架。
[0095]
所述说话风格模型的框架包括线性组合单元和网络模型,所述线性组合单元用于生成所述多个风格特征向量的线性组合风格特征向量,生成多个输出样本的线性组合输出样本,所述输入样本与所述输出样本一一对应;所述网络模型用于根据所述线性组合风格特征向量,生成对应的预测输出样本。
[0096]
图8为本公开一些实施例提供的说话风格模型的框架的结构示意图,如图8所示,说话风格模型的框架包括线性组合单元310和网络模型320,线性组合单元310的输入端用于接收训练样本,线性组合310的输出端与网络模型320的输入端连接,网络模型320的输出端即为说话风格模型的框架300的输出端。
[0097]
训练样本输入至线性组合单元310后,训练样本包括输入样本和输出样本,其中,输入样本包括语音特征及其对应的多个风格特征向量,线性组合单元310可以将多个风格特征向量进行线性组合,得到线性组合风格特征向量,还可以将多个风格特征向量各自对应的说话风格参数的进行线性组合,得到线性组合输出样本。线性组合单元310可以输出语音特征及其对应的线性组合风格特征向量,即线性组合输入样本,同时还可以输出相应的线性组合输出样本。将线性组合训练样本输入至网络模型320,线性组合训练样本包括线性组合输入样本和线性组合输出样本,基于线性组合训练样本,对网络模型320进行训练。
[0098]
s403,根据所述训练样本集和损失函数,训练所述说话风格模型的框架,得到所述说话风格模型。
[0099]
基于上述实施例,将训练样本集中的训练样本输入至说话风格模型的框架,说话风格模型的框架可以输出预测输出样本,损失函数用于确定预测输出样本和输出样本的损失值,基于损失值减小的方向,调整说话风格模型的框架的模型参数,自此完成一次迭代训练。如此,基于多次迭代训练说话风格模型的框架,可以得到训练好的训练说话风格模型的框架,即说话风格模型。
[0100]
本实施例中,通过获取训练样本集,训练样本集包括输入样本集和输出样本集,输入样本包括语音特征及其对应的多个风格特征向量,输出样本包括说话风格参数;定义说话风格模型的框架,说话风格模型的框架包括线性组合单元和网络模型,线性组合单元用于生成多个风格特征向量的线性组合风格特征向量,生成多个输出样本的线性组合输出样本,输入样本与输出样本一一对应;网络模型用于根据线性组合风格特征向量,生成对应的预测输出样本;根据训练样本集和损失函数,训练说话风格模型的框架,得到说话风格模型,如此,说话风格模型实质是基于多个风格特征向量的线性组合风格特征向量训练网络模型得到的,可以提升网络模型的训练样本的多样性,能够提升说话风格模型的通用性。
[0101]
图9是本公开一些实施例提供的说话风格生成方法的流程示意图,图9为图7所示实施例的基础上,执行s403时的一种可能的实现方式的具体描述,如下:
[0102]
s501,将所述训练样本集输入至所述线性组合单元,基于所述多个风格特征向量
及其各自的权重值,生成所述线性组合风格特征向量,基于所述多个风格特征向量各自的权重值和所述多个输出样本,生成所述线性组合输出样本。
[0103]
所述多个风格特征向量各自的权重值的和值为1。
[0104]
示例性的,训练样本输入至线性组合单元后,基于线性组合单元,可以对多个风格特征向量分别赋予权重值,且多个风格特征向量各自的权重值的和值为1,将多个风格特征向量中各风格特征向量与对应的权重值的乘积进行相加,可以得到线性组合风格特征向量。每个风格特征向量对应一个输出样本,将多个风格特征向量各自的权重值与对应的输出样本的乘积进行相加,可以得到线性组合输出样本。如此,基于不同的权重值,可以得到不同的线性组合风格特征向量以及不同的线性组合输出样本,基于多个语音特征及其各自对应的线性组合风格特征向量,可以得到线性组合输入样本集,基于多个语音特征各自对应的输出样本,可以得到线性组合输出样本集。
[0105]
s502,根据所述损失函数和线性组合训练样本集,训练所述网络模型,得到所述说话风格模型。
[0106]
所述线性组合训练样本集包括线性组合输入样本集和线性组合输出样本集,线性组合输入样本包括所述语音特征及其对应的所述线性组合风格特征向量。
[0107]
示例性的,线性组合训练样本集包括线性组合输入样本集和线性组合输出样本集,将线性组合训练样本输入至网络模型,基于网络模型和线性组合输入样本,可以得到预测输出样本,基于损失函数的损失值减小的方向,调整网络模型的模型参数,自此完成一次网络模型的迭代训练。如此,基于网络模型的多次迭代训练,可以得到训练好的训练说话风格模型的框架,即说话风格模型。
[0108]
本实施例中,通过将训练样本集输入至线性组合单元,基于多个风格特征向量及其各自的权重值,生成线性组合风格特征向量,基于多个风格特征向量各自的权重值和多个输出样本,生成线性组合输出样本,多个风格特征向量各自的权重值的和值为1;根据损失函数和线性组合训练样本集,训练网络模型,得到说话风格模型,线性组合训练样本集包括线性组合输入样本集和线性组合输出样本集,线性组合输入样本包括语音特征及其对应的线性组合风格特征向量,可以将线性组合后的训练样本作为网络模型的训练样本,能够提升网络模型训练样本的数量以及多样性,能够提升说话风格模型的通用性和准确性。
[0109]
一些本公开的实施例中,图10为本公开实施例提供的另一种说话风格生成模型的框架的结构示意图,如图10所示,在图8所示实施例的基础上,说话风格模型的框架还包括缩放单元330。缩放单元330的输入端用于接收训练样本,缩放单元330的输出端与线性组合单元310的输入端连接,缩放单元330用于基于随机产生的缩放因子对多个风格特征向量和多个输出样本各自进行缩放,得到多个缩放风格特征向量和多个缩放输出样本,并输出缩放训练样本,缩放训练样本包括多个缩放风格特征向量及其各自对应的缩放训练样本。缩放因子可以是0.5-2,缩放因子的精确到达到小数点后一位。
[0110]
缩放训练样本输入至线性组合单元310,基于线性组合单元310可以将多个缩放风格特征向量进行线性组合,得到线性组合风格特征向量,还可以将多个缩放风格特征向量各自对应的缩放输出样本的进行线性组合,得到线性组合输出样本。线性组合单元310可以输出语音特征及其对应的线性组合风格特征向量,即线性组合输入样本,同时还可以输出相应的线性组合输出样本。将线性组合训练样本输入至网络模型320,线性组合训练样本包
括线性组合输入样本和线性组合输出样本,基于线性组合训练样本,对网络模型320进行训练。
[0111]
图11是本公开一些实施例提供的说话风格生成方法的流程示意图,图11为图7所示实施例的基础上,执行s403时的另一种可能的实现方式的具体描述,如下:
[0112]
s5011,将所述训练样本集输入至所述缩放单元,基于缩放因子和所述多个风格特征向量,生成多个缩放风格特征向量,基于所述缩放因子和所述多个输出样本,生成多个缩放输出样本。
[0113]
示例性的,训练样本输入至缩放单元后,基于缩放单元,能够以随机缩放因子对多个风格特征向量分别进行缩放处理,可以得到多个缩放风格特征向量。每个风格特征向量对应一个输出样本,基于多个风格特征向量各自的缩放因子缩放对应的输出样本,可以得到多个缩放输出样本。如此,基于多个语音特征及其各自对应的多个缩放风格特征向量,可以得到缩放输入样本集,基于多个语音特征各自对应的缩放输出样本,可以得到缩放输出样本集。
[0114]
s5012,将所述多个缩放风格特征向量和所述多个缩放输出样本输入至所述线性组合单元,基于所述多个缩放风格特征向量及其各自的权重值,生成所述线性组合风格特征向量,基于所述多个缩放风格特征向量各自的权重值和所述多个缩放输出样本,生成所述线性组合输出样本。
[0115]
所述多个缩放风格特征向量各自的权重值的和值为1。
[0116]
示例性的,缩放训练样本集包括缩放输入样本集和缩放输出样本集,将缩放训练样本集输入至线性组合单元,基于线性组合单元,可以对多个缩放风格特征向量分别赋予权重值,且多个缩放风格特征向量各自的权重值的和值为1,将多个缩放风格特征向量中各缩放风格特征向量与对应的权重值的乘积进行相加,可以得到线性组合风格特征向量。每个缩放风格特征向量对应一个缩放输出样本,将多个缩放风格特征向量各自的权重值与对应的缩放输出样本的乘积进行相加,可以得到线性组合输出样本。如此,基于不同的权重值,可以得到不同的线性组合风格特征向量以及不同的线性组合输出样本,基于多个语音特征及其各自对应的线性组合风格特征向量,可以得到线性组合输入样本集,基于多个语音特征各自对应的缩放输出样本,可以得到线性组合输出样本集。
[0117]
s502,根据所述损失函数和线性组合训练样本集,训练所述网络模型,得到所述说话风格模型。
[0118]
所述线性组合训练样本集包括线性组合输入样本集和线性组合输出样本集,线性组合输入样本包括所述语音特征及其对应的所述线性组合风格特征向量。
[0119]
示例性的,线性组合训练样本集包括线性组合输入样本集和线性组合输出样本集,将线性组合训练样本输入至网络模型,基于网络模型和线性组合输入样本,可以得到预测输出样本,基于损失函数的损失值减小的方向,调整网络模型的模型参数,自此完成一次网络模型的迭代训练。如此,基于网络模型的多次迭代训练,可以得到训练好的训练说话风格模型的框架,即说话风格模型。
[0120]
本实施例中,通过说话风格模型的框架还包括缩放单元;将训练样本集输入至缩放单元,基于缩放因子和多个风格特征向量,生成多个缩放风格特征向量,基于缩放因子和多个输出样本,生成多个缩放输出样本;将多个缩放风格特征向量和多个缩放输出样本输
入至线性组合单元,基于多个缩放风格特征向量及其各自的权重值,生成线性组合风格特征向量,基于多个缩放风格特征向量各自的权重值和多个缩放输出样本,生成线性组合输出样本,多个缩放风格特征向量各自的权重值的和值为1;根据损失函数和线性组合训练样本集,训练网络模型,得到说话风格模型,线性组合训练样本集包括线性组合输入样本集和线性组合输出样本集,线性组合输入样本包括语音特征及其对应的线性组合风格特征向量,如此,将缩放后的多个风格特征向量作为网络模型的训练样本,能够提升网络模型训练样本的数量以及多样性,从而能够提升说话风格模型的通用性和准确性。
[0121]
一些本公开的实施例中,图12a为本公开一些实施例提供的说话风格生成模型的框架的结构示意图,图12b为本公开一些实施例提供的说话风格生成模型的框架的结构示意图,图12a为图8所示实施例的基础上,图12b为图10所示实施例的基础上,网络模型320包括一级网络模型321、二级网络模型322和叠加单元323,一级网络模型321的输出端和二级网络模型322的输出端均与叠加单元323的输入端连接,叠加单元323的输出端用于输出预测输出样本。损失函数包括第一损失函数和第二损失函数。
[0122]
线性组合训练样本分别输入至一级网络模型321和二级网络模型322,可以基于一级网络模型321输出一级预测输出样本,基于二级网络模型322输出二级预测输出样本,一级预测输出样本和二级预测输出样本输入至叠加单元323,基于叠加单元323将一级预测输出样本与二级预测输出样本进行叠加,得到预测输出样本。一级网络模型321可以包括卷积网络和全连接网络,其作用为提取语音与面部拓扑结构数据的单帧对应性,二级网络模型322可以是序列到序列seq2seq网络模型,例如,可以是长短期记忆(long short-term memory,lstm)网络模型、门控循环单元(gate recurrent unit,gru)网络模型或transformer网络模型,其作用为增强语音特征与面部表情连续性和说话风格的细腻性。
[0123]
示例性的,损失函数l=b1*l1+b2*l2,其中,l1为第一损失函数,用于确定一级预测输出样本和线性组合输出样本的损失值,l2为第二损失函数,用于确定二级预测输出样本和线性组合输出样本的损失值,b1为第一损失函数的权值,b2为第二损失函数的权值,b1和b2是可调节的。通过将b2设置为趋近于0,可以对一级网络模型321进行训练,通过将b1设置为趋近于0,可以对二级网络模型322进行训练。如此,可以实现分阶段单独训练一级网络模型和二级网络模型,能够提升网络模型训练的收敛速度,节省网络模型的训练时间,从而能够提升说话风格的生成效率。
[0124]
图13是本公开一些实施例提供的说话风格生成方法的流程示意图,图13为图9或图11所示实施例的基础上,执行s502时的一种可能的实现方式的具体描述,如下:
[0125]
s5021,根据所述线性组合训练样本集和所述第一损失函数,训练所述一级网络模型,得到中间说话风格模型。
[0126]
所述中间说话风格模型包括所述二级网络模型和训练好的所述一级网络模型。
[0127]
示例性的,基于上述实施例,第一阶段,将第二损失函数的权值b2设置为趋近于0,当前网络模型的损失函数可以理解为第一损失函数,将线性组合训练样本分别输入至一级网络模型和二级网络模型中。基于叠加单元输出的预测输出样本、第一损失函数和相应的线性组合输出样本,可以得到第一损失值,基于第一损失值减小的方向调整一级网络模型的模型参数,直至第一损失值收敛,得到训练好的一级网络模型,第一阶段训练好的说话风格模型的框架即为中间说话风格模型。
[0128]
s5022,固定所述训练好的所述一级网络模型的模型参数。
[0129]
示例性的,训练好一级网络模型之后,进入第二阶段,首先需要固定训练好的一级网络模型的模型参数。
[0130]
s5023,根据所述线性组合训练样本集和所述第二损失函数,训练所述中间说话风格模型中的所述二级网络模型,得到所述说话风格模型。
[0131]
所述说话风格模型包括所述训练好的所述一级网络和训练好的所述二级网络。
[0132]
其次,将第一损失函数的权值b1设置为趋近于0,当前网络模型的损失函数可以理解为第二损失函数,将线性组合训练样本输入至二级网络模型和训练好的一级网络模型中。基于叠加单元输出的预测输出样本、第二损失函数和相应的线性组合输出样本,可以得到第二损失值,基于第二损失值减小的方向调整二级网络模型的模型参数,直至第二损失值收敛,得到训练好的二级网络模型,第一阶段训练好说话风格模型的框架即为说话风格模型。
[0133]
本实施例中,通过网络模型包括一级网络模型、二级网络模型和叠加单元,一级网络模型的输出端和二级网络模型的输出端均与叠加单元的输入端连接,叠加单元的输出端用于输出预测输出样本;损失函数包括第一损失函数和第二损失函数;根据线性组合训练样本集和第一损失函数,训练一级网络模型,得到中间说话风格模型,中间说话风格模型包括二级网络模型和训练好的一级网络模型;固定训练好的一级网络模型的模型参数;根据线性组合训练样本集和第二损失函数,训练中间说话风格模型中的二级网络模型,得到说话风格模型,说话风格模型包括训练好的一级网络和训练好的二级网络,如此,可以分阶段对网络模型进行训练,能够提升网络模型的收敛速度,即缩短网络模型的训练时间,从而能够提升说话风格的生成效率。
[0134]
图14为本公开一些实施例提供的说话风格生成装置的结构示意图。该装置配置于计算机设备中,可实现本技术任意实施例所述的说话风格生成方法。该装置具体包括如下:
[0135]
确定模块410,用于基于多个风格特征属性拟合目标风格特征属性,确定各风格特征属性的拟合系数;根据所述各风格特征属性的拟合系数和多个风格特征向量,确定目标风格特征向量,所述多个风格特征向量与所述多个风格特征属性一一对应;将所述目标风格特征向量输入至说话风格模型中,输出目标说话风格参数,所述说话风格模型是基于所述多个风格特征向量训练说话风格模型的框架得到的。
[0136]
生成模块420,用于基于所述目标说话风格参数,生成目标说话风格。
[0137]
作为本公开实施例一种可选的实施方式,图15为本公开一些实施例提供的说话风格生成装置的结构示意图,图15为图14所示实施例的基础上,说话风格生成装置还包括:
[0138]
采集模块430,用于采集多个预设用户朗读多段语音时的多帧面部拓扑结构数据。
[0139]
确定模块410,进一步用于针对每个预设用户:根据所述多段语音对应的所述多帧面部拓扑结构数据各自的说话风格参数和面部拓扑结构数据的划分区域,确定各划分区域内的所述多帧面部拓扑结构数据的所述说话风格参数的平均值;将所述各划分区域内的所述多帧面部拓扑结构数据的所述说话风格参数的平均值按照预设顺序拼接,得到所述每个预设用户的风格特征属性。
[0140]
作为本公开实施例一种可选的实施方式,在上述实施例的基础上,采集模块430,进一步用于采集目标用户朗读所述多段语音时的多帧目标面部拓扑结构数据,所述目标用
户与所述多个预设用户为不同的用户。
[0141]
确定模块410,进一步用于根据所述多段语音对应的所述多帧目标面部拓扑结构数据各自的说话风格参数和所述面部拓扑结构数据的划分区域,确定所述各划分区域内的所述多帧目标面部拓扑结构数据的所述说话风格参数的平均值;将所述各划分区域内的所述多帧目标面部拓扑结构数据的所述说话风格参数的平均值按照所述预设顺序拼接,得到所述目标风格特征属性。
[0142]
作为本公开实施例一种可选的实施方式,图16为本公开一些实施例提供的说话风格生成装置的结构示意图,图16为图15所示实施例的基础上,说话风格生成装置还包括:
[0143]
获取模块440,用于获取训练样本集,所述训练样本集包括输入样本集和输出样本集,输入样本包括语音特征及其对应的所述多个风格特征向量,输出样本包括所述说话风格参数。
[0144]
框架定义模块450,用于定义所述说话风格模型的框架,所述说话风格模型的框架包括线性组合单元和网络模型,所述线性组合单元用于生成所述多个风格特征向量的线性组合风格特征向量,生成多个输出样本的线性组合输出样本,所述输入样本与所述输出样本一一对应;所述网络模型用于根据所述线性组合风格特征向量,生成对应的预测输出样本。
[0145]
训练模块460,用于根据所述训练样本集和损失函数,训练所述说话风格模型的框架,得到所述说话风格模型。
[0146]
作为本公开实施例一种可选的实施方式,在上述实施例的基础上,训练模块440,进一步用于将所述训练样本集输入至所述线性组合单元,基于所述多个风格特征向量及其各自的权重值,生成所述线性组合风格特征向量,基于所述多个风格特征向量各自的权重值和所述多个输出样本,生成所述线性组合输出样本,所述多个风格特征向量各自的权重值的和值为1;根据所述损失函数和线性组合训练样本集,训练所述网络模型,得到所述说话风格模型,所述线性组合训练样本集包括线性组合输入样本集和线性组合输出样本集,线性组合输入样本包括所述语音特征及其对应的所述线性组合风格特征向量。
[0147]
作为本公开实施例一种可选的实施方式,在上述实施例的基础上,所述说话风格模型的框架还包括缩放单元。
[0148]
训练模块440,进一步用于将所述训练样本集输入至所述缩放单元,基于缩放因子和所述多个风格特征向量,生成多个缩放风格特征向量,基于所述缩放因子和所述多个输出样本,生成多个缩放输出样本;将所述多个缩放风格特征向量和所述多个缩放输出样本输入至所述线性组合单元,基于所述多个缩放风格特征向量及其各自的权重值,生成所述线性组合风格特征向量,基于所述多个缩放风格特征向量各自的权重值和所述多个缩放输出样本,生成所述线性组合输出样本,所述多个缩放风格特征向量各自的权重值的和值为1;根据所述损失函数和线性组合训练样本集,训练所述网络模型,得到所述说话风格模型,所述线性组合训练样本集包括线性组合输入样本集和线性组合输出样本集,线性组合输入样本包括所述语音特征及其对应的所述线性组合风格特征向量。
[0149]
作为本公开实施例一种可选的实施方式,在上述实施例的基础上,所述网络模型包括一级网络模型、二级网络模型和叠加单元,所述一级网络模型的输出端和所述二级网络模型的输出端均与所述叠加单元的输入端连接,所述叠加单元的输出端用于输出所述预
测输出样本;所述损失函数包括第一损失函数和第二损失函数。
[0150]
训练模块440,进一步用于根据所述线性组合训练样本集和所述第一损失函数,训练所述一级网络模型,得到中间说话风格模型,所述中间说话风格模型包括所述二级网络模型和训练好的所述一级网络模型;固定所述训练好的所述一级网络模型的模型参数;根据所述线性组合训练样本集和所述第二损失函数,训练所述中间说话风格模型中的所述二级网络模型,得到所述说话风格模型,所述说话风格模型包括所述训练好的所述一级网络和训练好的所述二级网络。
[0151]
本公开实施例所提供的说话风格生成装置可执行本公开任意实施例所提供的说话风格生成方法,具备执行方法相应的功能模块和有益效果。
[0152]
本公开实施例提供一种电子设备,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现本公开任一方法实施例的步骤。
[0153]
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开任一方法实施例的步骤。
技术特征:1.一种说话风格生成方法,其特征在于,包括:基于多个风格特征属性拟合目标风格特征属性,确定各风格特征属性的拟合系数;根据所述各风格特征属性的拟合系数和多个风格特征向量,确定目标风格特征向量,所述多个风格特征向量与所述多个风格特征属性一一对应;将所述目标风格特征向量输入至说话风格模型中,输出目标说话风格参数,所述说话风格模型是基于所述多个风格特征向量训练说话风格模型的框架得到的;基于所述目标说话风格参数,生成目标说话风格。2.根据权利要求1所述的方法,其特征在于,所述基于多个风格特征属性拟合目标风格特征属性,确定各风格特征属性的拟合系数之前,还包括:采集多个预设用户朗读多段语音时的多帧面部拓扑结构数据;针对每个预设用户:根据所述多段语音对应的所述多帧面部拓扑结构数据各自的说话风格参数和面部拓扑结构数据的划分区域,确定各划分区域内的所述多帧面部拓扑结构数据的所述说话风格参数的平均值;将所述各划分区域内的所述多帧面部拓扑结构数据的所述说话风格参数的平均值按照预设顺序拼接,得到所述每个预设用户的风格特征属性。3.根据权利要求2所述的方法,其特征在于,还包括:采集目标用户朗读所述多段语音时的多帧目标面部拓扑结构数据,所述目标用户与所述多个预设用户为不同的用户;根据所述多段语音对应的所述多帧目标面部拓扑结构数据各自的说话风格参数和所述面部拓扑结构数据的划分区域,确定所述各划分区域内的所述多帧目标面部拓扑结构数据的所述说话风格参数的平均值;将所述各划分区域内的所述多帧目标面部拓扑结构数据的所述说话风格参数的平均值按照所述预设顺序拼接,得到所述目标风格特征属性。4.根据权利要求2所述的方法,其特征在于,所述将所述目标风格特征向量输入至说话风格模型中,输出目标说话风格参数之前,还包括:获取训练样本集,所述训练样本集包括输入样本集和输出样本集,输入样本包括语音特征及其对应的所述多个风格特征向量,输出样本包括所述说话风格参数;定义所述说话风格模型的框架,所述说话风格模型的框架包括线性组合单元和网络模型,所述线性组合单元用于生成所述多个风格特征向量的线性组合风格特征向量,生成多个输出样本的线性组合输出样本,所述输入样本与所述输出样本一一对应;所述网络模型用于根据所述线性组合风格特征向量,生成对应的预测输出样本;根据所述训练样本集和损失函数,训练所述说话风格模型的框架,得到所述说话风格模型。5.根据权利要求4所述的方法,其特征在于,所述根据所述训练样本集和损失函数,训练所述说话风格模型的框架,得到所述说话风格模型,包括:将所述训练样本集输入至所述线性组合单元,基于所述多个风格特征向量及其各自的权重值,生成所述线性组合风格特征向量,基于所述多个风格特征向量各自的权重值和所述多个输出样本,生成所述线性组合输出样本,所述多个风格特征向量各自的权重值的和值为1;
根据所述损失函数和线性组合训练样本集,训练所述网络模型,得到所述说话风格模型,所述线性组合训练样本集包括线性组合输入样本集和线性组合输出样本集,线性组合输入样本包括所述语音特征及其对应的所述线性组合风格特征向量。6.根据权利要求4所述的方法,其特征在于,所述说话风格模型的框架还包括缩放单元;所述根据所述训练样本集和损失函数,训练所述说话风格模型的框架,得到所述说话风格模型,包括:将所述训练样本集输入至所述缩放单元,基于缩放因子和所述多个风格特征向量,生成多个缩放风格特征向量,基于所述缩放因子和所述多个输出样本,生成多个缩放输出样本;将所述多个缩放风格特征向量和所述多个缩放输出样本输入至所述线性组合单元,基于所述多个缩放风格特征向量及其各自的权重值,生成所述线性组合风格特征向量,基于所述多个缩放风格特征向量各自的权重值和所述多个缩放输出样本,生成所述线性组合输出样本,所述多个缩放风格特征向量各自的权重值的和值为1;根据所述损失函数和线性组合训练样本集,训练所述网络模型,得到所述说话风格模型,所述线性组合训练样本集包括线性组合输入样本集和线性组合输出样本集,线性组合输入样本包括所述语音特征及其对应的所述线性组合风格特征向量。7.根据权利要求5或6所述的方法,其特征在于,所述网络模型包括一级网络模型、二级网络模型和叠加单元,所述一级网络模型的输出端和所述二级网络模型的输出端均与所述叠加单元的输入端连接,所述叠加单元的输出端用于输出所述预测输出样本;所述损失函数包括第一损失函数和第二损失函数;所述根据所述损失函数和线性组合训练样本集,训练所述网络模型,得到所述说话风格模型,包括:根据所述线性组合训练样本集和所述第一损失函数,训练所述一级网络模型,得到中间说话风格模型,所述中间说话风格模型包括所述二级网络模型和训练好的所述一级网络模型;固定所述训练好的所述一级网络模型的模型参数;根据所述线性组合训练样本集和所述第二损失函数,训练所述中间说话风格模型中的所述二级网络模型,得到所述说话风格模型,所述说话风格模型包括所述训练好的所述一级网络和训练好的所述二级网络。8.一种说话风格生成装置,其特征在于,包括:确定模块,用于基于多个风格特征属性拟合目标风格特征属性,确定各风格特征属性的拟合系数;根据所述各风格特征属性的拟合系数和多个风格特征向量,确定目标风格特征向量,所述多个风格特征向量与所述多个风格特征属性一一对应;将所述目标风格特征向量输入至说话风格模型中,输出目标说话风格参数,所述说话风格模型是基于所述多个风格特征向量训练说话风格模型的框架得到的;生成模块,用于基于所述目标说话风格参数,生成目标说话风格。9.一种电子设备,其特征在于,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
技术总结本公开涉及一种说话风格生成方法、装置、电子设备和存储介质该方法包括:基于多个风格特征属性拟合目标风格特征属性,确定各风格特征属性的拟合系数;根据所述各风格特征属性的拟合系数和多个风格特征向量,确定目标风格特征向量,所述多个风格特征向量与所述多个风格特征属性一一对应;将所述目标风格特征向量输入至说话风格模型中,输出目标说话风格参数,所述说话风格模型是基于所述多个风格特征向量训练说话风格模型的框架得到的;基于所述目标说话风格参数,生成目标说话风格。该方法能够实现说话风格的快速迁移,提升说话风格的生成效率。成效率。成效率。
技术研发人员:刘韶
受保护的技术使用者:海信视像科技股份有限公司
技术研发日:2022.06.22
技术公布日:2022/11/1