1.本技术涉及人工智能技术领域,特别涉及一种音频处理方法、装置、计算机设备、存储介质及程序产品。
背景技术:2.随着深度学习的快速发展,深度学习在各种领域中均得到了较大的应用和发展,比如,说话人识别领域,通过说话人识别模型识别音频中的说话人身份。
3.相关技术中,在进行说话人识别过程中,将不定长音频输入说话人识别模型,通过特征提取层、编码层和输出层,以提取出与说话人相关的信息的说话人特征向量,并将说话人特征向量输入说话人识别分类器中,用于识别该音频对应的说话人身份。
4.但是,随着说话人年龄的增长,同一说话人对应的说话人特征也随之发生改变,从而扩大了数据的类内差距,年龄因素也会影响到说话人身份的识别准确性。
技术实现要素:5.本技术提供了一种音频处理方法、装置、计算机设备、存储介质及程序产品。所述技术方案如下:
6.根据本技术的一个方面,提供了一种音频处理方法,所述方法包括:
7.对第一目标音频进行特征提取,得到第一目标特征图;
8.基于所述第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征,所述第一目标对象特征用于表征所述第一目标音频对应第一目标说话对象的对象信息,所述第一目标年龄特征用于表征所述第一目标说话对象的年龄信息;
9.基于所述第一目标年龄特征,从所述第一目标对象特征中分离出第一目标身份特征,所述第一目标身份特征用于表征所述第一目标说话对象的身份信息,所述对象信息中至少包含所述身份信息和所述年龄信息。
10.根据本技术的另一方面,提供了一种音频处理方法,所述方法包括:
11.通过第一特征提取网络对样本音频进行特征提取,得到第一样本特征图;
12.通过第二特征提取网络对所述第一样本特征图进行特征编码,得到样本对象特征和样本年龄特征,所述样本对象特征用于表征所述样本音频对应样本说话对象的对象信息,所述样本年龄特征用于表征所述样本说话对象的年龄信息;
13.基于所述样本年龄特征,从所述样本对象特征中分离出样本身份特征;
14.基于所述样本身份特征进行身份识别,得到样本身份标签;
15.基于所述样本年龄特征进行年龄识别,得到第一样本年龄标签;
16.基于所述样本身份标签、所述样本音频对应的标注身份标签、所述第一样本年龄标签以及所述样本音频对应的标注年龄标签,训练所述第一特征提取网络和所述第二特征提取网络。
17.根据本技术的另一方面,提供了一种音频处理装置,所述装置包括:
18.特征提取模块,用于对第一目标音频进行特征提取,得到第一目标特征图;
19.特征编码模块,用于基于所述第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征,所述第一目标对象特征用于表征所述第一目标音频对应第一目标说话对象的对象信息,所述第一目标年龄特征用于表征所述第一目标说话对象的年龄信息;
20.特征分离模块,用于基于所述第一目标年龄特征,从所述第一目标对象特征中分离出第一目标身份特征,所述第一目标身份特征用于表征所述第一目标说话对象的身份信息,所述对象信息中至少包含所述身份信息和所述年龄信息。
21.根据本技术的另一方面,提供了一种音频处理装置,所述装置包括:
22.特征提取模块,用于通过第一特征提取网络对样本音频进行特征提取,得到第一样本特征图;
23.特征编码模块,用于通过第二特征提取网络对所述第一样本特征图进行特征编码,得到样本对象特征和样本年龄特征,所述样本对象特征用于表征所述样本音频对应样本说话对象的对象信息,所述样本年龄特征用于表征所述样本说话对象的年龄信息;
24.特征分离模块,用于基于所述样本年龄特征,从所述样本对象特征中分离出样本身份特征;
25.身份识别模块,用于基于所述样本身份特征进行身份识别,得到样本身份标签;
26.年龄识别模块,用于基于所述样本年龄特征进行年龄识别,得到第一样本年龄标签;
27.训练模块,用于基于所述样本身份标签、所述样本音频对应的标注身份标签、所述第一样本年龄标签以及所述样本音频对应的标注年龄标签,训练所述第一特征提取网络和所述第二特征提取网络。
28.根据本技术的另一方面,提供了一种计算机设备,计算机设备包括:处理器和存储器,存储器存储有计算机程序,计算机程序由处理器加载并执行以实现如上述方面所述的音频处理方法。
29.根据本技术的另一方面,提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序由处理器加载并执行以实现如上所述的音频处理方法。
30.根据本技术的另一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述音频处理方法。
31.本技术实施例提供的技术方案带来的有益效果至少包括:
32.提供了一种说话对象识别方式:通过对说话对象的目标音频进行特征提取和特征编码,从目标音频中提取出说话对象对应的对象信息(对象特征)和说话对象的年龄信息(年龄特征),由于对象信息中包含有年龄信息和身份信息,因此,可以基于提取到的年龄特征,从对象特征中分离出身份特征,使得分离出的身份特征不具备年龄信息,避免了年龄信息对身份特征的影响,提高了身份特征的提取准确性;而且,在基于身份特征进行说话对象识别场景中,也可以避免年龄信息对同一说话对象识别准确性的影响,可以进一步提高说话对象的识别准确性。
附图说明
33.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.图1是相关技术中说话对象的识别框架图;
35.图2是本技术一个示例性实施例示出的说话对象识别的过程示意图;
36.图3是本技术一个示例性实施例示出的计算机系统的示意图;
37.图4示出了本技术一个示例性实施例提供的音频处理方法的流程图;
38.图5示出了本技术另一个示例性实施例提供的音频处理方法的流程图;
39.图6示出了本技术一个示例性实施例示出的模型训练的过程示意图;
40.图7示出了本技术另一个示例性实施例提供的音频处理方法的流程图;
41.图8示出了本技术另一个示例性实施例示出的模型训练的过程示意图;
42.图9示出了本技术另一个示例性实施例示出的模型训练的过程示意图;
43.图10示出了本技术另一个示例性实施例提供的音频处理方法的流程图;
44.图11示出了本技术另一个示例性实施例示出的模型训练的过程示意图;
45.图12示出了本技术另一个示例性实施例提供的音频处理方法的流程图;
46.图13示出了本技术一个示例性实施例示出的身份特征的提取过程示意图;
47.图14示出了本技术另一个示例性实施例示出的身份特征的提取过程示意图;
48.图15示出了本技术另一个示例性实施例提供的音频处理方法的流程图;
49.图16是本技术一个示例性实施例提供的音频处理装置的结构框图;
50.图17是本技术另一个示例性实施例提供的音频处理装置的结构框图;
51.图18是根据一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
52.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
53.在基于语音或音频进行说话对象识别领域中,说话对象识别的识别框架如图1所示。说话对象识别模型100由特征提取层101、特征编码层102以及输出层103以及说话人识别分类器104构成。其中,特征提取层101通过对输入音频104的频谱信号进行卷积并提取与说话人相关的信息,得到一组高维的不定长的特征图105;通过特征编码层102对特征图105进行池化操作变成定长的特征向量106;通过输出层103对特征向量106进行特征映射,输出说话人表征向量107;进而将说话人表征向量107输入说话人识别分类器104中进行说话对象预测,得到说话人预测结果108。
54.显然,相关技术中是直接基于从输入音频中提取到的说话人表征向量,进行说话对象识别,未考虑年龄信息对同一说话对象对应说话人表征向量的影响,而在不同年龄阶段同一说话者对象之间的说话人相关信息会发生改变,比如,同一说话对象在变声期前后,说话对象的音调和音色会明显不同。因此,直接使用说话人表征向量进行后续说话对象识别显然是不准确的。
55.为了提高后续说话对象识别的准确性,避免年龄信息对说话对象识别的影响,本技术中将着重介绍如何生成不包含年龄信息的说话对象表征向量,从而剔除年龄信息对说话对象识别的影响。如图2所示,其是本技术一个示例性实施例示出的说话对象识别的过程示意图。对目标音频201进行特征提取,提取与说话人相关的信息,得到目标特征图202;进一步地,基于目标特征图202进行特征编码,分别得到表征说话对象对应对象信息的对象特征203,以及表征说话对象对应年龄信息的年龄特征204;通过从对象特征203中减去年龄特征204,以得到不包含年龄信息的身份特征205,使用该身份特征205进行后续说话对象识别,可以避免年龄信息对说话对象识别准确性的影响。
56.图3是本技术一个示例性实施例示出的计算机系统的示意图。如图3所示,该计算机系统包括第一设备310和第二设备320。
57.第一设备310是训练用于提取不包含年龄信息的身份特征的特征提取网络的训练设备,在特征提取网络训练完成之后,第一设备310可以将训练完成的特征提取网络发送至第二设备320,以便在第二设备320中部署特征提取网络。第二设备320是使用特征提取网络进行身份特征提取的设备。
58.可选的,上述第一设备310和第二设备320可以是具有机器学习能力的计算机设备,比如,该计算机设备可以是终端或服务器。
59.可选的,上述第一设备310和第二设备320可以是同一个计算机设备,或者,第一设备310和第二设备320也可以是不同的计算机设备。并且,当第一设备310和第二设备320是不同的设备时,第一设备310和第二设备320可以是同一类型的设备,比如第一设备310和第二设备320可以都是服务器;或者,第一设备310和第二设备320也可以是不同类型的设备。上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、车载终端、智能电视、可穿戴设备、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
60.请参考图4,其示出了本技术一个示例性实施例提供的音频处理方法的流程图,以该方法应用于图3所示的第二设备320进行举例说明,该方法包括:
61.步骤401,对第一目标音频进行特征提取,得到第一目标特征图。
62.其中,第一目标音频是包含文字信息的音频,比如,语音、配音、歌曲等。当存在对第一目标音频中说话对象对应身份特征提取的需求时,在一种可能的实施方式中,可以通过特征提取网络对第一目标音频进行特征提取,以便从第一目标音频中提取出包含说话对象相关信息的第一目标特征图。
63.可选的,对第一目标音频进行特征提取的特征提取网络可以是:tdnn、resnet、ecapa-tdnn等常用的特征提取网络。
64.步骤402,基于第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征,第一目标对象特征用于表征第一目标音频对应第一目标说话对象的对象信息,第一目标年龄特征用于表征第一目标说话对象的年龄信息。
65.不同于相关技术中,仅对提取到的特征图进行特征编码,得到对象特征。本技术实施例中,为了避免年龄信息对于说话对象特征的影响,基于第一目标特征图进行特征编码的过程中,不仅从第一目标特征图中提取到包含全部对象信息的第一目标对象特征,还提取到包含年龄信息的第一目标年龄特征,以便后续可以从全部对象信息中去除掉年龄信息。
66.步骤403,基于第一目标年龄特征,从第一目标对象特征中分离出第一目标身份特征,第一目标身份特征用于表征第一目标说话对象的身份信息,对象信息中至少包含身份信息和年龄信息。
67.其中,对象信息中至少包含身份信息和年龄信息,而年龄信息是对象信息中会随着说话对象年龄的增长而改变的信息,为可变信息;则对应从对象信息中去除可变信息,即可以得到不随年龄增长而改变的身份信息,使得该身份信息可以唯一表征第一目标说话对象。需要说明的是,在音频处理领域,该身份信息为说话对象的音色、音调、基音频率、语速等等与音频特征相关的信息。
68.在一种可能的实施方式中,当获取到第一目标年龄特征和第一目标对象特征后,即可以从第一目标对象特征中减去第一目标年龄特征,得到第一目标身份特征,使得第一目标身份特征中不包含年龄这一可变因素,从而使得提取到的第一目标身份特征是该不受年龄因素影响的说话对象特征。
69.可选的,当获取到不受年龄因素影响的说话对象特征(第一目标身份特征)后,即可以将该第一目标身份特征应用到其他音频处理场景中,比如,直接基于该第一目标身份特征识别第一目标音频对应的第一目标说话对象;还可以通过比较两个目标音频的身份特征是否相似,以判断两个目标音频是否对应同一说话对象;还可以基于处理后的第一目标身份特征进行语音识别(语音转文字),可以避免由于年龄因素而导致的咬字不清晰问题。
70.综上所述,本技术实施例中提供了一种说话对象识别方式:通过对说话对象的目标音频进行特征提取和特征编码,从目标音频中提取出说话对象对应的对象信息(对象特征)和说话对象的年龄信息(年龄特征),由于对象信息中包含有年龄信息和身份信息,因此,可以基于提取到的年龄特征,从对象特征中分离出身份特征,使得分离出的身份特征不具备年龄信息,避免了年龄信息对身份特征的影响,提高了身份特征的提取准确性;而且,在基于身份特征进行说话对象识别场景中,也可以避免年龄信息对同一说话对象识别准确性的影响,可以进一步提高说话对象的识别准确性。
71.身份特征是通过从对象特征中分离出年龄特征后得到的,则如何准确提取年龄特征是提取身份特征的关键。下文实施例即提供了一种提取不包含年龄信息的身份特征的模型训练框架,该模型训练框架通过两个分类任务,以训练特征提取网络准确提取年龄特征和身份特征。
72.请参考图5,其示出了本技术另一个示例性实施例提供的音频处理方法的流程图,以该方法应用于图3所示的第一设备310进行举例说明,该方法包括:
73.步骤501,通过第一特征提取网络对样本音频进行特征提取,得到第一样本特征图。
74.在模型训练开始之前,需要预先准备训练样本,由于本技术实施例所提供的模型训练目的是为了可以准确提取出年龄特征和身份特征,对应该模型训练任务包括:年龄分
类任务和身份分类任务,则需要预先标注各个样本音频对应样本说话对象的标注年龄标签和标注身份标签,以便后续在模型训练过程中可以基于标注结果和预测结果进行训练。对应的训练样本集中包括若干训练样本对,每个训练样本对包括:样本音频、样本音频对应的标注身份标签以及样本音频对应的标注年龄标签。
75.可选的,由于不同说话对象对应不同的身份对象特征,因此,设置不同说话对象应对应不同标注身份标签。
76.可选的,由于同一说话对象在一段年龄时间段内的说话对象特征基本不变,也就是说,在一段年龄时间段内年龄特征是不变的,则为了符合真实应用场景中年龄特征的改变趋势,采用年龄组分类方法设置年龄标签,也即将某一段年龄设置为一个年龄标签,示意性的,可以将年龄分为7组,分别为:0-20、21-30、31-40、41-50、51-60、61-70和70-100,且每个年龄组对应一个标注年龄标签,比如,0-20对应标注年龄标签1,21-30对应标注年龄标签2、31-40对应标注年龄标签3、41-50对应标注年龄标签4、51-60对应标注年龄标签5、61-70对应标注年龄标签6、70-100对应标注年龄标签7。
77.本实施例中在提取年龄特征和身份特征过程中,主要包含两个阶段的特征提取过程,第一阶段是首先通过第一特征提取网络从样本音频中提取与说话对象相关的信息,得到第一样本特征图的过程;第二阶段是通过第二特征提取网络对第一样本特征图进行特征编码,以得到样本对象特征和样本年龄特征的过程,后续即可以基于样本对象特征和样本年龄特征,分离出样本身份特征。
78.步骤502,通过第二特征提取网络对第一样本特征图进行特征编码,得到样本对象特征和样本年龄特征,样本对象特征用于表征样本音频对应样本说话对象的对象信息,样本年龄特征用于表征样本说话对象的年龄信息。
79.在一种可能的实施方式中,设置有第二特征提取网络,从第一样本特征图中提取出包含样本说话对象对应全部对象信息的样本对象特征,以及包含样本说话对象对应年龄信息的样本年龄特征。
80.针对第二特征提取网络具体提取样本年龄特征和样本对象特征的方式,在下文实施例中进行着重描述,本实施例在此不做赘述。
81.步骤503,基于样本年龄特征,从样本对象特征中分离出样本身份特征。
82.其中,样本身份特征、样本年龄特征和样本对象特征之间的关系可以如公式(1)所示:
83.样本身份特征=样本对象特征-样本年龄特征
ꢀꢀ
(1)
84.由公式(1)可知,为了获取不包含年龄信息的说话对象特征,可以从样本对象特征中减去样本年龄特征,即可以得到不包含年龄信息的样本身份特征。
85.需要说明的是,为了可以实现相减操作,则需要保证提取出的样本对象特征和样本年龄特征是相同维度的特征向量。
86.步骤504,基于样本身份特征进行身份识别,得到样本身份标签。
87.为了评判经过上述步骤提取到的身份特征是否有效,在一种可能的实施方式中,设置有身份识别任务,基于提取到的样本身份特征进行身份识别,预测其对应的样本身份标签,使得后续可以通过比较样本身份标签和标注身份标签之间的差异,确定提取到的身份特征的有效性。
88.步骤505,基于样本年龄特征进行年龄识别,得到第一样本年龄标签。
89.由于样本身份特征的提取准确性依赖于样本年龄特征的提取准确性,则不仅需要评判身份特征是否有效,还需要评判年龄特征是否有效,因此,在一种可能的实施方式中,不仅设置有身份识别任务,还设置有年龄识别任务,基于提取到的样本年龄特征进行年龄识别,预测样本音频对应样本说话对象的第一样本年龄标签,使得后续可以通过比较第一样本年龄标签和标注年龄标签之间的差异,确定提取到的年龄特征的有效性,以间接确定提取到的身份特征是否有效。
90.需要说明的是,步骤504和步骤505可以同时执行,也可以先执行步骤504,再执行步骤505;或者先执行步骤505,再执行步骤504。本实施例对步骤504和步骤505的实施顺序不构成限定。
91.步骤506,基于样本身份标签、样本音频对应的标注身份标签、第一样本年龄标签以及样本音频对应的标注年龄标签,训练第一特征提取网络和第二特征提取网络。
92.在模型训练过程中,为了提高第一特征提取网络和第二特征提取网络的特征提取准确性,在一种可能的实施方式中,当获取到基于样本身份特征识别到的样本身份标签,以及基于样本年龄特征识别到的第一样本年龄标签后,即可以通过比较预测结果(样本身份标签和第一样本年龄标签)与标注标签(标注身份标签和标注年龄标签)之间的损失,对第一特征提取网络和第二特征提取网络进行训练,以使得第一特征提取网络和第二特征提取网络向特征提取准确性的方向学习。从而通过多轮迭代学习,使得第一特征提取网络和第二特征提取网络具备准确提取年龄特征和身份特征的能力,以便在后续应用过程中可以使用该特征提取网络进行不包含年龄信息的身份特征的提取。
93.如图6所示,其示出了本技术一个示例性实施例示出的模型训练的过程示意图。将样本音频601输入第一特征提取网络602进行特征提取,得到样本特征图603;通过第二特征提取网络604对样本特征图603进行特征编码,得到样本对象特征605和样本年龄特征606;从样本对象特征605中减去样本年龄特征606,可以得到去除年龄信息的样本身份特征607;通过对样本身份特征607进行身份识别,得到样本身份标签608;并对样本年龄特征606进行年龄识别,得到样本年龄标签609;以便根据样本身份标签608、标注身份标签610,以及样本年龄标签609和标注年龄标签611训练第一特征提取网络602和第二特征提取网络604。
94.综上所述,本技术实施例中,通过第一特征提取网络和第二特征提取网络对样本音频进行特征提取,提取出样本年龄特征和样本身份特征,并通过对样本年龄特征进行年龄识别,以及对样本身份特征进行身份识别,使用年龄识别结果和身份识别结果与标注结果训练第一特征提取网络和第二特征提取网络,使得第一特征提取网络和第二特征提取网络具备准确提取年龄特征和身份特征的能力,以便在后续应用过程中可以使用该特征提取网络进行不包含年龄信息的身份特征的提取。
95.由于第一样本特征图和样本对象特征中均包含有样本说话对象的全部对象信息,因此,在提取样本年龄特征的过程中,可以有两种特征提取方式,可以直接对第一样本特征图进行年龄特征提取,也可以从样本对象特征中提取样本年龄特征,本实施例着重描述样本年龄特征的提取过程。
96.请参考图7,其示出了本技术另一个示例性实施例提供的音频处理方法的流程图,以该方法应用于图3所示的第一设备310进行举例说明,该方法包括:
97.步骤701,通过第一特征提取网络对样本音频进行特征提取,得到第一样本特征图。
98.其中,步骤701的实施方式可以参考上文实施例,本实施例在此不做赘述。
99.步骤702,通过第一子特征提取网络对第一样本特征图进行特征编码,得到样本对象特征。
100.由于第一样本特征图中包含有说话对象对应的全部对象信息,因此,在一种可能的实施方式中,可以直接对第一样本特征图进行特征提取,以分别得到样本对象特征和样本年龄特征。
101.可选的,由于样本对象特征和样本年龄特征中所包含的信息是不同的,因此,设置有两个子特征提取网络,分别对第一样本特征图进行特征提取,对应的,第二特征提取网络中包含有第一子特征提取网络和第二子特征提取网络,其中,第一子特征提取网络用于对第一样本特征图进行特征编码,得到包含说话对象全部对象信息的样本对象特征。
102.由于第一样本特征图至样本对象特征仅是将多维特征图转变为一维特征向量的过程,对应的第一子特征提取网络对应的网络结构包括:池化层和全连接层,其中,池化层用于对第一样本特征图进行池化操作,得到特征向量,全连接层用于对特征向量进行特征映射处理,以得到样本对象特征。
103.可选的,第一子特征提取网络中的池化层可以采用全局平均池化方式,也可以采用全局最大池化方式。
104.步骤703,通过第二子特征提取网络对第一样本特征图进行年龄特征提取,得到样本年龄特征。
105.在一种可能的实施方式中,采用第二子特征提取网络对第一样本特征图进行年龄特征提取,以得到包含较多年龄信息的样本年龄特征。相比于第一子特征提取网络,第二子特征提取网络在特征提取过程中需要更关注年龄信息。
106.为了使得第二子特征提取网络可以提取出第一样本特征图中的年龄信息,则第二子特征提取网络需要具备分辨年龄特征的能力,对应在一个示例性的例子中,步骤703可以包括步骤703a~步骤703c。
107.步骤703a,通过注意力机制层对第一样本特征图进行处理,得到第二样本特征图,第二样本特征图中年龄特征的注意力分数高于非年龄特征的注意力分数。
108.与第一子特征提取网络不同的是,第二子特征提取网络包括注意力机制层、池化层和全连接层,通过增加额外的注意力机制层,可以使得第二子特征提取网络在进行特征提取过程中更关注年龄相关特征。可选的,池化层和全连接层均可以选择与第一子特征提取网络相同的池化层和全连接层;也可以选择与第一子特征提取网络不同的池化层和全连接层。
109.为了使得第二子特征提取网络具备对第一样本特征图中年龄信息的关注能力,在一种可能的实施方式中,第二子特征提取网络中设置有注意力机制层,通过注意力机制层为第一样本特征图中的不同特征分配注意力分数,且设置年龄特征的注意力分数高于非年龄特征的注意力分数,从而使得后续特征提取过程中可以更关注与年龄相关的特征;经过注意力分数处理后,可以得到第二样本特征图,第二样本特征图中的年龄特征具备更高的特征值。
110.步骤703b,通过池化层对第二样本特征图进行池化操作,得到中间样本特征。
111.在一种可能的实施方式中,当获取到第二样本特征图后,即可以通过池化层对第二样本特征图进行池化操作,将多维特征图转变为一维的中间样本特征。
112.步骤703c,通过全连接层对中间样本特征进行特征映射处理,得到样本年龄特征。
113.将池化层输出的中间样本特征输入全连接层进行特征映射处理,即可以得到包含年龄信息的样本年龄特征。
114.如图8所示,其示出了本技术另一个示例性实施例示出的模型训练的过程示意图。将样本音频801输入第一特征提取网络802进行特征提取,得到第一样本特征图803;在得到第一样本特征图803后,一方面将第一样本特征图803输入全局统计池化层804和全连接层805,输出样本对象特征806;另一方面,将第一样本特征图803输入注意力机制层807,得到第二样本特征图808;通过全局统计池化层809和全连接层810对第二样本特征图808进行特征提取,得到样本年龄特征811;从样本对象特征806中减去样本年龄特征811,可以得到去除年龄信息的样本身份特征812;通过身份分类网络对样本身份特征812进行身份识别,得到样本身份标签813;并通过第一年龄分类网络对样本年龄特征811进行年龄识别,得到样本年龄标签814;从而根据样本身份标签813和标注身份标签815确定第一分类损失,根据样本年龄标签814和标注年龄标签816确定第二分类损失,以便根据第一分类损失和第二分类损失进行模型训练。
115.步骤704,通过第三子特征提取网络对第一样本特征图进行特征编码,得到样本对象特征。
116.在另一种可能的实施方式中,可以从样本对象特征中提取年龄特征,对应第二特征提取网络可以包括第三子特征提取网络和第四子特征提取网络,其中,第三子特征提取网络用于对第一样本特征图进行特征编码,以便从第一样本特征图中提取出样本对象特征,而第四子特征提取网络用于从样本对象特征中提取出样本年龄特征。
117.可选的,第三子特征提取网络和第一子特征提取网络均是用于从第一样本特征图中提取出样本对象特征,则第三子特征提取网络的网络结构可以与第一子特征提取网络的网络结构相同。
118.步骤705,通过第四子特征提取网络对样本对象特征进行年龄特征提取,得到样本年龄特征。
119.由于样本对象特征中不仅包含有年龄信息,还包含有其他说话对象信息,因此,在一种可能的实施方式中,需要通过第四子特征提取网络对样本对象特征进行年龄特征提取,以得到包含年龄信息的样本年龄特征。
120.可选的,第四子特征提取网络的目的是为了在特征提取时更关注年龄相关特征,因此,第四子特征提取网络也可以使用注意力机制层,以便为年龄相关特征分配更高的注意力分数。
121.如图9所示,其示出了本技术另一个示例性实施例示出的模型训练的过程示意图。将样本音频901输入第一特征提取网络902进行特征提取,得到第一样本特征图903;在得到第一样本特征图903后,将第一样本特征图903输入全局统计池化层904和全连接层905,输出样本对象特征906;将样本对象特征906输入第四子特征提取网络907,得到样本年龄特征908;从样本对象特征906中减去样本年龄特征908,可以得到去除年龄信息的样本身份特征
909;通过身份分类网络对样本身份特征909进行身份识别,得到样本身份标签910;并通过第一年龄分类网络对样本年龄特征908进行年龄识别,得到样本年龄标签911;从而根据样本身份标签910和标注身份标签912确定第一分类损失,根据样本年龄标签911和标注年龄标签913确定第二分类损失,以便根据第一分类损失和第二分类损失进行模型训练。
122.步骤706,基于样本年龄特征,从样本对象特征中分离出样本身份特征。
123.步骤706的实施方式可以参考上文实施例,本实施例在此不做赘述。
124.步骤707,将样本身份特征输入身份分类网络,得到身份分类网络输出的样本身份标签。
125.为了实现对提取到的样本身份特征准确性的评判,设置有身份分类网络,将提取到的样本身份特征输入身份分类网络,由身份分类网络基于样本身份特征进行身份分类,预测出该样本身份特征对应的样本身份标签,以便后续基于该样本身份标签进行身份分类任务的损失计算。
126.在一个示例性的例子中,步骤707可以包括步骤707a和步骤707b。
127.步骤707a,通过身份分类网络,确定样本身份特征与候选身份标签对应候选身份特征之间的样本相似度。
128.针对身份分类网络预测样本身份标签的方式,在一种可能的实施方式中,若样本音频对应的样本身份特征与某个候选身份标签对应的候选身份特征比较相似,则可以确定样本音频对应的样本说话对象对应该候选身份标签,因此,身份分类网络通过确定样本身份特征与候选身份标签对应候选身份特征之间的样本相似度,进而通过样本相似度确定样本身份特征对应的样本身份标签。
129.步骤707b,将样本相似度最高的候选身份特征对应的候选身份标签,确定为样本身份标签。
130.可选的,样本相似度越高候选身份特征与样本身份特征越相似,则表示样本音频对应的样本说话对象与候选身份特征对应的候选身份标签对应,因此,在一种可能的实施方式中,可以将样本相似度最高的候选身份特征对应的候选身份标签,确定为身份分类网络基于样本身份特征的身份识别结果-样本身份标签。
131.步骤708,将样本年龄特征输入第一年龄分类网络,得到第一年龄分类网络输出的第一样本年龄标签。
132.为了实现对提取到的样本年龄特征准确性的评判,设置有第一年龄分类网络,将提取到的样本年龄特征输入第一年龄分类网络,由第一年龄网络基于样本年龄特征进行年龄分类,预测样本音频对应样本说话对象所处的年龄阶段,输出第一样本年龄标签,以便后续基于该第一样本年龄标签进行年龄分类任务的损失计算。
133.针对第一年龄分类网络预测第一样本年龄标签的过程,通过第一年龄分类网络基于样本年龄特征,预测其处于各个候选年龄标签的概率,并将概率最大的候选年龄标签确定为第一样本年龄标签。
134.步骤709,基于样本身份标签和标注身份标签,确定身份网络对应的第一分类损失。
135.为了确定样本身份特征是否准确,即需要根据身份分类网络对样本身份特征的预测结果与标注结果进行损失计算,在一种可能的实施方式中,基于预测结果样本身份标签
和标注身份标签,可以确定出身份分类网络对应的第一分类损失。该第一分类损失可以采用交叉熵损失。
136.在一个示例性的例子中,第一分类损失的计算过程可以如公式(2)所示:
[0137][0138]
其中,表示第一分类损失,l
ce
表示交叉熵损失,z
id
表示样本身份特征,c(z
id
)表示样本身份标签(即身份分类网络基于样本身份特征的预测结果),y
id
表示样本音频对应的标注身份标签,y
id
的取值可以为{0,1,2,
…
,n}。
[0139]
步骤710,基于第一样本年龄标签和标注年龄标签,确定第一年龄分类网络对应的第二分类损失。
[0140]
为了确定样本年龄特征是否准确,即需要根据第一年龄分类网络对样本年龄特征的预测结果与标注结果进行损失计算,在一种可能的实施方式中,基于预测结果样本年龄标签和标注年龄标签,可以确定出年龄分类网络对应的第二分类损失。该第二分类损失也可以采用交叉熵损失。
[0141]
在一个示例性的例子中,第二分类损失的计算过程可以如公式(3)所示:
[0142][0143]
其中,表示第二分类损失,l
ce
表示交叉熵损失,z
age
表示样本年龄特征,a(z
age
)表示第一样本年龄标签(即第一年龄分类网络基于样本年龄特征的预测结果),y
age
表示标注年龄标签,y
age
的取值可以为{0,1,2,
…
,6},表示被划分为7组年龄段。
[0144]
步骤711,基于第一分类损失和第二分类损失,训练第一特征提取网络、第二特征提取网络、第一年龄分类网络以及身份分类网络。
[0145]
为了使得模型可以学习更准确的提取出样本年龄特征和样本身份特征,在一种可能的实施方式中,当确定出第一分类损失和第二分类损失后,即可以基于第一分类损失和第二分类损失之和,共同训练第一特征提取网络、第二特征提取网络、第一年龄分类网络以及身份分类网络。
[0146]
在一个示例性的例子中,模型总损失的计算过程可以如公式(4)所示:
[0147][0148]
其中,表示模型总损失,表示第一分类损失,表示第二分类损失,λ
agw
表示第二分类损失的损失权重。
[0149]
可选的,在模型训练过程中,开发人员可以根据需求调整第一分类损失和第二分类损失之间的权重比,也即调整λ
age
。
[0150]
本实施例中,通过设置注意力机制层实现对高维特征图中年龄相关信息的捕捉,从而获取固定长度的样本年龄特征。此外,还通过设置第二分类损失(年龄分类损失)以控制提取出的样本年龄特征中包含年龄信息,通过设置第一分类损失(身份分类损失)以控制提取到的样本身份特征中包含准确的身份信息,使得训练完成的模型具备准确提取样本年龄特征和样本身份特征的能力。
[0151]
在另一种可能的应用场景中,为了进一步使得样本身份特征中不包含年龄信息,
还设置有第二年龄分类网络,用于对样本身份特征进行年龄识别,则第二年龄分类网络的损失越大,表示样本身份特征中包含的年龄信息越少,以便通过对抗学习的方式减少样本身份特征中的年龄信息。
[0152]
请参考图10,其示出了本技术另一个示例性实施例提供的音频处理方法的流程图,以该方法应用于图3所示的第一设备310进行举例说明,该方法包括:
[0153]
步骤1001,通过第一特征提取网络对样本音频进行特征提取,得到第一样本特征图。
[0154]
步骤1002,通过第二特征提取网络对第一样本特征图进行特征编码,得到样本对象特征和样本年龄特征。
[0155]
步骤1003,基于样本年龄特征,从样本对象特征中分离出样本身份特征。
[0156]
步骤1004,将样本身份特征输入身份分类网络,得到身份分类网络输出的样本身份标签。
[0157]
步骤1005,将样本年龄特征输入第一年龄分类网络,得到第一年龄分类网络输出的第一样本年龄标签。
[0158]
步骤1001~步骤1005的实施方式可以参考上文实施例,本实施例在此不做赘述。
[0159]
步骤1006,将样本身份特征输入第二年龄分类网络,得到第二年龄分类网络输出的第二样本年龄标签,第二年龄分类网络具备梯度反转层。
[0160]
为了进一步减少样本身份特征中所包含的年龄信息,在一种可能的实施方式中,通过增加一个带有梯度反转层(grl)的第二年龄分类网络,通过将样本身份特征输入第二年龄分类网络,由第二年龄分类网络进行年龄分类,得到第二年龄分类网络输出的第二样本年龄标签。
[0161]
步骤1007,基于样本身份标签和标注身份标签,确定身份网络对应的第一分类损失。
[0162]
步骤1008,基于第一样本年龄标签和标注年龄标签,确定第一年龄分类网络对应的第二分类损失。
[0163]
步骤1007和步骤1008的实施方式可以参考上文实施例,本实施例在此不做赘述。
[0164]
步骤1009,基于第二样本年龄标签和标注年龄标签,确定第二年龄分类网络对应的第三分类损失。
[0165]
通过第二年龄分类网络基于样本身份特征进行年龄识别,若样本身份特征提取较为准确,且不含有年龄信息,则第二年龄分类网络的第三分类损失越大,则通过梯度反转方式可以进一步减少样本身份特征中的年龄信息,因此,在一种可能的实施方式中,除了设置由身份分类任务、年龄分类任务之外,还设置有年龄对抗学习任务,通过基于样本身份特征确定的第二样本年龄标签与标注年龄标签,确定第二年龄分类网络对应的第三分类损失,以便实现对抗学习的目的。
[0166]
步骤1010,基于第一分类损失、第二分类损失以及第三分类损失,训练第一特征提取网络、第二特征提取网络、第一年龄分类网络、第二年龄分类网络以及身份分类网络。
[0167]
在一种可能的实施方式中,在引入年龄对象学习任务后,模型的总损失由三部分构成:第一分类损失(身份分类任务的损失)、第二分类损失(年龄分类任务的损失)以及第三分类损失(年龄对抗学习任务的损失),在模型训练过程中,可以使用第一分类损失、第二
分类损失和第三分类损失之和,训练第一特征提取网络、第二特征提取网络、第一年龄分类网络、第二年龄分类网络以及身份分类网络。
[0168]
可选的,在模型训练过程中,也可以根据训练目的需求,调整不同分类损失之间的损失比重,对应各个分类损失可以对应有不同的损失权重,在损失计算过程中,可以基于第一分类损失和第一损失权重、第二分类损失和第二损失权重,以及第三分类损失和第三损失权重,确定模型的总损失,进而根据总损失训练第一特征提取网络、第二特征提取网络、第一年龄分类网络、第二年龄分类网络以及身份分类网络。
[0169]
在一个示例性的例子中,在引入年龄对抗学习任务后,模型总损失的计算过程可以如公式(5)所示:
[0170][0171]
其中,表示模型总损失,表示第一分类损失,表示第二分类损失,λ
age
表示第二分类损失的损失权重,表示第三分类损失,λ
grl
表示第三分类损失的损失权重。
[0172]
如图11所示,其示出了本技术另一个示例性实施例示出的模型训练的过程示意图。将样本音频1101输入第一特征提取网络1102进行特征提取,得到第一样本特征图1103;在得到第一样本特征图1103后,一方面将第一样本特征图1103输入全局统计池化层1104和全连接层1105,输出样本对象特征1106;另一方面,将第一样本特征图1103输入注意力机制层1107,得到第二样本特征图1108;通过全局统计池化层1109和全连接层1110对第二样本特征图1108进行特征提取,得到样本年龄特征1111;从样本对象特征1106中减去样本年龄特征1111,可以得到去除年龄信息的样本身份特征1112;通过身份分类网络对样本身份特征1112进行身份识别,得到样本身份标签1113;通过第一年龄分类网络对样本年龄特征1111进行年龄识别,得到第一样本年龄标签1114;通过第二年龄分类网络对样本身份特征1112进行年龄识别,得到第二样本年龄标签1117;从而根据样本身份标签1113和标注身份标签1115确定第一分类损失,根据样本年龄标签1114和标注年龄标签1116确定第二分类损失,根据第二样本年龄标签1117和标注年龄标签1116确定第三分类损失,以便根据第一分类损失、第二分类损失和第三分类损失进行模型训练。
[0173]
本实施例中,通过额外增加带有梯度反转层的第二年龄分类网络,对样本身份特征进行年龄分类,从而达到损失越大,样本身份特征中包含的年龄信息越小的对抗学习目的,进一步减少样本身份特征中的年龄信息。
[0174]
为了验证本实施例训练得到的模型性能,开发人员在大数据集上进行了验证对比,利用voxceleb数据进行训练和测试的结果如表一所示。
[0175]
表一
[0176][0177]
are表示采用本实施例提出的利用attention机制在高维特征图层面操作从而捕捉年龄相关信息的特征,随后通过统计池化层和全连接层得到年龄信息向量(年龄特征),再令年龄信息向量和说话人向量(对象特征)相减得到身份特征向量的方法。adal为are模块和梯度反转层联合使用方法。结果显示,本实施例提出的are结构和adal结构在vox-e和vox-h上没有变差,在vox跨年龄测试集上性能优于baseline、grl和age residual方法,随着时间跨度的增加,提升越加明显,特别是在年龄跨度20年的测试集(vox-20)上分别有5%和10%的提升。
[0178]
由上文实施例模型训练过程中样本年龄特征的提取过程可知,样本年龄特征的提取过程包括两种:直接由第一样本特征图中提取,或由样本对象特征中提取,则在模型应用过程中,也对应包含有两种年龄特征提取方式。
[0179]
在图4的基础上,如图12所示,步骤402可以包括步骤402a和步骤402b,或步骤402可以包括步骤402c和步骤402d。
[0180]
步骤402a,对第一目标特征图进行特征编码,得到第一目标对象特征。
[0181]
经过上文实施例训练完成的模型主要包含有第一特征提取网络、第二特征提取网络、第一年龄分类网络、第二年龄分类网络以及身份分类网络。由于模型训练的目的主要是为了可以提取出不包含年龄信息的身份特征,因此,在模型应用阶段,可以仅需要部署第一特征提取网络和第二特征提取网络即可。
[0182]
在一种可能的实施方式中,将第一目标音频输入第一特征提取网络中,提取到高维的第一目标特征图,进而可以通过第二特征提取网络对第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征。
[0183]
针对不同的年龄特征提取方式,第二特征提取网络可以包括第一子特征提取网络和第二子特征提取网络,或者,第二特征提取网络可以包括第三子特征提取网络和第四子特征提取网络。
[0184]
针对第二特征提取网络包括第一子特征提取网络和第二子特征提取网络的场景,可以使用第一子特征提取网络对第一目标特征图进行特征编码,得到第一目标对象特征。
[0185]
步骤402b,对第一目标特征图进行年龄特征提取,得到第一目标年龄特征。
[0186]
同时,使用第二子特征提取网络对第一目标特征图进行年龄特征提取,得到第二目标年龄特征。
[0187]
可选的,第二子特征提取网络由注意力机制层、池化层和全连接层构成,对应在一个示例性的例子中,步骤402b可以包括步骤一~步骤三。
[0188]
步骤一、通过注意力机制层对第一目标特征图进行处理,得到第二目标特征图,第二目标特征图中年龄特征的注意力分数高于非年龄特征的注意力分数。
[0189]
在一种可能的实施方式中,输入第二子特征提取网络的第一目标特征图先经过注意力机制层处理,通过注意力机制层为第一目标特征图中的不同特征分配注意力分数,且设置年龄特征的注意力分数高于非年龄特征的注意力分数,从而使得后续特征提取过程中可以更关注与年龄相关的特征;经过注意力分数处理后,可以得到第二目标特征图,第二目标特征图中的年龄特征具备更高的特征值。
[0190]
步骤二、通过池化层对第二目标特征图进行池化操作,得到中间目标特征。
[0191]
当获取到第二目标特征图后,即可以通过池化层对第二目标特征图进行池化操作,将高维特征图转变为一维特征向量,得到中间目标特征。
[0192]
步骤三、通过全连接层对中间样本特征进行特征映射处理,得到第一目标年龄特征。
[0193]
将池化层输出的中间目标特征输入全连接层进行特征映射处理,即可以得到包含年龄信息的第一目标年龄特征。
[0194]
如图13所示,其示出了本技术一个示例性实施例示出的身份特征的提取过程示意图。将目标音频1301输入第一特征提取网络1302进行特征提取,得到第一目标特征图1303;在得到第一目标特征图1303后,一方面将第一目标特征图1303输入全局统计池化层1304和全连接层1305,输出目标对象特征1306;另一方面,将第一目标特征图1303输入注意力机制层1307,得到第二目标特征图1308;通过全局统计池化层1309和全连接层1310对第二目标特征图1308进行特征提取,得到目标年龄特征1311;从目标对象特征1306中减去目标年龄特征1311,可以得到去除年龄信息的目标身份特征1312。
[0195]
步骤402c,对第一目标特征图进行特征编码,得到第一目标对象特征。
[0196]
针对第二特征提取网络包括第三子特征提取网络和第四子特征提取网络的场景,可以使用第三子特征提取网络对第一目标特征图进行特征编码,得到第一目标对象特征。
[0197]
步骤402d,对第一目标对象特征进行年龄特征提取,得到第一目标年龄特征。
[0198]
进一步的,通过第四子特征提取网络对第一目标对象特征进行年龄特征提取,得到第一目标年龄特征。
[0199]
如图14所示,其示出了本技术另一个示例性实施例示出的身份特征的提取过程示意图。将目标音频1401输入第一特征提取网络1402进行特征提取,得到第一目标特征图1403;在得到第一目标特征图1403后,将第一目标特征图1403输入全局统计池化层1404和全连接层1405,输出目标对象特征1406;将目标对象特征1406输入第四子特征提取网络1407,得到目标年龄特征1408;从目标对象特征1406中减去目标年龄特征1408,可以得到去除年龄信息的目标身份特征1409。
[0200]
本实施例中,通过两种不同年龄特征的提取方式,从第一目标特征图中提取出第一目标年龄特征,使得后续可以基于第一目标年龄特征从第一目标对象特征中分离出第一目标身份特征,实现不包含年龄信息的身份特征的提取。
[0201]
在一种可能的应用场景中,可以使用本技术实施例提供的音频处理方法,建立身份标签和身份特征(向量)之间的关系,以构建出身份特征库,使得后续需要识别音频的说话对象时,可以通过获取音频的身份特征,与身份特征库中的身份特征进行相似度比较,从
而可以准确确定出音频对应的说话对象。
[0202]
请参考图15,其示出了本技术另一个示例性实施例提供的音频处理方法的流程图,以该方法应用于图3所示的第二设备320进行举例说明,该方法包括:
[0203]
步骤1501,对第一目标音频进行特征提取,得到第一目标特征图。
[0204]
步骤1502,基于第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征。
[0205]
步骤1503,基于第一目标年龄特征,从第一目标对象特征中分离出第一目标身份特征。
[0206]
步骤1501~步骤1503的实施方式可以参考上文实施例,本实施例在此不做赘述。
[0207]
步骤1504,获取第二目标音频对应的第二目标身份特征,第二目标身份特征用于表征第二目标音频对应第二目标说话对象的身份信息。
[0208]
在一种可能的应用场景中,可以通过比较两个目标音频对应的身份特征之间的相似度,以确定两个目标音频的说话对象是否为同一说话对象。对应分别获取第一目标音频对应的第一目标身份特征,以及第二目标音频对应的第二目标身份特征,且第二目标身份特征也不包含年龄信息。
[0209]
可选的,第二目标身份特征可以是在提取第一目标身份特征之间已经提取到的,也可以是与第一目标身份特征同时提取得到。在一个示例性的例子中,步骤1504还可以包括步骤1504a~步骤1504c。
[0210]
步骤1504a,对第二目标音频进行特征提取,得到第二目标特征图。
[0211]
步骤1504b,基于第二目标特征图进行特征编码,得到第二目标对象特征和第二目标年龄特征,第二目标对象特征用于表征第二目标说话对象的对象信息,第二目标年龄特征用于表征第二目标说话对象的年龄信息。
[0212]
步骤1504c,基于第二目标年龄特征,从第二目标对象特征中分离出第二目标身份特征。
[0213]
其中,第二目标身份特征的提取方式与第一目标身份特征的提取方式相同,对应第二目标身份特征的具体提取过程可以参考第一目标身份特征的提取过程,本实施例在此不做赘述。
[0214]
步骤1505,确定第一目标身份特征与第二目标身份特征之间的目标相似度。
[0215]
若第一目标音频对应的第一目标说话对象与第二目标音频对应的第二目标说话对象相同,则第一目标音频和第二目标音频的目标身份特征相似度越高,因此,在一种可能的实施方式中,通过确定第一目标身份特征和第二目标身份特征之间的目标相似度,确定第一目标音频和第二目标音频是否对应同一说话对象。
[0216]
确定第一目标身份特征和第二目标身份特征之间目标相似度的方式,可以直接计算第一目标身份特征和第二目标身份特征之间的余弦相似度得到。在一个示例性的例子中,目标相似度的确定过程可以表示为:
[0217]
目标相似度=z1z2/(||z1||*||z2||)
ꢀꢀ
(6)
[0218]
其中,z1表示第一目标身份特征,z2表示第二目标身份特征,可见,若第一目标身份特征和第二目标身份特征之间的差异性越小,则第一目标身份特征和第二目标身份特征之间的目标相似度越高。
[0219]
步骤1506,在目标相似度高于相似度阈值的情况下,确定第一目标说话对象与第二目标说话对象为同一说话对象。
[0220]
在一种可能的实施方式中,设置由相似度阈值,当确定第一目标身份特征和第二目标身份特征之间的目标相似度高于相似度阈值的情况下,表示第一目标身份特征和第二目标身份特征之间的差异越小,则可以确定第一目标音频对应的第一目标说话对象,与第二目标音频对应的第二目标说话对象为同一说话对象。
[0221]
其中,相似度阈值可以由用户自行设置,比如,相似度阈值为90%。
[0222]
步骤1507,在目标相似度低于相似度阈值的情况下,确定第一目标说话对象与第二目标说话对象不是同一说话对象。
[0223]
反之,若第一目标身份特征和第二目标身份特征之间的目标相似度较低,低于相似度阈值,则表示第一目标身份特征和第二目标身份特征之间的差异较大,可以进一步确定第一目标音频对应的第一目标说话对象,与第二目标音频对应的第二目标说话对象不是同一说话对象。
[0224]
本实施例中,通过比较两个目标音频对应目标身份特征之间的相似度,可以根据相似度的高低判断两个目标音频是否为同一说话对象的音频,由于目标身份特征不包含年龄信息,从而可以避免年龄信息对说话对象判断的影响,可以提高比较同一说话对象在不同年龄段的音频识别的准确性。
[0225]
在另一种可能的应用场景中,在模型应用过程中还可以部署有身份分类网络,将第一目标身份特征输入身份分类网络,通过身份分类网络对提取到的第一目标身份特征进行身份识别,得到身份分类网络输出的目标身份标签,从而基于该目标身份标签确定出目标音频对应的第一目标说话对象。
[0226]
在通过身份分类网络对第一目标身份特征进行身份识别过程中,身份分类网络通过确定第一目标身份特征与候选身份标签对应候选身份特征之间的特征相似度,从而将特征相似度最高的候选身份特征对应的候选身份标签,确定为第一目标说话对象的目标身份标签,从而识别出第一目标音频对应的第一目标说话对象。
[0227]
可选的,在其他可能的应用场景中,在模型应用过程中还可以部署年龄分类网络,通过对提取到的目标年龄特征进行年龄识别,以确定目标音频对应目标说话对象所处的目标年龄标签。
[0228]
图16是本技术一个示例性实施例提供的音频处理装置的结构框图,该装置包括:
[0229]
特征提取模块1601,用于对第一目标音频进行特征提取,得到第一目标特征图;
[0230]
特征编码模块1602,用于基于所述第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征,所述第一目标对象特征用于表征所述第一目标音频对应第一目标说话对象的对象信息,所述第一目标年龄特征用于表征所述第一目标说话对象的年龄信息;
[0231]
特征分离模块1603,用于基于所述第一目标年龄特征,从所述第一目标对象特征中分离出第一目标身份特征,所述第一目标身份特征用于表征所述第一目标说话对象的身份信息,所述对象信息中至少包含所述身份信息和所述年龄信息。
[0232]
可选的,所述特征编码模块1602,还用于:
[0233]
对所述第一目标特征图进行特征编码,得到所述第一目标对象特征;
[0234]
对所述第一目标特征图进行年龄特征提取,得到所述第一目标年龄特征。
[0235]
可选的,所述特征编码模块1602,还用于:
[0236]
通过注意力机制层对所述第一目标特征图进行处理,得到第二目标特征图,所述第二目标特征图中年龄特征的注意力分数高于非年龄特征的注意力分数;
[0237]
通过池化层对所述第二目标特征图进行池化操作,得到中间目标特征;
[0238]
通过全连接层对所述中间样本特征进行特征映射处理,得到所述第一目标年龄特征。
[0239]
可选的,所述特征编码模块1602,还用于:
[0240]
对所述第一目标特征图进行特征编码,得到所述第一目标对象特征;
[0241]
对所述第一目标对象特征进行年龄特征提取,得到所述第一目标年龄特征。
[0242]
可选的,所述装置还包括:
[0243]
获取模块,用于获取第二目标音频对应的第二目标身份特征,所述第二目标身份特征用于表征所述第二目标音频对应第二目标说话对象的身份信息;
[0244]
确定模块,用于确定所述第一目标身份特征与所述第二目标身份特征之间的目标相似度;
[0245]
所述确定模块,还用于在所述目标相似度高于相似度阈值的情况下,确定所述第一目标说话对象与所述第二目标说话对象为同一说话对象;
[0246]
所述确定模块,还用于在所述目标相似度低于所述相似度阈值的情况下,确定所述第一目标说话对象与所述第二目标说话对象不是同一说话对象。
[0247]
可选的,所述获取模块,还用于:
[0248]
对所述第二目标音频进行特征提取,得到第二目标特征图;
[0249]
基于所述第二目标特征图进行特征编码,得到第二目标对象特征和第二目标年龄特征,所述第二目标对象特征用于表征所述第二目标说话对象的对象信息,所述第二目标年龄特征用于表征所述第二目标说话对象的年龄信息;
[0250]
基于所述第二目标年龄特征,从所述第二目标对象特征中分离出所述第二目标身份特征。
[0251]
可选的,所述装置还包括:
[0252]
分类模块,用于通过身份分类网络,确定所述第一目标身份特征与候选身份标签对应候选身份特征之间的特征相似度;
[0253]
所述分类模块,还用于将所述特征相似度最高的所述候选身份特征对应的所述候选身份标签,确定为目标身份标签,所述目标身份标签用于指示所述第一目标音频对应的所述第一目标说话对象。
[0254]
综上所述,本技术实施例提供了一种说话对象识别方式:通过对说话对象的目标音频进行特征提取和特征编码,从目标音频中提取出说话对象对应的对象信息(对象特征)和说话对象的年龄信息(年龄特征),由于对象信息中包含有年龄信息和身份信息,因此,可以基于提取到的年龄特征,从对象特征中分离出身份特征,使得分离出的身份特征不具备年龄信息,避免了年龄信息对身份特征的影响,提高了身份特征的提取准确性;而且,在基于身份特征进行说话对象识别场景中,也可以避免年龄信息对同一说话对象识别准确性的影响,可以进一步提高说话对象的识别准确性。
[0255]
图17是本技术另一个示例性实施例提供的音频处理装置的结构框图,该装置包括:
[0256]
特征提取模块1701,用于通过第一特征提取网络对样本音频进行特征提取,得到第一样本特征图;
[0257]
特征编码模块1702,用于通过第二特征提取网络对所述第一样本特征图进行特征编码,得到样本对象特征和样本年龄特征,所述样本对象特征用于表征所述样本音频对应样本说话对象的对象信息,所述样本年龄特征用于表征所述样本说话对象的年龄信息;
[0258]
特征分离模块1703,用于基于所述样本年龄特征,从所述样本对象特征中分离出样本身份特征;
[0259]
身份识别模块1704,用于基于所述样本身份特征进行身份识别,得到样本身份标签;
[0260]
年龄识别模块1705,用于基于所述样本年龄特征进行年龄识别,得到第一样本年龄标签;
[0261]
训练模块1706,用于基于所述样本身份标签、所述样本音频对应的标注身份标签、所述第一样本年龄标签以及所述样本音频对应的标注年龄标签,训练所述第一特征提取网络和所述第二特征提取网络。
[0262]
可选的,所述第二特征提取网络包括第一子特征提取网络和第二子特征提取网络;
[0263]
所述特征编码模块1702,还用于:
[0264]
通过所述第一子特征提取网络对所述第一样本特征图进行特征编码,得到所述样本对象特征;
[0265]
通过所述第二子特征提取网络对所述第一样本特征图进行年龄特征提取,得到所述样本年龄特征。
[0266]
可选的,所述第二子特征提取网络包括注意力机制层、池化层和全连接层;
[0267]
所述特征编码模块1702,还用于:
[0268]
通过所述注意力机制层对所述第一样本特征图进行处理,得到第二样本特征图,所述第二样本特征图中年龄特征的注意力分数高于非年龄特征的注意力分数;
[0269]
通过所述池化层对所述第二样本特征图进行池化操作,得到中间样本特征;
[0270]
通过所述全连接层对所述中间样本特征进行特征映射处理,得到所述样本年龄特征。
[0271]
可选的,所述第二特征提取网络包括第三子特征提取网络和第四子特征提取网络;
[0272]
所述特征编码模块1702,还用于:
[0273]
通过所述第三子特征提取网络对所述第一样本特征图进行特征编码,得到所述样本对象特征;
[0274]
通过所述第四子特征提取网络对所述样本对象特征进行年龄特征提取,得到所述样本年龄特征。
[0275]
可选的,所述身份识别模块1704,还用于:
[0276]
将所述样本身份特征输入身份分类网络,得到所述身份分类网络输出的所述样本
身份标签;
[0277]
所述年龄识别模块1705,还用于:
[0278]
将所述样本年龄特征输入第一年龄分类网络,得到所述第一年龄分类网络输出的所述第一样本年龄标签;
[0279]
所述训练模块,还用于:
[0280]
基于所述样本身份标签和所述标注身份标签,确定所述身份网络对应的第一分类损失;
[0281]
基于所述第一样本年龄标签和所述标注年龄标签,确定所述第一年龄分类网络对应的第二分类损失;
[0282]
基于所述第一分类损失和所述第二分类损失,训练所述第一特征提取网络、所述第二特征提取网络、所述第一年龄分类网络以及所述身份分类网络。
[0283]
可选的,所述装置还包括:
[0284]
所述年龄识别模块1705,还用于将所述样本身份特征输入第二年龄分类网络,得到所述第二年龄分类网络输出的第二样本年龄标签,所述第二年龄分类网络具备梯度反转层;
[0285]
确定模块,用于基于所述第二样本年龄标签和所述标注年龄标签,确定所述第二年龄分类网络对应的第三分类损失;
[0286]
所述训练模块,还用于:
[0287]
基于所述第一分类损失、所述第二分类损失以及所述第三分类损失,训练所述第一特征提取网络、所述第二特征提取网络、所述第一年龄分类网络、所述第二年龄分类网络以及所述身份分类网络。
[0288]
可选的,所述训练模块,还用于:
[0289]
基于所述第一分类损失和第一损失权重、所述第二分类损失和第二损失权重,以及所述第三分类损失和第三损失权重,训练所述第一特征提取网络、所述第二特征提取网络、所述第一年龄分类网络、所述第二年龄分类网络以及所述身份分类网络。
[0290]
可选的,所述身份识别模块1704,还用于:
[0291]
通过所述身份分类网络,确定所述样本身份特征与候选身份标签对应候选身份特征之间的样本相似度;
[0292]
将所述样本相似度最高的所述候选身份特征对应的所述候选身份标签,确定为所述样本身份标签。
[0293]
综上所述,本技术实施例提供了一种说话对象识别方式:通过对说话对象的目标音频进行特征提取和特征编码,从目标音频中提取出说话对象对应的对象信息(对象特征)和说话对象的年龄信息(年龄特征),由于对象信息中包含有年龄信息和身份信息,因此,可以基于提取到的年龄特征,从对象特征中分离出身份特征,使得分离出的身份特征不具备年龄信息,避免了年龄信息对身份特征的影响,提高了身份特征的提取准确性;而且,在基于身份特征进行说话对象识别场景中,也可以避免年龄信息对同一说话对象识别准确性的影响,可以进一步提高说话对象的识别准确性。
[0294]
图18是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1800可以是图3中第一设备310,也可以是图3中的第二设备320。所述计算机设备1800包
括中央处理单元(central processing unit,cpu)1801、包括随机存取存储器(random access memory,ram)1802和只读存储器(read-only memory,rom)1803的系统存储器1804,以及连接系统存储器1804和中央处理单元1801的系统总线1805。所述计算机设备1800还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(input/output,i/o系统)1806,和用于存储操作系统1813、应用程序1814和其他程序模块1815的大容量存储设备1807。
[0295]
所述基本输入/输出系统1806包括有用于显示信息的显示器1808和用于用户输入信息的诸如鼠标、键盘之类的输入设备1809。其中所述显示器1808和输入设备1809都通过连接到系统总线1805的输入输出控制器1810连接到中央处理单元1801。所述基本输入/输出系统1806还可以包括输入输出控制器1810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1810还提供输出到显示屏、打印机或其他类型的输出设备。
[0296]
所述大容量存储设备1807通过连接到系统总线1805的大容量存储控制器(未示出)连接到中央处理单元1801。所述大容量存储设备1807及其相关联的计算机设备可读介质为计算机设备1800提供非易失性存储。也就是说,所述大容量存储设备1807可以包括诸如硬盘或者只读光盘(compact disc read-only memory,cd-rom)驱动器之类的计算机设备可读介质(未示出)。
[0297]
不失一般性,所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括ram、rom、可擦除可编程只读存储器(erasable programmable read only memory,eprom)、带电可擦可编程只读存储器(electrically erasable programmable read-only memory,eeprom),cd-rom、数字视频光盘(digital video disc,dvd)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的系统存储器1804和大容量存储设备1807可以统称为存储器。
[0298]
根据本公开的各种实施例,所述计算机设备1800还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备1800可以通过连接在所述系统总线1805上的网络接口单元1812连接到网络1811,或者说,也可以使用网络接口单元1812来连接到其他类型的网络或远程计算机设备系统(未示出)。
[0299]
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器1801通过执行该一个或一个以上程序来实现上述音频处理方法的全部或者部分步骤。
[0300]
本技术还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方法实施例提供的音频处理方法。
[0301]
本技术提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执
行上述方法实施例提供的音频处理方法。
[0302]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0303]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0304]
以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
技术特征:1.一种音频处理方法,其特征在于,所述方法包括:对第一目标音频进行特征提取,得到第一目标特征图;基于所述第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征,所述第一目标对象特征用于表征所述第一目标音频对应第一目标说话对象的对象信息,所述第一目标年龄特征用于表征所述第一目标说话对象的年龄信息;基于所述第一目标年龄特征,从所述第一目标对象特征中分离出第一目标身份特征,所述第一目标身份特征用于表征所述第一目标说话对象的身份信息,所述对象信息中至少包含所述身份信息和所述年龄信息。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征,包括:对所述第一目标特征图进行特征编码,得到所述第一目标对象特征;对所述第一目标特征图进行年龄特征提取,得到所述第一目标年龄特征。3.根据权利要求2所述的方法,其特征在于,所述对所述第一目标特征图进行年龄特征提取,得到所述第一目标年龄特征,包括:通过注意力机制层对所述第一目标特征图进行处理,得到第二目标特征图,所述第二目标特征图中年龄特征的注意力分数高于非年龄特征的注意力分数;通过池化层对所述第二目标特征图进行池化操作,得到中间目标特征;通过全连接层对所述中间样本特征进行特征映射处理,得到所述第一目标年龄特征。4.根据权利要求1所述的方法,其特征在于,所述基于所述第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征,包括:对所述第一目标特征图进行特征编码,得到所述第一目标对象特征;对所述第一目标对象特征进行年龄特征提取,得到所述第一目标年龄特征。5.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:获取第二目标音频对应的第二目标身份特征,所述第二目标身份特征用于表征所述第二目标音频对应第二目标说话对象的身份信息;确定所述第一目标身份特征与所述第二目标身份特征之间的目标相似度;在所述目标相似度高于相似度阈值的情况下,确定所述第一目标说话对象与所述第二目标说话对象为同一说话对象;在所述目标相似度低于所述相似度阈值的情况下,确定所述第一目标说话对象与所述第二目标说话对象不是同一说话对象。6.根据权利要求5所述的方法,其特征在于,所述获取第二目标音频对应的第二目标身份特征,包括:对所述第二目标音频进行特征提取,得到第二目标特征图;基于所述第二目标特征图进行特征编码,得到第二目标对象特征和第二目标年龄特征,所述第二目标对象特征用于表征所述第二目标说话对象的对象信息,所述第二目标年龄特征用于表征所述第二目标说话对象的年龄信息;基于所述第二目标年龄特征,从所述第二目标对象特征中分离出所述第二目标身份特征。7.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:
通过身份分类网络,确定所述第一目标身份特征与候选身份标签对应候选身份特征之间的特征相似度;将所述特征相似度最高的所述候选身份特征对应的所述候选身份标签,确定为目标身份标签,所述目标身份标签用于指示所述第一目标音频对应的所述第一目标说话对象。8.一种音频处理方法,其特征在于,所述方法包括:通过第一特征提取网络对样本音频进行特征提取,得到第一样本特征图;通过第二特征提取网络对所述第一样本特征图进行特征编码,得到样本对象特征和样本年龄特征,所述样本对象特征用于表征所述样本音频对应样本说话对象的对象信息,所述样本年龄特征用于表征所述样本说话对象的年龄信息;基于所述样本年龄特征,从所述样本对象特征中分离出样本身份特征;基于所述样本身份特征进行身份识别,得到样本身份标签;基于所述样本年龄特征进行年龄识别,得到第一样本年龄标签;基于所述样本身份标签、所述样本音频对应的标注身份标签、所述第一样本年龄标签以及所述样本音频对应的标注年龄标签,训练所述第一特征提取网络和所述第二特征提取网络。9.根据权利要求8所述的方法,其特征在于,所述第二特征提取网络包括第一子特征提取网络和第二子特征提取网络;所述通过第二特征提取网络对所述第一样本特征图进行特征编码,得到样本对象特征和样本年龄特征,包括:通过所述第一子特征提取网络对所述第一样本特征图进行特征编码,得到所述样本对象特征;通过所述第二子特征提取网络对所述第一样本特征图进行年龄特征提取,得到所述样本年龄特征。10.根据权利要求9所述的方法,其特征在于,所述第二子特征提取网络包括注意力机制层、池化层和全连接层;所述通过所述第二子特征提取网络对所述第一样本特征图进行年龄特征提取,得到所述样本年龄特征,包括:通过所述注意力机制层对所述第一样本特征图进行处理,得到第二样本特征图,所述第二样本特征图中年龄特征的注意力分数高于非年龄特征的注意力分数;通过所述池化层对所述第二样本特征图进行池化操作,得到中间样本特征;通过所述全连接层对所述中间样本特征进行特征映射处理,得到所述样本年龄特征。11.根据权利要求8所述的方法,其特征在于,所述第二特征提取网络包括第三子特征提取网络和第四子特征提取网络;所述通过第二特征提取网络对所述第一样本特征图进行特征编码,得到样本对象特征和样本年龄特征,包括:通过所述第三子特征提取网络对所述第一样本特征图进行特征编码,得到所述样本对象特征;通过所述第四子特征提取网络对所述样本对象特征进行年龄特征提取,得到所述样本年龄特征。
12.根据权利要求8至11任一所述的方法,其特征在于,所述基于所述样本身份特征进行身份识别,得到样本身份标签,包括:将所述样本身份特征输入身份分类网络,得到所述身份分类网络输出的所述样本身份标签;所述基于所述样本年龄特征进行年龄识别,得到第一样本年龄标签,包括:将所述样本年龄特征输入第一年龄分类网络,得到所述第一年龄分类网络输出的所述第一样本年龄标签;所述基于所述样本身份标签、所述样本音频对应的标注身份标签、所述第一样本年龄标签以及所述样本音频对应的标注年龄标签,训练所述第一特征提取网络和所述第二特征提取网络,包括:基于所述样本身份标签和所述标注身份标签,确定所述身份网络对应的第一分类损失;基于所述第一样本年龄标签和所述标注年龄标签,确定所述第一年龄分类网络对应的第二分类损失;基于所述第一分类损失和所述第二分类损失,训练所述第一特征提取网络、所述第二特征提取网络、所述第一年龄分类网络以及所述身份分类网络。13.根据权利要求12所述的方法,其特征在于,所述方法还包括:将所述样本身份特征输入第二年龄分类网络,得到所述第二年龄分类网络输出的第二样本年龄标签,所述第二年龄分类网络具备梯度反转层;基于所述第二样本年龄标签和所述标注年龄标签,确定所述第二年龄分类网络对应的第三分类损失;所述基于所述第一分类损失和所述第二分类损失,训练所述第一特征提取网络、所述第二特征提取网络、所述第一年龄分类网络以及所述身份分类网络,包括:基于所述第一分类损失、所述第二分类损失以及所述第三分类损失,训练所述第一特征提取网络、所述第二特征提取网络、所述第一年龄分类网络、所述第二年龄分类网络以及所述身份分类网络。14.根据权利要求13所述的方法,其特征在于,所述基于所述第一分类损失、所述第二分类损失、所述第三分类损失,训练所述第一特征提取网络、所述第二特征提取网络、所述第一年龄分类网络、所述第二年龄分类网络以及所述身份分类网络,包括:基于所述第一分类损失和第一损失权重、所述第二分类损失和第二损失权重,以及所述第三分类损失和第三损失权重,训练所述第一特征提取网络、所述第二特征提取网络、所述第一年龄分类网络、所述第二年龄分类网络以及所述身份分类网络。15.根据权利要求12所述的方法,其特征在于,所述将所述样本身份特征输入身份分类网络,得到所述身份分类网络输出的所述样本身份标签,包括:通过所述身份分类网络,确定所述样本身份特征与候选身份标签对应候选身份特征之间的样本相似度;将所述样本相似度最高的所述候选身份特征对应的所述候选身份标签,确定为所述样本身份标签。16.一种音频处理装置,其特征在于,所述装置包括:
特征提取模块,用于对第一目标音频进行特征提取,得到第一目标特征图;特征编码模块,用于基于所述第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征,所述第一目标对象特征用于表征所述第一目标音频对应第一目标说话对象的对象信息,所述第一目标年龄特征用于表征所述第一目标说话对象的年龄信息;特征分离模块,用于基于所述第一目标年龄特征,从所述第一目标对象特征中分离出第一目标身份特征,所述第一目标身份特征用于表征所述第一目标说话对象的身份信息,所述对象信息中至少包含所述身份信息和所述年龄信息。17.一种音频处理装置,其特征在于,所述装置包括:特征提取模块,用于通过第一特征提取网络对样本音频进行特征提取,得到第一样本特征图;特征编码模块,用于通过第二特征提取网络对所述第一样本特征图进行特征编码,得到样本对象特征和样本年龄特征,所述样本对象特征用于表征所述样本音频对应样本说话对象的对象信息,所述样本年龄特征用于表征所述样本说话对象的年龄信息;特征分离模块,用于基于所述样本年龄特征,从所述样本对象特征中分离出样本身份特征;身份识别模块,用于基于所述样本身份特征进行身份识别,得到样本身份标签;年龄识别模块,用于基于所述样本年龄特征进行年龄识别,得到第一样本年龄标签;训练模块,用于基于所述样本身份标签、所述样本音频对应的标注身份标签、所述第一样本年龄标签以及所述样本音频对应的标注年龄标签,训练所述第一特征提取网络和所述第二特征提取网络。18.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一所述的音频处理方法,或实现如权利要求8至15任一所述的音频处理方法。19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至7任一所述的音频处理方法,或实现如权利要求8至15任一所述的音频处理方法。20.一种计算机程序产品,其特征在于,所述计算机程序产品存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至7任一所述的音频处理方法,或实现如权利要求8至15任一所述的音频处理方法。
技术总结本申请公开了一种音频处理方法、装置、计算机设备、存储介质及程序产品,属于人工智能技术领域。该方法包括:对第一目标音频进行特征提取,得到第一目标特征图;基于第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征,第一目标对象特征用于表征第一目标音频对应第一目标说话对象的对象信息,第一目标年龄特征用于表征第一目标说话对象的年龄信息;基于第一目标年龄特征,从第一目标对象特征中分离出第一目标身份特征,第一目标身份特征用于表征第一目标说话对象的身份信息,对象信息中至少包身份信息和年龄信息。该方法可以提取出不包含年龄信息的身份特征,避免了年龄信息对身份特征的影响,提高了身份特征的提取准确性。特征的提取准确性。特征的提取准确性。
技术研发人员:覃晓逸 李娜 翁超 李明 苏丹
受保护的技术使用者:武汉大学
技术研发日:2022.07.21
技术公布日:2022/11/1