一种基于深度神经网络的单通道语音分离方法

专利2023-06-23  102



1.本发明涉及一种单通道语音分离方法,具体涉及一种基于多重联合约束双输出深度神经网络的单通道语音分离方法,属于语音分离技术领域。


背景技术:

2.在日常生活中,语音作为人类交流的载体,其作用不容忽视。语音分离旨在从混合语音信号中恢复高质量和高清晰度的目标语音信号,该技术可以应用于机器翻译、高级助听器和自动语音识别等领域的前端处理,有助于提高它们的性能。如果有多个说话人同时说话,那么人们能很轻易地了解他们所说的是什么,但机器不能很容易地识别说话人的语言,在人机对话中,用户的交流将会非常糟糕。因此,使智能机器具有从混合语音信号中提取干净语音信号的能力是非常重要且实用的。根据输入声源数量的多少来划分,语音分离可以分为单通道和多通道语音分离。其中,单通道通常是指把来自不同方位的音频信号混合后统一由一个录音器材把它记录下来,相比多通道语音分离,单通道语音分离任务更具有挑战性。
3.针对棘手的单通道语音分离问题,研究学者们提出了很多解决方法,根据不同的目标任务,主要可以分为三类:统计方法、聚类方法和因式分解方法。在统计方法中,假定干扰语音信号与目标语音信号在统计上无关,采用诸如复高斯或独立成分分析等概率分布模型对目标语音信号进行建模。在聚类算法中,通过观测的方式,对目标语音信号的基音、信号的连续性特性进行估计,从而将目标语音与干扰语音区分开来。对于因式分解方法,例如非负矩阵分解 (nonnegative matrix factorization,nmf),将语音分离问题描述成矩阵分解问题,将混合语音信号的时频代表分解成基本信号与激励信号的结合,然后将每个基本信号学习到的激励信号用于重构目标语音信号。
4.近年来,深度学习技术在语音分离方面有了很大的发展,特别是在语音增强、音乐分离等方面,基于深度学习的方法比传统方法取得了更好的效果。根据训练目标的差异,基于深度学习的语音分离方法可以分为基于频谱映射的方法和基于时频掩蔽的方法。基于频谱映射的方法是通过训练神经网络模型学习混合语音信号特征到干净语音信号特征的映射函数来分离混合语音信号。基于掩蔽的方法是通过训练神经网络模型学习混合语音信号特征到掩蔽的映射函数来分离混合语音信号。这种方法一般用来估计理想二值掩蔽(ideal binarymask,ibm)和理想比值掩蔽(ideal ratio mask,irm),另外还有相位敏感掩蔽(phase sensitive mask,psm)和复数理想比值掩蔽(complex ideal ratiomask,cirm)等。通常情况下,神经网络的训练目标采用ibm或irm。对于 ibm,通过比较信噪比(snr)与局部阈值,将时频单元分配为0或1。如果目标语音占主导,则被标记为1,反之如果干扰语音占主导,则标记为0。 ibm只有0和1两种取值,对混合语音的处理过于粗暴,如果处理过程中引入了较多的干扰语音,则无法有效地改善语音质量。irm则直接刻画了时频单元内干净语音能量和混合语音能量的比值,是分布在0到1的连续值,这使得 irm可以有效地同时提升语音的质量和可懂度,是目前应用非常广泛的一种掩蔽方法。因此,本发明采用irm作为模型
的训练目标。
5.在基于深度学习的单通道语音分离方法中,损失函数衡量着模型预测的好坏,对分离系统的性能有很大的影响。传统的基于双输出dnn的单通道语音分离方法使用的损失函数通常只考虑了估计值与真实值之间的误差,不能很好地约束神经网络的训练,导致分离效果还有很大的提升空间。


技术实现要素:

6.为了解决现有语音分离技术中存在的问题,提出了三种联合约束损失函数,并将它们整合,提出一种基于多重联合约束双输出深度神经网络单通道语音分离方法,解决了传统的基于双输出深度神经网络的单通道语音分离方法的缺陷。
7.为实现上述目的,本发明采用的技术方案为:一种基于多重联合约束双输出深度神经网络的单通道语音分离方法,其主要实施步骤包含如下:
8.步骤1:从语料库中随机选取说话人1和说话人2的语音信号进行预处理,得到混合语音信号,提取干净语音信号和混合语音信号的幅度谱特征,并计算训练目标irm。
9.步骤2:将混合语音信号的幅度谱特征作为深度神经网络dnn的输入,训练目标irm作为dnn的输出,分别在联合约束损失函数1、联合约束损失函数2、联合约束损失函数3的指导下,训练模型dnn
jc_1
、dnn
jc_2
、 dnn
jc_3

10.步骤3:将测试混合语音信号的幅度谱特征分别输入到dnn
jc_1
、dnn
jc_2
和dnn
jc_3
,得到相应的irm估计值,计算估计的目标语音信号的幅度谱特征,重构目标语音信号。
11.步骤4:将混合语音信号的幅度谱特征作为深度神经网络dnn的输入,训练目标irm作为dnn的输出,在多重联合约束损失函数的指导下,训练模型dnn
jc_multi

12.步骤5:将测试混合语音信号的幅度谱特征输入到dnn
jc_multi
,得到相应的irm估计值,计算估计的目标语音信号的幅度谱特征,重构目标语音信号,并对所提出的基于多重联合约束的双输出深度神经网络的单通道语音分离方法进行性能评估。
13.为了获得更好的分离性能,本发明的多重联合约束损失函数不仅考虑了不同语音信号估计掩蔽值与真实掩蔽值之间的关系,不同语音信号估计掩蔽值之间的关系,掩蔽与目标语音特征之间的关系,还考虑了目标语音特征与混合语音特征之间的关系。此外,本发明采用优化的思想求解了对应约束项的最优加权系数,使各项的约束力度更精准。在该损失函数指导下训练的神经网络,可以输出更精确的估计值,从而提高分离语音的质量。
14.进一步的,所述步骤1包括:
15.步骤1-1:对输入的时域连续语音信号1和语音信号2进行16kz的采样,然后进行预加重、分帧、加窗操作,得到预处理后的语音信号。
16.步骤1-2:对预处理后的语音信号进行短时傅里叶变换,并提取幅度谱特征。
17.步骤1-3:根据所提取的幅度谱特征计算训练目标irm,其公式如下:
[0018][0019]
其中,mi(t,f)为第i个目标语音信号在时间为t,频率为f处的理想比值掩蔽, si(t,f)表示第i个目标语音信号在时间为t频率为f处的幅度谱,ε是一个极小正值,作用是为了防止分母为0。
[0020]
步骤1-4:为了方便数据处理,对输入的混合语音信号幅度谱特征进行归一化处理,得到归一化后的训练混合语音信号幅度谱特征y
train

[0021]
进一步的,所述步骤2包括:
[0022]
步骤2-1:将训练混合语音信号的幅度谱特征y
train
作为dnn的输入,irm 作为训练目标,分别在联合约束损失函数1、联合约束损失函数2、联合约束损失函数3的指导下,经过多次迭代训练,得到训练完备的dnn
jc_1
、 dnn
jc_2
、dnn
jc_3
,用于训练dnn
jc_1
、dnn
jc_2
、dnn
jc_3
的损失函数分别为:
[0023][0024]
其中,t表示时间帧的总数量,m
1t
和分别表示目标语音信号1在时间为t 时的真实irm值和估计irm值;m
2t
和分别表示目标语音信号2在时间为t时的真实irm值和估计irm值。s
1t
和分别表示目标语音信号1在时间为t时的真实幅度谱特征和估计幅度谱特征,s
2t
和分别表示目标语音信号 2在时间为t时的真实幅度谱特征和估计幅度谱特征,y
t
表示混合语音信号的幅度谱特征。α,β和γ为正则化系数,它们的取值范围均为[0,1],不同的取值意味着不同的约束力度。
[0025]
步骤2-2:dnn模型的训练包含前向传播和反向传播两个阶段。前向传播阶段,随机初始化权重和偏置,得到一个粗略的估计输出。反向传播阶段,从后向前反向运算,通过梯度下降算法对损失函数进行寻优,并更新权重和偏置。
[0026]
进一步的,所述步骤3包括:
[0027]
步骤3-1:首先对测试混合语音信号做预处理,之后进行短时傅里叶变换,提测测试混合语音信号的幅度谱特征和相位谱特征,并对幅度谱特征进行归一化处理,得到y
test

[0028]
步骤3-2:将测试混合语音信号幅度谱特征y
test
分别输入到dnn
jc_1
、 dnn
jc_2
和dnn
jc_3
,得到相应的irm估计值,并计算估计的目标语音幅度谱特征,重构目标语音信号。
[0029]
进一步的,所述步骤4包括:
[0030]
步骤4-1:将上述四种预测方法整合为组合预测方法,采用优化的算法求解最优权重系数k
*
=[k
1*
,k
2*
,k
3*
,k
4*
]
t
,作为多重联合约束损失函数的正则化系数。
[0031]
步骤4-2:将训练混合语音信号的幅度谱特征y
train
作为dnn的输入,irm 作为训练目标,在多重联合约束损失函数的指导下,经过多次迭代训练,得到训练完备的dnn
jc_multi
,用于训练dnn
jc_multi
的损失函数为:
[0032][0033]
其中,为上述步骤中求解的最优权重系数。
[0034]
进一步的,所述步骤5包括:
[0035]
步骤5-1:将测试混合语音信号幅度谱特征y
test
输入到dnn
jc_multi
,得到相应的irm估计值,计算估计的目标语音信号的幅度谱特征,重构目标语音信号。
[0036]
步骤5-2:利用pesq、stoi、sdr、sir、sar指标对分离系统性能进行评估。
[0037]
与现有技术相比,本发明的有益效果是:本发明具有一定的理论研究价值和实际应用价值,该方法从多个角度考虑了不同源信号之间的内在关系,对网络的输出值以及语音信号特征进行联合约束,通过权重系数来调整对应项的约束强度,以提高分离模型的准确性。在该损失函数指导下训练的神经网络,可以更精确地估计相应的输出值。此外,本发明采用优化的思想求解了多重联合约束损失函数中对应约束项的最优加权系数,使约束项的约束力度更精准,进一步提高了分离系统的性能。
附图说明
[0038]
图1是本发明中基于多重联合约束双输出dnn的单通道语音分离系统框图。
[0039]
图2是不同正则化系数下单项联合约束分离系统的性能。其中,(a)为 jc1在不同正则化系数下的pesq示意图,(b)为jc2在不同正则化系数下的 pesq示意图,(c)为jc3在不同正则化系数下的pesq示意图。
[0040]
图3是使用不同方法分离目标语音的sir,sdr,sar的示意图。其中, (a)为sir的示意图,(b)为sdr的示意图,(c)为sar的示意图。
[0041]
图4是不同方法分离目标语音的波形图。其中,(a)为目标女性的原始语音波形图,(b)为目标男性的原始语音波形图,(c)为混合语音波形图,(d) 为使用basic-irm方法分离出来的估计女性语音波形图,(e)为使用basic
‑ꢀ
irm方法分离出来的估计男性语音波形图,(f)为使用jc4方法分离出来的估计女性语音波形图,(g)为使用jc4方法分离出来的估计男性语音波形图。
具体实施方式
[0042]
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0043]
本实施例提出了一种基于多重联合约束双输出深度神经网络的单通道语音分离方法。近十年来,深度神经网络凭借其强大的数据拟合能力,在监督学习任务中的应用越来
越广泛。例如图像分类、手写识别、自动语音识别、语音分离等。基于深度学习的语音分离方法是通过训练神经网络模型学习混合语音信号与目标语音信号之间的非线性关系来实现语音分离。与传统的基于谱减法或维纳滤波器等方法相比,基于深度神经网络的单通道语音分离方法能取得更好的分离效果。在基于深度学习的单通道语音分离算法中,损失函数衡量着预测值与实际数据的差距程度,因此它对系统的性能影响很大。而传统的基于 dnn的单通道语音分离方法所使用的损失函数一般只考虑了输出值与对应真实值之间的关系,而忽略了输出值之间的内在联系,分离语音的质量有待提升。因此,本实施例从损失函数入手,在传统损失函数的基础上,考虑了不同信号之间的内在联系,对不同语音信号的掩蔽值与特征进行联合约束,提高了模型预测的准确度,使网络输出值更加接近真实值,从而提高分离语音的清晰度和可懂度。
[0044]
本实施例提出的基于多重联合约束双输出深度神经网络单通道语音分离算法整体流程如图1所示,该语音分离算法包含两个阶段:训练阶段和测试阶段。训练阶段的目的是在多重联合约束损失函数的指导下,训练具有更精确的网络参数的dnn。测试阶段的目的是使用训练完备的dnn,通过一系列线性和非线性变换从混合语音信号中获取目标语音信号。首先,在训练阶段,需要对目标语音信号和混合语音信号进行预处理,提取相应的幅度谱特征,并计算相应的训练目标irm。然后将归一化的混合语音信号的幅度谱作为dnn的输入,训练目标irm作为dnn的输出,在多重联合约束损失函数的指导下训练 dnn,在经过多次调整网络参数后,获得一个训练完备的dnn。在测试阶段,首先对测试混合语音信号进行短时傅里叶变换(short-time fourier transform, stft)并提取幅度谱特征,将归一化后的幅度谱输入到训练完备的dnn中,可以得到目标语音信号的估计掩蔽值。之后,将目标说话人对应的估计掩蔽值与混合语音信号幅度谱相乘,得到估计的目标语音信号幅度谱。最后,将估计的目标信号幅度谱与混合相位谱结合,并通过逆短时傅里叶变换(inverseshort-time fourier transform,istft)重构目标语音信号。经过实验,与采用传统损失函数的dnn模型相比,该算法能够提高语音分离系统的性能。
[0045]
以下是对本发明具体实施方式的详细论述:
[0046]
步骤1:对语音信号进行预处理,并提取幅度谱特征。
[0047]
由于人类发声器官本身和采集语音信号的设备会对语音信号的质量产生影响,因此,在对语音信号进行分析和处理之前,必须对其进行预加重、分帧、加窗等预处理操作。预处理操作可以为后续提供更优质的参数,提高处理语音质量。在本实施例中,训练语音信号以及测试语音信号的默认采样率为25khz,为了让时域信号变得稀疏,在本实施例中,将每条语音信号降采样为16khz。当然,在其它实施例中,也可以将语音信号采样率设置为其它数值。
[0048]
对预处理后的目标语音信号进行混合,得到混合语音信号,并对目标语音信号以及混合语音信号均进行512点的stft,得到目标语音信号以及混合语音信号的频谱。之后对语音信号频谱进行取绝对值操作,可以得到目标语音信号以及混合语音信号的幅度谱特征,维数为257
×
1。根据得到的幅度谱特征计算训练目标irm。由于语音信号幅度谱的取值范围为[0,+∞),数值太大不利于dnn的训练,为了提升网络的收敛速度以及模型的精度,对语音信号的幅度谱特征进行归一化处理。所述训练目标irm的计算公式为:
[0049][0050]
其中,mi(t,f)为第i个目标语音信号在时间为t,频率为f处的理想比值掩蔽, si(t,f)表示第i个目标语音信号在时间为t频率为f处的幅度谱大小,ε是一个极小正值,作用是为了防止分母为0。
[0051]
步骤2:训练单项联合约束双输出深度神经网络。
[0052]
本实施例所采用的dnn含有一个输入层,三个隐藏层和一个输出层。其中,输入层、隐藏层和输出层的神经节点个数分别为257、1024和514。单源输出节点个数为257,因此双源输出节点个数为514(257*2)。对于隐藏层,我们选择relu作为激活函数,它负责将输入的神经元信息汇总转换为新的输出信息,传递给下一个神经元。dnn两个输出的取值范围均为[0,1],因此我们选择sigmoid作为输出层的激活函数。训练所使用的优化器为随机梯度下降算法,学习率为0.01,迭代次数为200。
[0053]
将归一化后的混合语音信号幅度谱特征作为dnn的输入,训练目标irm 作为dnn的输出,分别在联合约束损失函数1,联合约束损失函数2,联合约束损失函数3的指导下,经过多次迭代训练,得到训练完备的dnn
jc_1
、 dnn
jc_2
和dnn
jc_3
。其中,用于训练dnn
jc_1
、dnn
jc_2
和dnn
jc_3
的损失函数分别为:
[0054][0055]
其中,t表示时间帧的总数量,m
1t
和分别表示目标语音信号1在时间为t 时的真实irm值和估计irm值;m
2t
和分别表示目标语音信号2在时间为t时的真实irm值和估计irm值。s
1t
和分别表示目标语音信号1在时间为t时的真实幅度谱特征和估计幅度谱特征,s
2t
和分别表示目标语音信号 2在时间为t时的真实幅度谱特征和估计幅度谱特征,y
t
表示混合语音信号的幅度谱特征。α,β和γ为正则化系数,它们的取值范围均为[0,1],不同的取值意味着不同的约束力度。
[0056]
dnn模型训练包含前向传播(forward propagation,fp)和反向传播 (backward propagation,bp)两个阶段。
[0057]
fp阶段是通过随机初始化权重和偏置,得到一个粗略估计输出的过程,可以表示为:
[0058][0059]
其中,wi表示第i层神经元和i+1层神经元之间的权重,xi表示第i层的输出,b表示偏置,z表示第i+1层的输入,x
i+1
表示第i+1层的输出,σ表示激活函数。
[0060]
bp与fp阶段的差别在于计算的起点不同,bp从输出层出发,从后向前反向运算,控制反向调参的主体是损失函数,通过梯度下降算法对损失函数进行寻优,使损失函数实现收敛来约束输出误差值。输出误差对第i层神经网络参数wi求导,反向递推求导公式如下:
[0061][0062]
接着更新神经网络的权重和偏置:
[0063][0064]
其中,η、t、l分别表示神经网络的学习率、迭代次数和神经网络层数。
[0065]
步骤3:测试单项联合约束双输出深度神经网络
[0066]
首先对测试混合语音信号进行预处理操作,之后对其进行stft,并提取幅度谱特征和相位谱特征,并对幅度谱特征进行归一化处理。将归一化后的幅度谱特征分别输入到dnn
jc_1
、dnn
jc_2
和dnn
jc_3
,得到相应的估计irm值和计算相应估计的目标语音信号幅度谱,其计算公式为:
[0067][0068]
其中,表示第i个目标语音的幅度谱估计值,y
t
表示混合语音幅度谱,

表示哈达玛乘积。将估计的目标语音幅度谱与混合语音相位谱结合,得到估计的时域目标语音信号,其计算过程为:
[0069][0070]
步骤4:训练多重联合约束双输出深度神经网络
[0071]
将归一化后的混合语音信号幅度谱特征作为dnn的输入,训练目标irm 作为dnn的输出,在多重联合约束损失函数的指导下,经过多次迭代训练,得到训练完备的dnn
jc_multi
。用于训练dnn
jc_multi
的损失函数分别为:
[0072][0073]
由上式,可以将jc4拆分为以下等式:
[0074][0075]
则式(11)可以写为:
[0076]
jc4=k1l
origin
+k2l1+k3l2+k4l3ꢀꢀ
(16)
[0077]
因此基于jc4的预测方法可以看作是一种组合预测方法,组合预测的关键是如何精准确定每种预测方法的加权系数。为了求解最优加权系数,我们采用优化的思想,做了下面一系列工作。
[0078]
将训练混合语音信号的幅度谱特征y
train
作为dnn的输入,irm作为训练目标,分别在l
origin
、l1、l2、l3的指导下,经过多次迭代训练,得到训练完备的dnn
origin
、dnn
l1
、dnn
l2
和dnn
l3
。将测试混合语音信号幅度谱特征 y
test
分别输入到dnn
l1
、dnn
l2
和dnn
l3
,得到相应的irm估计值irm估计值和
[0079]
则组合预测方法的预测值为:
[0080][0081]
第i种预测方法的预测误差为:
[0082][0083]
则组合预测方法的预测误差为:
[0084][0085]
组合预测方法的预测误差平方和为:
[0086][0087]
设加权系数向量为k=[k1,k2,k3,k4]
t
,第i种单项预测方法的预测误差向量为则组合预测方法的预测误差平方和还可以表示为:
[0088][0089]
记r
p
=[1,1,1,1]
t
,则组合预测方法的加权系数的约束条件为r
ptkp
=1。我们的目的是在该约束条件下,求解使组合预测方法的预测误差平方和取极小值时的加权系数向量,则该问题可以表示为非线性规划问题:
[0090][0091]
引入拉格朗日乘子,则组合预测方法的预测误差平方和为:
[0092]
j=k
pte(p)kp
+λ(r
ptkp-1)
ꢀꢀꢀ
(23)
[0093]
上式取极小值时的条件为:
[0094][0095]
即:
[0096]
2e
(p)kp
+λr
p
=0
ꢀꢀꢀꢀ
(25)
[0097]
对等式(22)两边左乘e
(p)-1
,可以得到:
[0098]
2k
p
+λe
(p)-1rp
=0
ꢀꢀꢀꢀ
(26)
[0099]
对等式(23)两边左乘r
pt
,可以得到:
[0100]
2r
ptkp
+λr
pte(p)-1rp
=0
ꢀꢀꢀꢀ
(27)
[0101]
因为r
ptkp
=1,将该条件代入式子(24),可以接触拉格朗日乘子为:
[0102][0103]
将式子(25)代入式子(23),可以得到最优加权系数为:
[0104][0105]
该最优加权系数可以表示为:
[0106][0107]
为了与jc4中的格式一致,将k
*
乘以1/k
1*
,即
[0108]
则用于训练dnn
jc_multi
的损失函数为:
[0109][0110]
其中,k
1*
,k
2*
,k
3*
,k
4*
为上述求解的最优加权系数。
[0111]
步骤5:测试多重联合约束双输出深度神经网络
[0112]
将归一化后的测试混合语音信号幅度谱特征输入到dnn
jc_multi
,得到相应的irm估计值。根据式子(9)计算目标语音信号幅度谱,根据式子(10)得到目标语音的估计时域信号。
[0113]
性能评估
[0114]
在我们的实验中,训练和测试语音信号均来自grid语料库,该语料库含有18名男性和16位女性,每位有1000条干净的语音,每条语音持续一秒钟左右。随机选取语料库中的两位男性和两位女性的语音作为实验数据,因此可以获得三种性别组合(f+f,f+m,m+m)。随机选取每位说话人的700条语音作为训练目标语音,并将它们混合作为训练混合语音。之后从剩下的300条语音中随机选取50条,并将它们混合作为测试混合语音。为了获得更具有代表性的结论,所有的实验结果都是统计平均值。每条语音的采样率均由25khz 降采样到16khz,通过512点stft获得语音的幅度谱,stft采用的是汉明窗,窗长为512,帧移为256。
[0115]
本发明采用多个语音指标来衡量所提算法的准确性和有效性,包括语音质量感知评估(perceptual evaluation of speech quality,pesq)、短时目标可懂度 (short-time objective intelligibility,stoi)、信号干扰比(signal-to-interferenceratio,sir)、信号失真比(signal to distortion ratio,sdr)和信号人工比 (sources-to-artifacts ratio,sar)。这些指标的值越大,说明分离语音的质量越好。
[0116]
首先,本发明研究了正则化系数对单项联合约束方法在不同性别组合下分离效果
的影响。对于jc1,正则化系数α从0取到1,每次增加0.1,α=0时的结果代表了传统损失函数的性能。实验结果如图2(a)所示,从图中可以看出,当α小于0.5时,三种性别组合下的pesq均随α的增加有了不同程度地提高。对于f+m,当α为0~0.3时,pesq增长较快,当α为0.4~0.5时, pesq增长较慢。由于不同性别组合的混合语音特征不同,因此最优加权系数不同。对于f+f,当α为0.7时,分离系统性能最佳。当α大于0.7时,pesq 曲线随着α的增大呈下降趋势,但当α设为1时的分离性能依然优于当α设为 0时的分离性能,证明了所提联合约束算法的有效性。同样地,我们分别对 jc2和jc3进行了相同的实验。jc2和jc3在不同正则化系数下的pesq如图2 (b)和图2(c)所示。对于m-m和f-m,当jc2和jc3中的β和γ为0.5时,分离系统性能最佳。对于f-f,当jc2和jc3中的β和γ为0.6时,分离系统性能最佳。因此,在下面的对比实验中,基于jc1分离f+m与m+m时,α设为 0.5,分离f+f时,α设为0.7;基于jc2,jc3分离f+m与m+m时,β和γ设为0.5,分离f+f时,β和γ设为0.6。
[0117]
接着,本发明分别评估了基于jc1、jc2和jc3的双输出dnn语音分离系统性能,并与传统的基于映射的方法(basic-tms)和传统的基于掩蔽的方法(basic-irm)进行了比较。实验结果如表1所示。
[0118][0119]
表1单项联合约束方法与传统方法分离性能比较
[0120]
从实验结果我们可以得出如下结论:第一,基于jc1、jc2和jc3的方法均优于传统方法,证明了从不同方面对不同源信号之间的估计值和语音信号特征进行联合约束是有效的。第二,相对于jc2和jc3方法,jc1方法重建的语音信号更接近于纯净语音信号,这可以解释为我们最终需要重建目标语音信号的幅度谱来实现语音分离。因此,对掩蔽值和幅度谱联合约束可以使预测值更加准确。第三,与基于映射的方法相比,基于掩蔽的方法更有效,特别是在解决相同性别组合问题时更明显。此外,所提出的方法在分离跨性别组合时的性
能优于同性别组合,这是由于同性别语音信号的相似性较高,使得语音信号的分离难度较大。
[0121]
接着本发明评估了基于多重联合约束算法的分离性能。首先,为了获得jc4算法的最优结果,本发明研究了多重联合约束损失函数中正则化系数α,β和γ对分离性能的影响。根据上述分析,对于不同性别组合,当α接近0.5 时,jc1的分离效果较好,且jc1比jc2和jc3具有更好的分离性能。因此,在下面的实验中,α取值为0.5,β和γ从0取到0.5,每次增加0.1,对β和γ依次寻优。实验结果如表2所示。
[0122][0123]
表2不同正则化系数下多重联合约束分离系统的性能
[0124]
从表中可以看出,在不同的约束力度下,pesq,stoi,sir均受到了不同程度的影响。例如,当α=0.5,γ=0,β从0取到0.3时,pesq,stoi, sir逐渐提高,当β从0.4到0.5时,pesq,stoi,sir逐渐降低。因此接下来α,β分别设为0.5和0.4,再对γ寻优。可以看到当γ从0取到0.2时,pesq 随着γ的增加而提高。当γ大于0.2时,pesq随着γ的增加呈下降趋势,但分离性能依然优于当α,β和γ均设为0时的分离性能,证明了多重联合约束方法的有效性。从实验结果可以看出,加权系数对语音分离性能有很大的影响。因此,求解最优权重系数对进一步提高分离系统性能具有重要意义。
[0125]
为了评估基于优化思想求解的最优加权系数向量的有效性,我们比较了最优加权系数组合与由α,β和γ组成的不同加权组合下的分离语音性能。从表 2可以看出,采用最优加权系数组合方法的分离效果最好。其中,最优加权系数组合方法与传统方法相比,pesq提高了0.27,stoi提高了5%,sir提高了4.29db。显然,从结果可以看出,基于非线性规划的优化思想求解的最优权系数向量比按照实验选取的权值组合更有效。
[0126]
此外,为了评估基于多重联合约束损失函数双输出dnn语音分离性能,我们使用jc4方法在不同性别组合下进行了一系列实验,并与basic-irm、jc1、 jc2、和jc3方法进行了比较。对比结果如图3所示。从图3(a)到(c)的结果可以看出,jc4在不同性别组合中与其他分离方法相比表现优异。
[0127]
为了直观地看到各方法的分离性能,我们选取f-m组合的测试语音波形来展示分
离系统性能,结果如图4所示。其中(a)和(b)分别为目标女性和目标男性原始语音波形。(c)为混合语音波形。(d)和(e)是用basic-irm 方法分离出来的估计女性和男性语音波形。(f)和(g)是用jc4方法分离出来的估计女性和男性语音波形。可见,采用jc4方法恢复的语音波形最接近原始参考信号。
[0128]
以上结果表明:本发明所提出的基于多重联合约束双输出深度神经网络的单通道语音分离方法,与传统的语音分离方法相比,其分离效果有了较大的提高,对实际应用具有一定的参考价值。
[0129]
应该注意的是,上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。

技术特征:
1.一种基于深度学习的单通道语音分离方法,其特征在于:所述单通道语音分离方法基于多重联合约束双输出深度神经网络,包括如下具体步骤:步骤1、从语料库中随机选取说话人1和说话人2的语音信号进行预处理,得到混合语音信号,提取干净语音信号和混合语音信号的幅度谱特征,并计算训练目标irm;步骤2、将前述步骤中提取到的混合语音信号的幅度谱特征作为深度神经网络dnn的输入,训练目标irm作为dnn的输出,分别在联合约束损失函数1、联合约束损失函数2、联合约束损失函数3的指导下,训练模型dnn
jc_1
、dnn
jc_2
、dnn
jc_3
;步骤3、将测试混合语音信号的幅度谱特征分别输入到dnn
jc_1
、dnn
jc_2
和dnn
jc_3
,得到相应的irm估计值,计算估计的目标语音信号的幅度谱特征,重构目标语音信号;步骤4、将所述混合语音信号的幅度谱特征作为深度神经网络dnn的输入,训练目标irm作为dnn的输出,在多重联合约束损失函数的指导下,训练模型dnn
jc_multi
;步骤5、将测试混合语音信号的幅度谱特征输入到dnn
jc_multi
,得到相应的irm估计值,计算估计的目标语音信号的幅度谱特征,重构目标语音信号,并对所提出的基于多重联合约束的双输出深度神经网络的单通道语音分离方法进行性能评估。2.根据权利要求1所述的基于深度学习的单通道语音分离方法,其特征在于:所述步骤1包括如下具体流程:步骤1-1、对前述步骤中说话人1的语音信号和说话人2的语音信号进行16kz的采样,然后进行预加重、分帧、加窗操作,得到预处理后的语音信号;步骤1-2、对预处理后的语音信号进行短时傅里叶变换,并提取幅度谱特征;步骤1-3、根据所提取的幅度谱特征计算训练目标irm,其公式如下:其中,m
i
(t,f)为第i个目标语音信号在时间为t,频率为f处的理想比值掩蔽,s
i
(t,f)表示第i个目标语音信号在时间为t,频率为f处的幅度谱,ε是一个极小正值,以防止分母为0;步骤1-4、为了方便数据处理,对输入的混合语音信号幅度谱特征进行归一化处理,最终得到归一化后的训练混合语音信号幅度谱特征。3.根据权利要求1所述的基于深度学习的单通道语音分离方法,其特征在于:所述步骤2包括如下具体流程:步骤2-1、将前述步骤所得到的训练混合语音信号的幅度谱特征y
train
作为dnn的输入,irm作为训练目标,分别在联合约束损失函数1、联合约束损失函数2、联合约束损失函数3的指导下,经过200次迭代训练,得到训练完备的dnn
jc_1
、dnn
jc_2
、dnn
jc_3
,用于训练dnn
jc_1
、dnn
jc_2
、dnn
jc_3
的损失函数分别为:
其中,t表示时间帧的总数量,m
1t
和分别表示目标语音信号1在时间为t时的真实irm值和估计irm值;m
2t
和分别表示目标语音信号2在时间为t时的真实irm值和估计irm值。s
1t
和分别表示目标语音信号1在时间为t时的真实幅度谱特征和估计幅度谱特征,s
2t
和分别表示目标语音信号2在时间为t时的真实幅度谱特征和估计幅度谱特征,y
t
表示混合语音信号的幅度谱特征。α,β和γ为正则化系数,它们的取值范围均为[0,1],不同的取值意味着不同的约束力度;步骤2-2、dnn模型的训练包含前向传播和反向传播两个阶段,所述前向传播阶段通过随机初始化权重和偏置,得到一个粗略的估计输出;所述反向传播阶段为从后向前反向运算,通过梯度下降算法对损失函数进行寻优,并更新权重和偏置。4.根据权利要求1所述的基于深度学习的单通道语音分离方法,其特征在于:所述步骤3包括如下具体流程:步骤3-1、首先对测试混合语音信号做预处理,之后进行短时傅里叶变换,提取测试混合语音信号的幅度谱特征和相位谱特征,并对幅度谱特征进行归一化处理,得到y
test
;步骤3-2、将所述测试混合语音信号幅度谱特征y
test
分别输入到dnn
jc_1
、dnn
jc_2
和dnn
jc_3
,得到相应的irm估计值,并计算估计的目标语音幅度谱特征,重构目标语音信号。5.根据权利要求1所述的基于深度学习的单通道语音分离方法,其特征在于:所述步骤4包括如下具体流程:步骤4-1、将基于传统损失函数、联合约束损失函数1、联合约束损失函数2、联合约束损失函数3的方法整合为组合预测方法,采用优化的算法求解最优权重系数k
*
=[k
1*
,k
2*
,k
3*
,k
4*
]
t
,作为多重联合约束损失函数的正则化系数;步骤4-2、将训练混合语音信号的幅度谱特征y
train
作为dnn的输入,irm作为训练目标,在多重联合约束损失函数的指导下,经过200次迭代训练,得到训练完备的dnn
jc_multi
,用于训练dnn
jc_multi
的损失函数为:
其中,为上述步骤中求解的最优权重系数。6.根据权利要求1所述的基于深度学习的单通道语音分离方法,其特征在于:所述步骤5包括如下具体流程:步骤5-1、将测试混合语音信号幅度谱特征y
test
输入到dnn
jc_multi
,得到相应的irm估计值,计算估计的目标语音信号的幅度谱特征,重构目标语音信号;步骤5-2、利用pesq、stoi、sdr、sir、sar指标对分离系统性能进行评估,得到目标语音的估计时域信号。

技术总结
本发明公开了一种基于多重联合约束双输出深度神经网络的单通道语音分离方法,首先提出了三种联合约束损失函数,并进行整合,提出一种多重联合约束损失函数,用于训练双输出深度神经网络以解决单通道语音分离问题。该多重联合约束损失函数充分利用了网络输出值之间的关系,输出值与目标语音特征之间的关系,估计目标语音特征与混合语音特征之间的关系,在该损失函数指导下训练的深度神经网络可以输出更精确的预测值。此外,本发明采用优化思想求解了各约束项所对应的最优权重系数,使每项的约束力度更精准,进一步提升了分离系统的性能。实验结果表明,相比基于传统损失函数的方法,该方法的性能更加优越,能够更有效地分离出目标语音。出目标语音。出目标语音。


技术研发人员:孙林慧 梁文清 袁硕 李平安
受保护的技术使用者:南京邮电大学
技术研发日:2022.05.30
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-3442.html

最新回复(0)