基于频谱压缩和自注意力神经网络的全频带语音增强方法与流程

专利2025-01-05  10



1.本发明属于语音增强的领域,主要针对全频带语音的噪声抑制问题。


背景技术:

2.语音增强的目的,是从受到噪声污染的语音信号中恢复出纯净的语音成分,以提高其听感质量和语音清晰度。它是许多系统中的前端技术中至关重要的一环,例如自动语音识别和网络在线会议终端。在各种非平稳噪声的抑制性能上,基于深度神经网络的语音增强方法都表现出了显著的优越性。但是绝大多数语音增强系统的研究都是在宽带(16khz)条件下进行的,超宽带(32khz)和全频带(48khz)的情景还有待更进一步的研究。
3.目前已经有一些针对全频带的语音增强方案研究(lv,shubo,et al."s-dccrn:super wide band dccrn with learnable complex feature for speech enhancement."2021)。全频带语音增强的主要挑战在于三点:其一,如果保留所有频点进行建模,网络结构将非常繁重,计算量高,难以应用到实时的语音增强系统中;其二,如果各频率点分配相同的计算资源,高频(5-24khz)得到的计算资源会大于低频(0-5khz),而人类的语音成分主要集中在低频段,尤其是谐波成分,这种分配方式会使得低频的信息难以得到合适的处理,反而阻碍整个语音的建模;其三,针对高频部分的处理本身也较为困难,因为高频的能量通常较为稀疏,信噪比往往也较低,在高频上网络难以进行有效的学习。
4.基于深度神经网络的方法通常分为两类,即时频域方法和时域方法。虽然时域方法最近得到了越来越多的关注,但实时应用仍然主要集中在时频域方法上。在时频域方法中,先对信号进行短时傅立叶变换,然后将短时傅里叶谱输入网络进行处理。训练目标包括掩膜的预测和直接映射。早期研究者们认为没有必要估计纯净信号频谱的相位,只需重建幅度,这种思路限制了语音增强模型性能的上限。已经有一系列的工作将相位估计集成到了网络中,包括使用相位敏感掩膜,利用复数比例掩膜,在幅度和相位谱之间进行信息交换,将实频谱和虚频谱估计分配给两个独立的解码器,以及模拟复数网络等等。
5.复数谱处理的crn(complex recurrent network,卷积递归网络)结构由一个编码器、两个解码器以及介于两者之间的一个递归处理块组成。u-net编码-解码结构可以降低频谱分辨率,提取高维的局部特征,这使得递归网络可以方便地进行序列建模。dprnn(dual-path recurrent neural network,双路径递归神经网络)是一种时域分离网络,它将长序列输入分割成段,并沿两条连续路径应用块内递归神经网络和块间递归神经网络,分别用于处理局部和全局信息。dpcrn(dual-path complex recurrent network,双路径卷积递归网络)将这两种方法结合起来,使用块内递归神经网络和块间递归神经网络,而不是原始的递归网络,作为crn中的处理块。块内递归神经网络沿着整个频率轴进行建模,耦合各频点之间的关系,而块间递归神经网络针对连续帧的相关性进行处理。
6.近年来,注意机制一直是一个活跃的研究领域。注意力模型的出发点在于,在进行编码时,网络应该学会有针对性地对输入序列中的不同部分施以关注。mha(multi-head attention,多头注意力)网络是自然语言处理领域的一个具有代表性的工作,已经有不少
研究将这种架构整合到语音处理网络中。sepformer(subakan,cem,et al."attention is all you need in speech separation."icassp 2021-2021ieee international conference on acoustics,speech and signal processing(icassp).ieee,2021)用mha网络取代了dprnn中的递归神经网络,在语音分离任务上有不错的表现。mha网络的一个突出优点是,它可以捕获长序列的关系,并且具有并行计算能力,避免了递归神经网络计算效率低下的问题。


技术实现要素:

7.为了有效地处理全频带信息,本发明在dpcrn结构的基础上,结合使用了一组可学习的频谱压缩、逆压缩变换,同时将多头自注意力机制用在频域上,取代原dpcrn中的块内rnn(recurrent neural network,递归神经网络),用于构建全频段各频点的关系。
8.本发明采用的技术方案为:
9.基于频谱压缩和自注意力神经网络的全频带语音增强方法,包括以下步骤:
10.步骤1,使用清晰语音数据集、噪声数据集以及房间冲激响应数据集合成模拟含噪混响语音;
11.步骤2,对所述模拟含噪混响语音数据和对应的纯净混响语音数据分别做短时傅里叶变换得到两者的短时傅里叶谱;
12.步骤3,构建scm-dparn模型,该模型通过频谱压缩映射模块scm将频谱进行压缩后,输入到在频域使用了自注意力机制的双路径注意力循环神经网络dparn中;使用步骤2得到的短时傅里叶谱训练所述scm-dparn模型权重;
13.步骤4,对待增强的含噪混响语音信号做短时傅里叶变换得到短时傅里叶谱;
14.步骤5,将步骤4获得的短时傅里叶谱输入步骤3完成训练的scm-dparn模型,得到增强语音的短时傅里叶谱;
15.步骤6,对所述增强语音的短时傅里叶谱进行逆短时傅里叶变换得到增强语音的时域信号。
16.本发明利用频谱压缩变换有效地对高频信息进行压缩,同时用多头自注意力网络取代频域的递归神经网络,对频域的全局信息进行建模,使模型具有更好的噪声抑制和语音质量保留能力。具体优点如下:
17.(1)本发明的方法能够在复杂的噪声环境中,例如急促敲击声、婴儿啼哭声、桌椅拖拉声、低信噪比环境下,以一个轻量级的网络模型有效地进行全频带语音增强。
18.(2)低频固定、高频可学习的压缩变换能够有效地克服全频带语音处理的障碍。
19.(3)多头自注意力机制有强大的序列建模能力,能够高效地处理频率轴上的全局信息,且能够进行并行运算,便于实施实时的语音增强。
附图说明
20.图1是本发明在训练阶段和增强阶段的方法处理流程图。
21.图2是本发明当中的scm(spectral compression mapping,频谱压缩映射模块)示意图。横坐标为原始频谱,纵坐标为压缩后的频谱。intact指相应部分频谱不受压缩,compressed指相应部分频谱受到压缩。fixed指固定不变的部分参数,learnable指可学习
的部分参数。图中曲线为初始化曲线,其右上角的对数压缩部分由三角滤波器(triangular filter)实现。
22.图3是scm-dparn模型整体框架,dparn(dual-path attention-recurrent network)即双路径注意力循环神经网络。scm(spectral compression mapping)指频谱压缩映射模块,iscm(inverse spectral compression mapping)指逆频谱压缩映射模块,encoder指编码器,real decoder指复数谱实部解码器,imaginary decoder指复数谱虚部解码器,skip connection指跳跃式传递运算,couple指将实虚部整合为复数谱。
23.图4的(a)和(b)分别是encoder和decoder的具体框图。conv output x是指第x层卷积计算的输出,conv2d指2维卷积层,bn(batch normalization)指批规范化,transconv2d是2维反卷积层。
24.图5的(a)是dparn的处理模块的具体框图。mhablock指多头注意力网络块,fc指全连接层,in指实例标准化。intra block指帧内处理模块,inter block指帧间处理模块。f’、t、c分别指经过scm和encoder压缩后的频率维度、时间维度、局部特征向量维度。permute表示张量的转置操作。箭头表示了网络进行序列信息处理的方向。(b)是多头注意力网络块的具体框图。linear指线性层,scaled dot-product attention指放缩的点积注意力计算,add指相加,norm指标准化处理,feed forward是前馈神经网络。
具体实施方式
25.本实施例提供一种基于频谱压缩和自注意力神经网络的全频带语音增强方法,如图1所示,包括以下步骤:
26.步骤1,使用清晰语音数据集、噪声数据集以及房间冲激响应数据集合成模拟含噪混响语音;
27.步骤2,对模拟含噪混响语音数据和对应的纯净混响语音数据分别做短时傅里叶变换得到两者的短时傅里叶谱;
28.步骤3,构建scm-dparn模型,该模型通过scm将频谱进行压缩,输入在频域使用了自注意力机制的复数谱增强网络dparn;其中scm用特定的参数初始化;使用步骤2得到的短时傅里叶谱训练所述scm-dparn模型权重;
29.步骤4,对待增强的含噪混响语音信号做短时傅里叶变换得到短时傅里叶谱;
30.步骤5,将步骤4获得的短时傅里叶谱输入步骤3完成训练的scm-dparn模型,输出增强语音的短时傅里叶谱;
31.步骤6,对增强语音的短时傅里叶谱进行逆短时傅里叶变换得到增强语音的时域信号。
32.1、scm变化及逆变换。
33.对于全频带语音增强任务,如果保持频谱的清晰度,直接扩张使用宽带的语音增强模型、增加网络的频率维度,是一个较差的策略。一方面,它可能会三倍地、甚至高于三倍地(取决于网络的结构)提高计算量,大大增加硬件的计算负担;另一方面,由于语音的能量分布在高频较为稀疏,而此时计算资源严重地向高频倾斜,会使得网络学习较为困难。由此,本发明使用一个scm方法,有效地提取频谱信息,将f维的频谱压缩为一个维度较低(fc维)的新频谱。scm的频谱变换公式借鉴于梅尔谱的变换公式,在5khz以下的频带范围内保
留所有频率信息,在5khz-24khz的频带范围内对频率进行对数映射:
[0034][0035]
其中,原频带和压缩后频带分别为f和fc。
[0036]
根据变换公式(1),使用三角滤波器组得到一个频谱压缩变换矩阵。为了进一步采取有益于网络的学习的变换模式,使用一个全连接层来对这个变换矩阵进行学习,并将其用上述提到的频谱压缩变换矩阵初始化。为了保证低频的信息得到足够精细的处理,低频(5khz以下,对应前k个维度的频率特征)部分的权重设置为固定的,高频(5khz-24khz,对应后f
c-k个维度的频率特征)部分的权重设置为可学习的。scm模块的设定以及其初始化值对应的曲线如图2所示。iscm(inverse spectral compression mapping,逆频谱压缩映射)也是通过一个可学习的全连接层来实现的,不同的是它不需要特定初始化,并且没有固定权重部分。
[0037]
2、scm-dparn模型及其训练。
[0038]
scm-dparn模型的框图如图3所示,由一组编解码器和一个处理模块组成。在编码器(encoder)之前、实虚部解码器(decoder)之后分别使用scm和iscm层,编解码器之间使用dparn在输入的语谱特征上提取纯净语音信息。dparn以dpcrn的结构为基础,先后在频率、时间两条路径上分别建模。dparn在对频率方向上的信息进行建模时,使用多头自注意力机制取代循环网络,以处理不同频点间的耦合关系。相比于循环网络,多头自注意力网络能够有更强的序列处理能力,更能够兼顾全局的信息,对频域全局的信息进行更有效的信息整合。在时间方向上的处理阶段,dparn使用递归神经网络对频谱各帧之间的关系进行建模,递归神经网络能够以较小的计算代价处理时序关系,以实现语音增强的实时处理。本发明的一个重要创新点即在于这种处理策略:用自注意力网络对同一帧内的整体频谱进行建模、用循环网络对同一频点在不同帧之间的时间依赖性进行建模。
[0039]
scm-dparn模型的输入为含噪混响信号的短时傅里叶谱x,其输出为估计的纯净语音
[0040][0041]
代表神经网络scm-dparn。训练通过使用随机梯度下降法最小化损失函数l实现:
[0042][0043]
1)模型参数设置
[0044]
所有音频数据的采样率为48khz,短时傅里叶变换的窗长为25ms,帧与帧之间的重叠率为50%。输入网络的全频带频谱维数f为601,经scm压缩后的频谱维数fc为256,低频带(5khz以下)对应的维数k为125。为实现批量运算以提高计算效率,在进行训练时,本实施例固定每一段输入语音的时长为8s。复数谱的实部、虚部作为不同的两个通道拼接在一起输入网络,即网络输入的张量形状为(f,t,2),其中t代表帧数。
[0045]
在编码器(encoder)部分,本实施例使用5个二维卷积层(conv2d),其特征通道数(filters)、卷积核尺寸(kernel-size)、步长(stride)分别为{16,32,48,64,80},{(2,5),(2,3),(2,3),(2,3),(2,1)},{(1,2),(1,1),(1,1),(1,1),(1,1)},第一个数字代表频率维
methods for noise-robust text-to-speech.in ssw.pp.146-152.)测试了scm-dparn模型的性能。语音部分,它从vctk(veaux,christophe;yamagishi,junichi;macdonald,kirsten.(2017).cstr vctk corpus:english multi-speaker corpus for cstr voice cloning toolkit,[sound].university of edinburgh.the centre for speech technology research(cstr).)语音数据集选取了28个说话人作为训练集,并另外选取了2个说话人作为测试集;噪声部分,它选取了8类来自于demand(thiemann,j.,ito,n.,&vincent,e.(2013,june).the diverse environments multi-channel acoustic noise database(demand):a database of multichannel environmental noise recordings.in proceedings of meetings on acoustics ica2013(vol.19,no.1,p.035081).acoustical society of america.)的真实噪声和2类生成噪声用于训练,并另外选取了5类demand噪声用于测试。训练数据的含噪语音snr(signal-to-noise ratios,信噪比)为{0db,5db,10db,15db},测试数据的含噪语音snr为{2.5db,7.5db,12.5db and 17.5db}。训练数据集总共10小时左右。对应的客观评价指标包括pesq(perceptual evaluation of speech quality,感知语音质量评价)、stoi(shorter-time objective intelligibility,短时客观可懂度)、si-sdr(scale-invariant signal-to-distortion ratios,尺度不变信失真比)。对比的模型包括rnnoise(valin,j.m.(2018,august).a hybrid dsp/deep learning approach to real-time full-band speech enhancement.in 2018ieee 20th international workshop on multimedia signal processing(mmsp)(pp.1-5).ieee.)、perceptnet(valin,j.m.,isik,u.,phansalkar,n.,giri,r.,helwani,k.,&krishnaswamy,a.(2020).a perceptually-motivated approach for low-complexity,real-time enhancement of fullband speech.)、deepfilternet(h.,rosenkranz,t.,&maier,a.(2021).deepfilternet:a low complexity speech enhancement framework for full-band audio based on deep filtering)、s-dccrn(lv,s.,fu,y.,xing,m.,sun,j.,xie,l.,huang,j.,...&yu,t.(2021).s-dccrn:super wide band dccrn with learnable complex feature for speech enhancement.)。
[0062]
另外,在dns4(dubey,h.,gopal,v.,cutler,r.,aazami,a.,matusevych,s.,braun,s.,...&aichner,r.(2022).icassp 2022deep noise suppression challenge.)的训练数据集和盲测试数据集上进一步测试了scm-dparn模型的性能。dns4的训练集语音包括英语、法语、德语、意大利语、俄罗斯语、西班牙语、情绪性语音和歌声。含有约70000个音频(总时长约600小时),本实施例使用其中90%为训练集(training set),10%为检验集(validation set),产生混响所需的房间冲激响应(room impulse response,rir)来自于openslr26和openslr28(ko,t.,peddinti,v.,povey,d.,seltzer,m.l.,&khudanpur,s.(2017,march).a study on data augmentation of reverberant speech for robust speech recognition.in 2017ieee international conference on acoustics,speech and signal processing(icassp)pp.5220-5224.),将清晰语音随机地与rir进行卷积并与噪声相加得到含噪混响信号,信噪比在[-5db,15db]范围内以1db为间隔随机选取。由于盲测试集为真实录制的含噪语音,没有对应的纯净语音,所以采取非侵入式的dnsmos p.835和dnsmos p.808作为指标。其中bak、sig、ovrl分别代表语音的噪声抑制分数、语音质量分数、总体质量分数。对比的模型为nsnet2(xia,y.,braun,s.,reddy,c.k.,dubey,h.,
cutler,r.,&tashev,i.(2020,may).weighted speech distortion losses for neural-network-based real-time speech enhancement.in icassp 2020-2020ieee international conference on acoustics,speech and signal processing(icassp)pp.871-875.)
[0063]
4、实验结果。
[0064]
vctk-demand数据集上实验结果见表1。本发明在各指标上,相对于其它的模型都取得了最好的分数。
[0065]
表1.vctk-demand数据集结果。
[0066]
modelspara.(m)pesqstoisi-sdrnoisy-1.9792.18.41rnnoise0.062.29
‑‑
perceptnet82.73
‑‑
deepfilternet1.82.81-16.63s-dccrn2.342.8494-scm-dparn0.892.9294.218.28
[0067]
dns4数据集上的结果如下,本发明相比于基线模型nsnet2有显著的性能优势。
[0068]
表2.dns4数据集结果
[0069]

技术特征:
1.基于频谱压缩和自注意力神经网络的全频带语音增强方法,其特征在于,该方法包括以下步骤:步骤1,使用清晰语音数据集、噪声数据集以及房间冲激响应数据集合成模拟含噪混响语音;步骤2,对所述模拟含噪混响语音数据和对应的纯净混响语音数据分别做短时傅里叶变换得到两者的短时傅里叶谱;步骤3,构建scm-dparn模型,该模型通过频谱压缩映射模块scm将频谱进行压缩后,输入到在频域使用了自注意力机制的双路径注意力循环神经网络dparn中;使用步骤2得到的短时傅里叶谱训练所述scm-dparn模型权重;步骤4,对待增强的含噪混响语音信号做短时傅里叶变换得到短时傅里叶谱;步骤5,将步骤4获得的短时傅里叶谱输入步骤3完成训练的scm-dparn模型,得到增强语音的短时傅里叶谱;步骤6,对所述增强语音的短时傅里叶谱进行逆短时傅里叶变换得到增强语音的时域信号。2.根据权利要求1所述的基于频谱压缩和自注意力神经网络的全频带语音增强方法,其特征在于,所述步骤3中,所述频谱压缩映射模块scm对于0khz-5khz频带内的低频信息完全保留,对5khz-24khz频带内信息进行压缩,其压缩矩阵设置为可学习的参数,并且利用对数形式的变换曲线初始化,压缩曲线的公式如下:其中,f和f
c
分别为原频带和压缩后频带。3.根据权利要求2所述的基于频谱压缩和自注意力神经网络的全频带语音增强方法,其特征在于,所述步骤3中,双路径注意力循环神经网络dparn由一组编解码器和一个增强处理网络组成,其中增强处理网络在频域方向上使用多头自注意力机制对频点之间的关系进行建模,然后在时域方向上使用递归神经网络对频谱各帧之间的关系进行建模。

技术总结
本发明公开了一种基于频谱压缩和自注意力神经网络的全频带语音增强方法。其步骤为:使用清晰语音数据集、噪声数据集以及房间冲激响应数据集合成模拟含噪混响语音;对模拟含噪混响语音数据和对应的纯净混响语音数据分别做短时傅里叶变换得到短时傅里叶谱;使用短时傅里叶谱训练SCM-DPARN模型权重;对待增强的含噪混响语音信号做短时傅里叶变换得到短时傅里叶谱;将待增强的含噪混响语音短时傅里叶谱输入完成训练的SCM-DPARN模型,得到增强语音的短时傅里叶谱;最后对增强语音的短时傅里叶谱进行逆短时傅里叶变换得到增强语音的时域信号。本发明对频域的全局信息进行建模,使模型具有更好的噪声抑制和语音质量保留能力。模型具有更好的噪声抑制和语音质量保留能力。模型具有更好的噪声抑制和语音质量保留能力。


技术研发人员:胡沁雯 侯仲舒 卢晶 朱长宝 张哲会 刘磊
受保护的技术使用者:北京地平线信息技术有限公司
技术研发日:2022.06.17
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-11280.html

最新回复(0)