本发明涉及语音增强,具体是涉及一种场景感知的视听语音增强方法、装置、介质及程序产品。
背景技术:
1、语音增强(speech enhancement,se)旨在从被噪声干扰的语音记录中提取出干净的原始语音信号,以抑制或降低噪声的干扰,从而提高语音可靠度和感知质量。语音增强在各种应用中发挥重要作用,如助听器、语音识别、说话人跟踪等。
2、随着机器学习的发展,机器学习的相关技术被应用在语音增强中,特别是基于深度神经网络的语音增强方案,在提取特征和从复杂的声学环境中分离信号方面显示出强大的能力。
3、人类使用多模态线索来探索、捕捉和感知显示世界。近几十年来,人们对音频和视觉之间的语义、时间和空间一致性进行了研究。将视频信息作为一种补充,可以发现在声学场景中丢失的细节,由此实现的视听语音增强(audio-visual speech enhancement ,avse)提供了更健壮和更精确的增强能力。
4、现有的一种方案是利用时间同步的面部或嘴唇运动来提高语音增强的清晰度和感知能力。尽管该方案优于一般的语音增强方案,但实际应用时很多场景无法准确采集到面部或嘴唇运动的变化,而不准确的面部或嘴唇检测可能导致语音增强的性能下降。
5、现有的另一种方案是基于上下文信息的语音增强方案,通过上下文信息增强音频数据,上下文信息包括说话人身份、情绪状态和环境噪声等多种来源。该方案通过多种独立编码器分别处理这些输入,每个编码器被设计用于处理特定的数据类型,这种模块化设计允许系统专注于分析音频信号和周围上下文的不同方面。上下文数据主要来自于元数据或额外的音频线索,随后用于增强噪声环境下语音信号的清晰度。然而,这种方案通过专门编码器分析和编码各种上下文因素,在语音增强效果上仍有待提高。
技术实现思路
1、本发明的第一目的是提供一种提高语音增强效果的场景感知的视听语音增强方法。
2、本发明的第二目的是提供一种实现上述场景感知的视听语音增强方法的计算机装置。
3、本发明的第三目的是提供一种实现上述场景感知的视听语音增强方法的计算机可读存储介质。
4、本发明的第四目的是提供一种实现上述场景感知的视听语音增强方法的计算机程序产品。
5、为了实现上述的第一目的,本发明提供的一种场景感知的视听语音增强方法,其中,包括以下步骤:通过预训练的对比视听掩码自动编码器提取当前场景对应的视觉场景嵌入和场景感知音频嵌入;使用一维卷积层对经过短时傅里叶变换的嘈杂语音信号进行编码,得到声学频谱嵌入;将视觉场景嵌入、场景感知音频嵌入和声学频谱嵌入融合得到融合特征表示;通过conmamba模块处理融合特征表示,得到扩展相位敏感掩码;基于扩展相位敏感掩码和嘈杂语音信号进行逆短时傅里叶变换,得到增强语音信号。
6、由上述方案可见,本发明提供一种多模态方法,将视觉场景信息与音频数据整合,视觉输入来自视频流,可捕捉环境上下文中的噪声源。这种更广泛的视觉上下文范围通过conmamba架构进行处理,该架构结合了conformer模块和 mamba 模块,conformer模块侧重于数据中的全局交互,而mamba模块利用选择性状态空间模型(selective state spacemodels,ssm)处理时间依赖性。这种组合架构使系统能够同时捕捉远程和局部特征,应用在复杂的噪声环境中,可使得集成视觉和音频频数据以增强语音质量尤其有效。相较于面部或嘴唇运动,环境信息的视觉线索,本发明基于噪声场景或发出噪声的背景物体更容易捕捉,使用视觉环境线索为语音增强提供有价值的补充更为实用。相较于通过专门编码器分析和编码上下文因素,然后利用这些信息精炼音频信号的方式,本发明将视觉线索作为增强策略的组成部分,可以进一步提高语音增强的效果。
7、进一步的方案是,通过预训练的对比视听掩码自动编码器提取当前场景对应的视觉场景嵌入和场景感知音频嵌入,包括:使用上采样层将当前场景的视频特征长度和音频特征长度进行匹配。
8、由此可见,在提取视觉场景嵌入和场景感知音频嵌入的过程中,为了确保视频和音频之间的时间同步,设置有上采样层将视频特征长度和音频特征长度匹配,保证后续特征融合的效果。
9、进一步的方案是,通过预训练的对比视听掩码自动编码器提取当前场景对应的视觉场景嵌入和场景感知音频嵌入,包括:通过预训练的对比视听掩码自动编码器中的视频编码器提取当前场景对应的视觉场景嵌入;通过预训练的对比视听掩码自动编码器中的音频编码器提取当前场景对应的场景感知音频嵌入。
10、由此可见,由于预训练的对比视听掩码自动编码器采用对比学习策略,捕获了音频和视频之间的时间和语义一致性,可分别提取得到视觉场景嵌入和场景感知音频嵌入。
11、进一步的方案是,将视觉场景嵌入、场景感知音频嵌入和声学频谱嵌入拼接得到融合特征表示。
12、由此可见,通过将视觉场景嵌入、场景感知音频嵌入和声学频谱嵌入拼接的方式进行融合,得到较好的语音增强质量效果。
13、进一步的方案是,conmamba模块通过模型训练得到,模型训练包括:设置噪声和对应的视觉场景的数据集和干净语音数据集;通过动态混合干净语音数据集的干净语音片段和噪声和对应的视觉场景的数据集的噪声片段,并以-10到20db之间随机采样的信噪比实时生成带噪混合片段;基于带噪混合片段进行conmamba模块的训练。
14、进一步的方案是,模型训练时,还包括:conmamba模块使用10个带噪混合片段进行一次梯度更新。
15、由此可见,可以提高模型训练效果。
16、为了实现上述的第二目的,本发明提供的一种计算机装置,包括处理器和存储器,其中:存储器上存储有计算机程序,计算机程序被处理器执行时实现上述的场景感知的视听语音增强方法。
17、为了实现上述的第三目的,本发明提供的一种计算机可读存储介质,其上存储有计算机程序,其中:计算机程序被处理器执行时实现上述的场景感知的视听语音增强方法。
18、为了实现上述的第四目的,本发明提供的一种计算机程序产品,包括计算机指令,其中:计算机指令被处理器执行时实现上述的场景感知的视听语音增强方法。
1.一种场景感知的视听语音增强方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种场景感知的视听语音增强方法,其特征在于:
3.如权利要求2所述的一种场景感知的视听语音增强方法,其特征在于:
4.如权利要求1所述的一种场景感知的视听语音增强方法,其特征在于:
5.如权利要求1至4任一项所述的一种场景感知的视听语音增强方法,其特征在于:
6.如权利要求5所述的一种场景感知的视听语音增强方法,其特征在于:
7.一种计算机装置,包括处理器和存储器,其特征在于:
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:
9.一种计算机程序产品,包括计算机指令,其特征在于:
