基于期望信号的机器学习水平估计的自动增益控制的制作方法

专利2023-09-03  121

1.本公开的各方面和实施方式涉及音频处理领域,并且更具体地涉及使自动增益控制基于期望信号水平的机器学习估计。
背景技术
::2.自动增益控制(agc)是调整输入信号的增益以便建立归一化的输出信号水平的音频预处理器。agc的目的是为收听者提供舒适的音频输出,并且经常用在音频会议和视频会议设备中。agc可以朝着设定的平均信号水平增加弱输入信号并且减小强输入信号,以便产生适当和稳定的输出音量。在音频会议中,agc可以放大弱语音并且抑制大背景噪声以产生舒适的语音输出水平。技术实现要素:3.以下是本公开的简化概述,以便提供对本公开的一些方面的基本理解。该概述不是本公开的广泛综述。其既不旨在识别本公开的关键或重要元素,也不旨在描绘本公开的特定实施例的任何范围或权利要求的任何范围。其唯一目的是以简化形式呈现本公开的一些概念,作为稍后呈现的更详细描述的序言。4.在一些实施方式中,公开了一种用于基于期望信号的机器学习估计的自动增益控制的系统和方法。处理设备可以通过多个通道接收对应于多个频率范围的音频数据。针对每个通道的每个频率范围,处理设备可以通过将来自每个相应频率范围的音频数据输入到被训练以确定给定音频数据的语音音频能量水平和噪声能量水平的机器学习模型中来确定语音音频能量水平和/或噪声能量水平。使用每个频率范围的语音音频能量水平和/或噪声能量水平,处理设备可以确定从每个通道接收到的音频的语音信号。语音信号可以表示去除了背景噪声的原始音频数据,有时称为去噪信号。5.处理设备然后可以针对每个通道确定语音信号的能量以及平滑语音信号的能量。测量信号的能量的一种方式是确定信号的均方根。因此,在一些实施方式中,处理设备可以针对每个通道确定语音信号的均方根,以及平滑语音信号的均方根。该均方根是给定持续时间上的声音信号的平方的平均值的平方根。在其他实施方式中,处理设备可以使用不同的测量技术来测量能量。例如,处理设备可以使用信号的峰值测量或峰值到峰值测量。峰值噪声测量是零与信号中的最高点之间的信号范围。峰值到峰值噪声测量是在最负信号和最正信号之间的信号范围。出于说明的目的,本公开根据均方根来讨论语音信号的能量,然而可以使用其他能量测量。6.具有最高语音信号均方根和最高平滑语音信号均方根的通道可以被确定为最强通道。如果最强通道的语音信号的均方根和最强通道的平滑语音信号的平滑均方根二者都满足阈值条件,则处理设备可以将每个通道的语音信号与最强通道的语音信号进行比较。具体地,处理设备可以将每个通道的语音信号的均方根与最强通道的语音信号的均方根进行比较,并且将每个通道的平滑语音信号的均方根与最强通道的平滑语音信号的均方根进行比较。取决于该比较,处理设备可以基于相应通道的平滑语音信号的均方根来确定是否更新用于相应通道的增益值。7.以上概述并且在下面更详细描述的主题能够提高视频会议和音频会议中的声音质量。视频会议或音频会议设备可以记录音频输入数据。基于所收集的音频数据,本文中描述的技术可以使用由机器学习模型估计的期望信号水平来改善音频系统的自动增益控制。因此,实现了较不易于突然或不期望的增益变化的较高音频质量。8.本文中描述的主题不限于以上示例性列出的优点。鉴于本技术的公开,进一步的优点是可实现的和可识别的。附图说明9.从下面给出的详细描述以及从本公开的各方面和实施方式的附图,将更充分地理解本公开的方面和实施方式,然而,不应将其视为将本公开限制于特定方面或实施方式,而仅用于解释和理解。10.图1图示了根据本公开的实施方式的用于基于期望信号的机器学习水平估计的自动增益控制的示例会议系统架构。11.图2描绘了根据本公开的实施方式的用于自动增益控制的系统架构的示例。12.图3描绘了根据本公开的实施方式的用于基于期望信号的机器学习水平估计的自动增益控制的方法的流程图。13.图4描绘了根据本公开的实施方式的确定是否更新输入通道的增益值的方法的流程图。14.图5描绘了根据本公开的实施方式的用于训练语音水平估计模型的系统架构的示例。15.图6描绘了根据本公开的实施方式操作的计算机系统的框图。16.当结合以下详细描述观察时,可以更好地理解这些附图。具体实施方式17.现代会议系统以及其它音频系统可以使用自动增益控制(agc)来将一个或多个输入信号的输出朝向预设信号水平调整,以产生几乎恒定的输出音量。自动增益控制的目标可以是增加语音的音量并且降低背景噪声的音量,同时维持输出信号的稳定音量。现代自动增益控制可以使用各种技术来区分输入信号中的语音和噪声。这些技术中的许多技术通过判定输入信号是噪声还是语音,使用每个输入通道的二元判定来对房间的噪声相对语音状态做出假设。这些假设可能忽略例如有噪声房间中的弱语音输入信号,从而导致减弱语音的不期望结果。18.另外,许多自动增益控制不考虑期望信号的输出水平,而是使用预设输出信号水平。使用预设输出信号水平可能导致减弱在有噪声房间中的语音,或者增强在安静房间中的噪声,这两者都导致可能令用户烦恼或分心的增益变化。这些自动增益控制通过减弱语音信号并且增强噪声信号而浪费了计算资源,因为它们没有考虑房间的状态和期望信号水平,从而导致潜在地难以理解的会议或不可理解的记录。19.本公开的各方面和实施方式通过使用机器学习模型的输出以通过去除背景噪声来增强在输入信号中检测到的语音,来解决上述和其他不足或问题。本公开的各方面然后可以使用增强的语音输入信号来估计期望信号的水平,并且使用在自动增益控制算法中所估计的信号水平来朝向所估计的期望信号水平逐渐地更新输出的增益。本公开的各方面还可以使用增强的语音输入信号来确定房间的当前状态,并且在自动增益控制判定中使用该确定。20.音频会议、视频会议或其它音频系统能够记录来自诸如麦克风的一个或多个输入通道的音频数据。音频系统可以分析音频数据,或者可以将音频数据传输到分开的处理设备,该分开的处理设备然后可以分析音频数据。针对每个输入通道,处理设备可以使用经训练的模型以确定每个音频信号中的语音音频的水平和噪声的水平。该模型可以使用机器学习和音频段来训练,其中每个机器学习和音频段都标记有包括在音频段中的语音音频的水平和包括在音频段中的噪声的水平。通过将模型应用于每个音频信号,处理设备能够创建去噪音频信号,即,去除了背景噪声的仅表示语音的信号。21.处理设备然后可以在自动增益控制中使用每个输入通道的去噪语音信号。处理设备可以确定每个通道的去噪语音信号的均方根,以及每个通道的平滑去噪语音信号的均方根。给定数据的均方根是与信号相关联的统计测量,并且计算一段时间的平均信号。针对音频信号,对信号值求平方,并且计算一段时间的平均值。然后计算结果的平方根以确定信号的均方根。音频信号的均方根表示该音频信号的有效功率或强度。22.替代地或另外,处理设备可以使用其他公知的测量方法来测量音频信号的能量水平,并且不限于使用均方根来测量信号的能量水平。例如,处理设备可以使用信号的峰值测量或信号的峰值到峰值测量作为与通道的语音信号的能量水平相关联的一个或多个统计值。峰值噪声测量是零与信号中的最高点之间的信号范围。峰值到峰值噪声测量是在最负信号和最正信号之间的信号范围。出于说明的目的,本公开根据均方根来讨论语音信号的能量,然而可以使用其他能量测量。23.与通道的语音信号的能量水平相关联的另一统计值是与平滑去噪信号相关联的统计值。例如,处理设备还可以考虑每个通道的平滑去噪信号的均方根。在平滑音频信号时,信号的数据点被修改,使得比其邻近点更高的单独点被减少,并且比邻近点更低的单独数据点被增加,从而导致更平滑的信号。平滑可以导致改善的信噪比,并且可以充当低通滤波器,基本上减少高频分量并且使低频分量通过而几乎没有变化。信噪比可以将期望信号的水平与背景噪声的水平进行比较。在一个实施方式中,平滑可以具有75毫秒的半衰期。24.如果输入通道中的至少一个具有满足阈值条件的均方根和平滑均方根,则处理设备然后可以在最强通道的均方根和平滑均方根的预定义范围内调整具有均方根和平滑均方根的通道的增益值。处理设备可以朝向所估计的期望水平更新通道的增益。每个通道的所估计的期望水平可以基于该通道的平滑去噪语音信号的均方根。25.本公开的实施方式的一些技术优点包括增强例如在音频会议或视频会议期间的音频输出。本文中公开的系统和方法可以通过改善用于所有用户,诸如视频或音频会议的所有参加者,的音频输出来减少会议资源的低效和浪费的消耗。本公开的一些实施方式提供了更稳定的增益更新、会议设备中的更强信噪比以及对弱噪声和声音的更少调适。另外,本公开的一些实施方式允许更快地收敛到期望增益值,从而导致更少的浪费的资源。26.下面通过示例而不是限制的方式详细描述上面引用的方法和系统的各方面。27.图1图示了根据本公开的实施方式的用于基于期望信号的机器学习水平估计的自动增益控制的示例系统架构100。28.系统架构100可以包括通过网络105彼此连接的一个或多个会议设备110a-110n。在其它实施方式中,会议设备110a-110n可以直接彼此通信。网络105可以是公共网络(例如,互联网)、专用网络(例如,局域网(lan)或广域网(wan))或其组合。网络105可以包括无线基础设施,其可以由一个或多个无线通信系统提供,诸如与网络105连接的无线保真(wifi)热点和/或能够使用各种数据处理设备、通信塔等实现的无线载波系统。另外或替代地,网络105能够包括有线基础设施(例如,以太网)。29.会议设备110a-110n可以是音频会议设备或视频会议设备。在其它实施方式中,会议设备110a-110n可以是其它音频处理设备。会议设备110a-110n可以包括一个或多个麦克风;摄像机或网络摄像机,用于提供视频输入;用于广播视频输出的计算机屏幕、监视器、电视或投影机;用于音频输出的扬声器或耳机;以及计算设备,用于在分发端将模拟音频和视频数据压缩成数字分组并且在端点处解压缩数据。另外或替代地,这些特征中的全部或一些可以是分开的并且通信地耦合到会议设备110a-110n。30.在一个实施方式中,会议设备110a-110n可以从一个或多个输入通道101a-101m接收音频输入。输入通道101a-101m可以是麦克风和/或其他音频输入设备。会议设备110a-110n可以使用音频子系统处理通过每个输入通道101a-101m接收到的音频数据。音频子系统可以包括麦克风、模数转换器、缓冲器和各种其它音频滤波器。麦克风可以被配置成检测周围区域中的声音,诸如语音。模数转换器可以被配置成对由麦克风检测到的音频数据进行采样。缓冲器可以存储所采样的音频数据以供会议设备110a-110n处理和/或供会议设备110a-110n传输。在一些实施方式中,音频子系统可以是连续活动的,或者可以在会议设备110a-110n预期接收音频的时间期间(诸如在会议呼叫期间)是活动的。在这种情况下,麦克风可以响应于与另一会议设备110a-110n的会议呼叫的发起而检测音频。模数转换器可以在会议呼叫期间不断地对检测到的音频数据进行采样。缓冲器可以存储最新的采样音频数据,诸如声音的最后十毫秒。音频子系统可以将周围语音和背景噪声的采样和滤波的音频数据提供给会议设备110a-110n的另一组件。在一些实施方式中,会议设备110a-110n可以包括一个音频子系统或用于每个麦克风的音频子系统。31.会议设备110a-110n可以包括信号和噪声检测器112、具有对应状态140的状态机114、(多个)语音和噪声估计模型120、信号去噪器125、以及自动增益控制(agc)130。信号和噪声检测器112可以被配置成将来自每个输入通道101a-101m的经处理的音频应用于(多个)语音和噪声估计模型120。信号和噪声检测器112可以使用(多个)语音和噪声估计模型120来估计通过每个通道101a-101m接收到的语音信号量和噪声量。信号和噪声检测器112可以提供来自每个输入通道101a-101m的特定秒数的音频作为(多个)语音和噪声估计模型120的输入。例如,信号和噪声检测器112可以提供通过每个输入通道101a-101m接收到的音频的最后八毫秒、十毫秒、十六毫秒或另一时间段作为(多个)语音和噪声估计模型120的输入。32.信号和噪声检测器112可以使用(多个)语音和噪声估计模型120来分析通过每个输入通道101a-101m接收到的音频的几秒。在一些实施方式中,信号和噪声检测器112可以分析包括几毫秒音频的部分中的音频,诸如三或四毫秒音频。信号和噪声检测器112可以将(多个)语音和噪声估计模型120的输出应用于信号去噪器125以确定每个输入通道101a-101m的降噪语音信号。33.在一些实施方式中,信号和噪声检测器112以及(多个)语音和噪声估计模型120可以被配置成确定每个音频通道的每个频率范围的音频特性。该音频特性可以指示每个通道的音频信号中的语音水平和噪声水平。信号和噪声检测器112可以通过输入通道101a接收音频数据,并且将音频数据分段成不同的频率范围(也称为频带)中。频带可以是,例如,一百赫兹频带、一百二十五赫兹频带或另一类似的频带大小。信号和噪声检测器112可以提供每个频带的音频作为到不同的语音和噪声估计模型120的输入,该模型被训练以确定该特定频带中的音频特性。另外或替代地,语音和噪声估计模型120可以被配置成确定音频数据中的多个频带的音频特性。34.在一些实施方式中,信号和噪声检测器112以及(多个)语音和噪声估计模型120可以被配置成确定时域中的每个音频通道的音频特性。信号和噪声检测器112可以通过输入通道101a-101m接收音频数据,并且将音频数据分段成时间相关部分(例如,2毫秒、5毫秒、20毫秒等)。每个时间相关部分作为音频数据中的开始时间和结束时间。信号和噪声检测器112可以提供音频数据的时间相关部分作为对语音和噪声估计模型120的输入,该模型120被训练以确定去噪信号。在时域中训练的语音和噪声估计模型120然后可以输出去除了每个通道的音频信号的噪声的语音信号。35.会议设备110a-110n可以包括状态机114,其可以存储音频会议设备110a-110n的当前状态116。状态机114使用(多个)语音和噪声估计模型120基于由信号和噪声检测器112确定的音频特性来维持或调整会议设备110a-110n的当前状态116。状态机114可以将当前状态116设置为四个状态140中的一个。状态140可以包括语音状态142、静默状态144、噪声状态146和不确定状态148。每当信号和噪声检测器112生成附加音频特性时,状态机114可以维持或切换当前状态116。36.如果存在一个或多个具有高于信号水平阈值的信号水平的通道,则状态机114可以将当前状态116设置为语音状态142。如果存在一个或多个具有高于信噪水平比的信噪比的通道,则状态机114可以将当前状态116设置为语音状态142。信噪比可以将期望信号的水平与背景噪声的水平进行比较。在一些情况下,状态机114可以仅在噪声水平低于噪声水平阈值时将当前状态116设置为语音状态142。37.如果所有通道具有低于信号水平阈值的信号水平,则状态机114可以将当前状态116设置为静默状态144。如果所有通道具有低于信噪水平比阈值的信噪比,则状态机114可以将当前状态116设置为静默状态144。38.如果所有通道具有高于噪声水平阈值的噪声水平,则状态机114可以将当前状态116设置为噪声状态146。如果所有通道具有大于信号水平的噪声水平或者如果噪声水平比信号水平大特定阈值或相对分贝水平,则状态机114可以将当前状态116设置为噪声状态146。39.如果所有通道具有在特定范围内的信号水平,则状态机114可以将当前状态116设置为不确定状态148。该范围可以指示信号能够是静默或语音。该范围可以,例如,从三十分贝到四十分贝,或者另一范围。40.会议设备110a-110n可以包括自动增益控制(agc)130,其基于当前状态116和来自信号去噪器125的去噪信号来自动地更新每个输入通道101a-101m的增益值。如果当前状态116被设置为噪声状态146或静默状态144,则agc可以不更新输入通道101a-101m中的任一个的增益值,因为调整噪声或静默的增益值可以产生不想要的结果。例如,增加增益值以适应于静默的房间可能导致高增益值,当语音发生时,该高增益值可能令人不舒服地高。作为另一示例,降低增益值以适应有噪声房间可能导致低增益值,当语音发生时,该低增益值可能太低,使得说话者难以听到。41.如果当前状态116被设置为语音状态142和不确定状态148,则agc130可以更新通道101a-101m的增益值。否则,agc130可以不更新通道101a-101m的增益值。为了更新增益值,agc130可以针对每个输入通道101a-101m计算来自信号去噪器125的去噪语音信号的均方根(rms)和来自信号去噪器125的去噪语音信号的平滑均方根,其也被称为平滑均方根(srms)。去噪语音信号被平滑,以便在忽略潜在的异常值的同时捕获信号中的重要图案。在一些实施方式中,agc130可以将去噪语音信号带通到指定频率区域。例如,在确定rms和srms时,agc130可以仅考虑频率的子集。因为语音能量针对高于特定水平的频率迅速下降,所以可以去除高频率,从而导致差的信噪比。42.agc130然后可以通过比较每个通道的rms和srms来确定最强通道。该最强通道可以是具有最高去噪语音信号rms以及最高去噪平滑语音信号srms的通道。如果最强通道的去噪语音信号的rms和srms各自超过相应阈值达到阈值时间段,则agc可以然后在最强通道的去噪语音信号rms和去噪平滑语音信号srms的预定义范围内分别更新具有去噪语音信号rms和去噪平滑语音信号srms的每个通道的增益。阈值时间段确保阈值条件已经被满足达到足够长的时间段(例如,2秒)。否则,agc130可以不更新通道101a-101m的增益值。使用阈值可以有助于避免适应弱噪声和信号,该弱噪声和信号可以导致在没有语音的时段中缓慢增加增益。在将rms和srms与阈值进行比较时,agc可以将所估计的语音带通到频率子集,例如,到频率区域350-4000hz。43.在一些实施方式中,agc130可以比较每个通道101a-101m的去噪语音信号的rms和srms以确定最强通道。agc130然后可以将每个通道101a-101m的去噪语音信号rms和去噪平滑语音信号srms分别与最强通道的去噪语音信号的rms和srms进行比较。如果诸如通道1(101a)的通道的去噪语音信号的rms处于最强通道的去噪语音信号rms的预定义范围内达到阈值时间段并且通道1(101a)的去噪平滑语音信号srms处于最强通道的去噪平滑语音信号srms的预定义范围内达到阈值时间段,则agc可以更新用于通道1(101a)的增益。否则,agc130可以不更新通道101a-101m的增益值。44.在更新每个通道101a-101m的增益值时,agc130可以考虑会议设备的当前状态116。如果当前状态116是语音状态142,则agc130可以将通道的增益值朝向目标值每秒更新第一分贝数。如果当前状态116是不确定状态148,则agc130可以将通道的增益值朝向目标值每秒更新第二分贝数。即,如果会议设备110a-110n的当前状态116是不确定状态148,则agc130可以更逐渐地更新通道的增益值,以便避免将增益调整到错误分类的信号。该功能可以帮助避免使增益适应噪声。agc130可以逐渐更新通道的增益,因为快速增益改变能够分散用户注意力并且使用户烦恼。45.用于通道的agc130的目标值可以基于用于该通道的平滑去噪语音信号的均方根。agc130可以具有目标增益值可以不超过的最大增益值,其用作避免不合理增益的安全措施。会议设备110a-110n然后可以传送每个通道的去噪信号及其相关联的增益值。46.图2描绘了根据本公开的实施方式的用于自动增益控制的系统架构200的示例。47.系统架构200包括一个或多个处理设备201和一个或多个数据存储250。在所示的示例中,处理设备201包括自动增益控制210。处理设备201可以被包括在图1中的会议设备110a-110n中。自动增益控制210可以包括均方根计算器212、声学场景状态确定器214、最强通道确定器216和增益更新器218。处理设备可以从一个或多个输入通道220a-220m接收音频数据。例如,这些输入通道可以来自麦克风。另外或替代地,输入通道220a-220m可以并入处理设备201中。处理设备201可以将来自每个输入通道220a-220m的数据输入到(多个)语音和噪声估计模型240中。(多个)语音和噪声估计模型240可以被训练以确定给定音频数据的语音音频能量水平和噪声能量水平。语音和噪声估计模型训练的一些实施方式在下面参考图5更详细地描述。(多个)语音和噪声估计模型240可以输出用于每个频率区间的语音掩码和/或噪声掩码。频率区间是音频数据中的频率的段。语音掩码可以是表示频率区间的语音音频能量水平的值,并且噪声掩码可以是表示频率区间的噪声能量水平的值。48.在一些实施方式中,(多个)语音和噪声估计模型240可以被训练以确定时域中的给定音频数据的语音音频能量水平和噪声能量水平。即,(多个)语音和噪声估计模型240可以针对未被分割成多个频率区间的一个或多个时间部分输出用于每个通道的去噪语音信号。49.处理设备201可以将从输入通道220a-220m接收到的音频数据以及对应于输入通道220a-220m的每个频率区间的语音和/或噪声掩码输入到信号去噪器260中。信号去噪器260可以通过将来自输入通道220a-220m的原始信号的频谱乘以语音掩码来形成去噪信号。该去噪信号可以被称为语音信号,并且可以被存储在数据存储250的语音信号262中。信号去噪器260还可以通过将来自输入通道220a-220m的原始信号的频谱乘以噪声掩码来形成噪声信号。该噪声信号可以被存储在数据存储250的噪声信号264中。然后,每个输入通道220a-220m的语音信号和噪声信号可以被输入到自动增益控制210中。50.均方根计算器212可以使处理设备201能够计算每个去噪语音信号262的均方根。然后,均方根可以被存储在数据存储250的均方根252中。均方根计算器212还可以平滑每个输入通道220a-220m的去噪语音信号262。去噪语音信号被平滑,以便在忽略潜在异常值的同时捕获信号中的重要图案。在一个实施方式中,平滑可以具有75毫秒的半衰期。均方根计算器212然后可以计算平滑语音信号的均方根,并且将平滑均方根存储在数据存储250的平滑均方根254中。51.在一些实施方式中,均方根计算器212将每个输入通道220a-220m的去噪语音信号262带通到预定频率区域,并且确定并存储带通信号的均方根和平滑均方根。52.声学场景状态确定器214可以确定会议设备的声学场景状态。声学场景状态确定器214可以执行与图1中的状态机114相同的功能。声学场景状态确定器214可以使用每个输入通道220a-220m的去噪语音信号262和/或每个输入通道220a-220m的噪声信号265来确定房间的场景状态。声学场景状态确定器214可以使处理设备201能够确定房间的场景状态是语音、不确定、噪声还是静默。声学场景状态然后可以被存储在数据存储250中的当前状态256中。53.在一些实施方式中,声学场景状态确定器214可以将每个通道的语音信号262和/或噪声信号265的均方根与一或多个阈值进行比较,以便确定语音是否支配环境或房间、噪声是否支配环境或房间、房间是否静默,或房间的场景是否不确定。另外或替代地,声学场景状态确定器214可以使用其它方法来确定房间的场景状态。54.最强通道确定器216可以使处理设备201能够确定具有最强语音信号262的通道。即,最强通道确定器216可以比较每个输入通道220a-220m的去噪语音信号262的均方根,以便确定最强信号。最强通道确定器216还可以比较每个平滑去噪信号262的均方根。最强通道258可以是具有最高均方根和最高平滑均方根的通道。最强通道可以被存储在数据存储250的最强通道258中。55.增益更新器218可以使处理设备201能够更新每个通道的目标增益值。自动增益控制210可以维持用于每个输入通道220a-220m的分开的增益。为了更新用于任何通道的增益,增益更新器218可以首先确定最强通道的均方根和平滑均方根是否超过它们相应的阈值达到阈值时间段。阈值可以帮助确保增益不适配于弱噪声或声音。在将均方根和平滑均方根与阈值进行比较时,增益更新器218可以将信号带通到频率区域。阈值时间段可以帮助确保增益不适用于噪声的突发脉冲,从而导致更稳定的自动增益控制。如果最强通道的均方根和平滑均方根超过它们相应的阈值达到阈值时间段,则增益更新器218可以更新处于最强通道的预定义范围内的每个通道的增益值。例如,针对第一通道,即,针对输入通道220a的去噪语音信号262,增益更新器218可以首先确定输入通道220a的去噪语音信号262的均方根252和平滑均方根254是否都在最强通道258的均方根和平滑均方根的预定范围内达到阈值时间段。如果是,则增益更新器218可以确定当前状态256是不确定的还是语音的达到阈值时间段。如果所有条件都已经被满足达到预定时间段,则增益更新器218可以更新用于第一通道,即,输入通道220a,的目标增益值260。目标增益值260可以是该通道的去噪语音信号262的平滑均方根254。56.增益更新器218可以逐渐地更新通道的增益值。如果当前状态256在阈值时间段内是语音,则增益更新器218可以以每秒第一分贝数,例如,每秒3分贝,来更新增益值。如果当前状态256不确定达到阈值时间段,则增益更新器218可以以每秒第二分贝数,例如每秒1分贝,来更新增益值。增益更新器218还可以包括目标增益值260可能不超过的最大增益值。57.图3和4描绘了根据本公开的一些实施方式执行的方法300和400的流程图。方法300和400可以由在会议设备110a-110n上运行的基于客户端的应用执行。基于客户端的应用可以由会议设备110a-110n的处理设备执行。58.为了解释的简单起见,本公开的方法300和400被描绘和描述为一系列动作。然而,根据本公开的动作能够以各种顺序和/或同时发生,并且与本文中未呈现和描述的其他动作一起发生。此外,根据所公开的主题,并非所有图示的动作都是实现方法300和400所必需的。另外,本领域技术人员将理解和明白,方法300和400可以可替换地经由状态图或事件被表示为一系列相互关联的状态。另外,应当理解,本说明书中公开的方法300和400能够被存储在制品上,以有助于将这种方法传送和转移到计算设备。如本文中所使用的术语“制品”旨在涵盖可从任何计算机可读设备或存储介质访问的计算机程序。59.图3是根据本公开的一些实施方式的用于基于期望信号的机器学习水平估计的自动增益控制的方法300的流程图。60.参照图3,在操作302处,会议设备110a-110n的处理设备可以通过一个或多个通道中的第一通道接收对应于多个频率范围的音频数据。会议设备110a-110n可以被配备有一个或多个麦克风,每个麦克风表示一个输入通道。在操作304处,针对用于每个通道的每个频率范围,处理设备可以通过提供每个频率范围的音频数据作为对被训练以确定给定音频的语音音频能量水平和噪声能量水平的模型的输入来确定语音音频能量水平和/或噪声能量水平。该模型可以返回表示每个频率范围中的语音水平的语音掩码,或者语音音频能量水平。该模型可以采用来自通道的所有频带作为输入阵列,并且向输出阵列提供每个频率区域的语音比例的估计(即,语音掩码)。该模型还可以返回表示每个频率中的噪声水平或噪声能量水平的噪声掩码。61.在操作306处,处理设备可以针对每个通道基于每个频率范围的语音音频能量水平和/或噪声能量水平来确定去除了噪声的语音信号。即,处理设备可以使用由机器学习模型确定的语音掩码和/或噪声掩码来对音频信号进行去噪。处理设备可以将每个频率范围的信号乘以其相关联的语音掩码,然后组合去噪频率范围以创建用于每个通道的去噪语音信号。62.在操作308处,处理设备可以确定与通道的去噪语音信号的能量水平相关联的一个或多个统计值。在一个实施方式中,处理设备可以确定用于每个通道的去噪语音信号的均方根以及去噪语音信号的平滑均方根(有时称为平滑均方根)。如上所述,去噪语音信号可以被平滑,以便在忽略潜在异常值的同时捕获信号中的重要图案。63.在操作310处,处理设备可以确定最强通道。最强通道可以是具有与相应通道的语音信号的能量水平相关联的最高的一个或多个统计值的通道。在一个实施方式中,最强通道可以是与其它通道相比具有最高去噪语音信号均方根和最高去噪语音信号平滑均方根的通道。64.在操作312处,处理设备可以确定与最强通道的语音信号的能量水平相关联的一个或多个统计值满足阈值条件。在一个实施方式中,处理设备可以确定最强通道的去噪语音信号的均方根和最强通道的去噪语音信号的平滑均方根是否满足阈值条件。如果最强通道的去噪语音信号均方根高于第一阈值达到一段时间并且最强通道的去噪语音信号平滑均方根高于第二阈值达到一段时间,则阈值条件被满足。在一些实施方式中,第一和第二阈值可以为相同值。如果不满足阈值条件,则该方法结束,并且处理设备可以不调整任何通道的增益。通过使用该阈值条件,该方法确保存在包含要针对其调整增益的语音的至少一个强输入通道。在没有阈值的情况下,处理设备可以调整具有弱噪声或声音的通道的增益,从而导致在没有语音的时段中缓慢地增加增益。65.如果操作312中的阈值条件被满足,则该方法继续到操作314。在操作314处,处理设备可以将与除了最强通道之外的每个通道的语音信号的能量水平相关联的一个或多个统计值和与最强通道的语音信号的能量水平相关联的对应的一个或多个统计值进行比较。在一个实施方式中,处理设备可以将每个通道的均方根和平滑均方根分别与最强通道的均方根和平滑均方根进行比较。66.在操作316处,取决于该比较,处理设备可以基于与相应通道的能量水平相关联的一个或多个统计值,例如,基于相应通道的语音信号的平滑均方根,来确定是否更新用于相应通道的增益值。即,针对处于最强通道的预定义范围内的每个通道,处理设备可以将该通道的增益值朝向目标增益值更新。每个通道的目标增益值是该通道的平滑均方根值。67.图4描绘了根据本公开的实施方式的确定是否更新用于输入通道的增益值的方法的流程图。68.在操作402处,处理设备可以确定与最强通道的能量水平相关联的一个或多个统计值中的一个是否超过第一阈值达到阈值时间段。在一个实施方式中,处理设备可以确定最强通道的语音信号的均方根是否超过第一阈值达到阈值时间段。在操作404处,处理设备然后可以确定与最强通道的能量水平相关联的一个或多个统计值中的第二个是否超过第二阈值达到阈值时间段。在一个实施方式中,处理设备可以确定最强通道的平滑语音信号的平滑均方根是否超过第二阈值达到阈值时间段。69.在操作406处,在将每个通道与最强通道进行比较时,处理设备可以确定与相应通道的能量水平相关联的一个或多个统计值是否已经在距与最强通道的能量水平相关联的对应的一个或多个统计值的预定义范围内。在一个实施方式中,处理设备可以确定相应通道的均方根和相应通道的平滑均方根是否已经在最强通道的均方根和最强通道的平滑均方根的预定义范围内。在操作408处,处理设备可以确定状态机的状态达到阈值时间段。70.在操作410处,响应于确定状态机的状态是语音状态达到阈值时间段,处理设备可以基于与相应通道的能量水平相关联的一个或多个统计值(例如,基于相应通道的平滑语音信号的均方根)朝向目标增益将相应通道的增益值更新不超过每秒第一分贝数,直到最大增益值。71.在操作412处,响应于确定状态机的状态是不确定状态达到阈值时间段,处理设备可以基于与相应通道的能量水平相关联的一个或多个统计值(例如,基于相应通道的平滑语音信号的均方根)朝向目标增益将相应通道的增益值更新不超过每秒第二分贝数,直到最大增益值。然后该方法结束。72.图5图示了根据本公开的实施方式的用于训练供在会议系统中使用的语音水平估计模型的示例系统500。系统500可以被包括在图1的会议设备110a-110n中,或者被包括在分开的计算设备中。该分开的计算设备可以是能够处理音频段的任何类型的计算设备。系统500可以训练用于图1的系统100中的(多个)语音和噪声估计模型120。73.系统500可以包括语音音频段504。语音音频段504可以包括说出不同短语的不同讲话者的干净段。例如,一个音频段可以是没有任何背景噪声的“canimakeanappointmentfortomorrow(我能预约明天吗)”的女人讲话。另一音频段可以是没有任何背景噪声的“pleasegivemedirectionstothestore(请告诉我去商店的路线指引)”的男人讲话。在一些实施方式中,语音音频段504可以包括低于特定阈值的背景噪声量,因为可能难以获得不包括任何背景噪声的语音音频段。在一些实施方式中,语音音频段可以由各种语音合成器利用不同话音生成。语音音频段504可以仅包括说出的音频片段、仅包括语音合成音频段、或者包括说出的音频段和语音合成音频段的混合。74.系统500可以包括噪声段502。噪声段502可以包括若干不同类型的噪声段。噪声段可以包括平稳噪声和/或非平稳噪声。例如,噪声段502可以包括街道噪声段、道路噪声段、鸡尾酒噪声段、办公室噪声段等。噪声段502可以通过麦克风收集或者可以由噪声合成器生成。75.噪声选择器506可以被配置成从噪声段502中选择噪声段。噪声选择器506可以被配置循环通过不同噪声段并且跟踪已经被选择的那些噪声段。噪声选择器506可以将所选择的噪声段提供给语音和噪声组合器510和信号强度测量器512。在一些实施方式中,噪声选择器506可以将一个噪声段提供到语音和噪声组合器510以及信号强度测量器512。在一些实施方式中,噪声选择器506可以向语音和噪声组合器510和信号强度测量器512提供多于一个的噪声段,诸如一个办公室噪声段和一个街道噪声段或两个办公室噪声段。76.语音音频段选择器508可以类似于噪声选择器那样操作。语音音频段选择器508可以被配置成循环通过不同的语音音频段,并且跟踪已经被选择的那些语音音频段。语音音频段选择器508可以将所选择的语音音频段提供给语音和噪声组合器510和信号强度测量器512。在一些实施方式中,语音音频段选择器508可以将一个语音音频段提供给语音和噪声组合器510和信号强度测量器512。在一些实施方式中,语音音频段选择器508可以向语音和噪声组合器510以及信号强度测量器512提供多于一个语音音频段,诸如“whattimeisthegameon(游戏什么时候开始)”的一个语音段和“allourtablesarebookedforthattime(我们所有的桌子在那个时段都已经预订)”的另一语音段。77.语音和噪声组合器510可以组合从噪声选择器506接收到的一个或多个噪声段和从语音音频片段选择器508接收到的一个或多个语音音频片段。语音和噪声组合器510可以通过重叠片段并且对片段求和来组合这些片段。在这种意义上,多于一个的语音音频段将重叠以模仿多于一个人同时谈话。在接收到的片段不都是相同时间长度的情况下,语音和噪声组合器510可以通过重复片段来扩展音频段,直到达到所需的时间长度。例如,如果语音音频段中的一个是“callmom(呼叫妈妈)”,而另一语音段是“canimakeareservationfortomorrowevening(我可以预约明天晚上)”,则语音和噪声组合器510可以连结“callmom”的多个片段以达到“canimakeareservationfortomorrowevening”的长度。在语音和噪声组合器510组合多个语音音频文件的情况下,语音和噪声组合器510可以输出添加了噪声的组合语音音频和没有添加噪声的组合语音音频。78.信号强度测量器512可以计算包括在每个组合的语音和噪声段中的单独语音音频段的信号强度和包括在每个组合的语音和噪声段中的单独噪声段的信号强度。在一些实施方式中,信号强度测量器512可以计算每个段中的特定时间段内的语音音频信号强度和噪声信号强度。例如,信号强度测量器512可以计算一秒时段、三秒时段或另一时间段上的语音音频信号强度和噪声信号强度。如果存在片段中剩余的音频,则强度测量器512可以计算附加信号强度。79.在一些实施方式中,信号强度测量器512可以针对每个片段中的不同频带计算语音音频信号强度和噪声信号强度。例如,信号强度测量器512可以针对每个一百赫兹频带、一百二十五赫兹频带或另一类似频带计算语音音频信号强度和噪声信号强度。80.在一些实施方式中,信号强度测量器512可以计算用于组合语音音频信号的语音音频信号强度。在这种情况下,信号强度测量器512以与上述类似的方式计算组合语音音频信号的信号强度。在一些实施方式中,信号强度测量器512可以计算用于组合噪声信号的噪声信号强度。在这种情况下,信号强度测量器512可以以与上述类似的方式计算组合噪声信号的信号强度。81.模型训练器514可以使用机器学习来训练模型。模型训练器514可以训练模型以接收包括语音和噪声以及输出音频段中包括的语音的语音信号强度值和音频段中包括的噪声的噪声信号强度值的音频段。为了训练模型,模型训练器514可以使用从语音和噪声组合器510接收到的音频段,该音频段包括语音和噪声并且被标记有语音信号强度值和噪声信号强度值。82.在一些实施方式中,信号强度标签包括用于音频段中的每个频带的语音信号强度值和噪声信号强度值。在这种情况下,模型训练器514可以训练模型以在接收到音频数据时生成用于每个频带的语音信号强度值和噪声信号强度。频带的大小可以是一百赫兹、一百二十五赫兹或另一类似大小。83.在一些实施方式中,模型训练器514可以针对每个频带训练模型。在这种情况下,模型训练器514可以接收音频段以及音频段中的不同频带的语音信号强度值和噪声信号强度值。模型训练器514可以使用音频段和相应语音信号强度值以及相应噪声信号强度值来训练每个模型。例如,模型训练器514可以针对2.1-2.2khz频带训练模型。模型训练器514可以使用音频段以及每个音频段中2.1-2.2khz频带的语音信号强度值和噪声信号强度值。另外或替代地,模型训练器514使用用于每个频带的经滤波的音频段以及用于该频带的语音信号强度值和噪声信号强度值来训练每个模型。例如,模型训练器514滤波音频段以隔离2.1-2.2khz频带。模型训练器514使用用于2.1-2.2khz频带的经滤波的音频段以及语音信号强度值和噪声信号强度值来训练2.1-2.2khz频带。在向该模型提供音频输入之前,系统向音频输入应用2.1-2.2khz频带滤波器。84.模型训练器514可以将经训练的(多个)模型存储在语音和噪声估计模型520中。语音和噪声估计模型520中的每个模型可以指示其是否被配置成估计整个音频段或特定频带的语音和噪声水平。另外,语音和噪声估计模型520中的每个模型可以指示在将音频提供给模型之前是否应当对音频应用任何滤波。例如,2.1-2.2khz频带可以指示在应用模型之前使用2.1-2.2khz频带滤波器对音频进行滤波。85.另外或替代地,模型训练器514可以训练覆盖所有频带的一个语音和噪声估计模型520。模型训练器514可以训练这样一个模型,该模型将来自通道的所有频带作为输入阵列,并且向输出阵列提供每个频带的语音的比例的估计。86.另外或替代地,模型训练器514可以在时域中训练语音和噪声估计模型520。该模型训练器可以使用时间卷积网络来确定用于在时域中将语音与噪声分开的掩码。模型训练器可以从对应于一个或多个时间相关部分的一个或多个输入通道(例如,从一个或多个麦克风)接收音频数据作为输入,每个部分具有开始时间和结束时间。例如,输入可以被分解成2毫秒的部分。模型训练器可以训练模型以确定用于每个时间相关部分的去噪语音信号,并且组合时间相关部分以创建用于每个通道的去噪语音信号。87.图6描绘了根据本公开的一个或多个方面操作的计算机系统的框图。在各种说明性示例中,计算机系统600可以对应于图1的系统架构100内的任何计算设备。在一个实施方式中,计算机系统600可以是图1的会议设备110a-110n中的每一个。88.在某些实施方式中,计算机系统600可以(例如,经由网络,诸如局域网(lan)、内联网、外联网或互联网)连接到其他计算机系统。计算机系统600可以在客户端-服务器环境中以服务器或客户端计算机的能力运行,或者作为对等或分布式网络环境中的对等计算机运行。计算机系统600可以由个人计算机(pc)、平板pc、机顶盒(stb)、个人数字助理(pda)、蜂窝电话、web电器、服务器、网络路由器、交换机或桥接器或能够执行指定由该设备采取的动作的指令集(顺序或其他)的任何设备提供。此外,术语“计算机”应当包括单独地或共同地执行(一个或多个)指令集以执行本文中描述的任何一种或多种方法的任何计算机集合。89.在又一方面,计算机系统600可以包括处理设备602、易失性存储器604(例如,随机存取存储器(ram))、非易失性存储器606(例如,只读存储器(rom)或电可擦除可编程rom(eeprom))和数据存储设备616,其可以经由总线608彼此通信。90.处理设备602可以由一个或多个处理器提供,诸如通用处理器(诸如,例如,复杂指令集计算(cisc)微处理器、简化指令集计算(risc)微处理器、非常长指令字(vliw)微处理器、实现其他类型指令集的微处理器、或实现指令集类型的组合的微处理器)或专用处理器(诸如,例如,专用集成电路(asic)、现场可编程门阵列(fpga)、数字信号处理器(dsp)或网络处理器)。91.计算机系统600还可以包括网络接口设备622。计算机系统600还可以包括视频显示单元610(例如,lcd)、字母数字输入设备612(例如,键盘)、光标控制设备614(例如,鼠标)和信号生成设备620。92.数据存储设备616可以包括非暂时性计算机可读存储介质624,在该非暂时性计算机可读存储介质624上可以存储编码本文中描述的方法或功能中的任何一个或多个的指令626,其包括用于实现方法300和400以及用于图2的自动增益控制210的指令。93.指令626也可以在由计算机系统600执行该指令期间完全或部分地驻留在易失性存储器604内和/或在处理设备602内,因此,易失性存储器604和处理设备602也可以构成机器可读存储介质。94.虽然计算机可读存储介质624在说明性示例中示出为单个介质,但是术语“计算机可读存储介质”应该包括存储一个或多个可执行指令集的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的高速缓存和服务器)。术语“计算机可读存储介质”还应该包括能够存储或编码供计算机执行的指令集并且使得计算机执行本文中描述的任何一种或多种方法的任何有形介质。术语“计算机可读存储介质”应该包括但不限于固态存储器、光学介质和磁介质。95.本文中描述的方法、组件和特征可以由离散硬件组件实现,或者可以被集成在诸如asics、fpga、dsp或类似设备的其它硬件组件的功能中。另外,方法、组件和特征可以由硬件资源内的固件模块或功能电路实现。此外,方法、组件和特征可以被实现在硬件资源和计算机程序组件的任意组合中或计算机程序中。96.除非另有明确说明,否则诸如“发起”、“传送”、“接收”、“分析”等术语是指由计算机系统执行或实现的动作和处理,其将计算机系统寄存器和存储器中表示为物理(电子)量的数据操纵和转换为计算机系统存储器或寄存器或其他这类信息存储、传输或显示设备中类似地表示为物理量的其他数据。此外,本文中使用的术语“第一”、“第二”、“第三”、“第四”等意指用于区分不同元素的标签,并且根据它们的数字名称可以不具有顺序意义。97.本文中描述的实施例还涉及用于执行本文中描述的方法的装置。该装置可以特别地被构造成用于执行本文中描述的方法,或者它可以包括由存储在计算机系统中的计算机程序选择性地编程的通用计算机系统。这种计算机程序可以被存储在计算机可读有形存储介质中。98.本文中描述的方法和说明性示例并不固有地与任何特定计算机或其他设备相关。可以根据本文中描述的教导使用各种通用系统,或者可以证明构造更专用的装置以执行方法300和400和/或其每个单独的功能、例程、子例程或操作是方便的。用于各种这些系统的结构的示例在以上描述中阐述。99.以上描述旨在说明,而不是限制性的。虽然已经参考特定说明性示例和实施方式描述了本公开,但是将认识到本公开不限于所描述的示例和实施方式。本公开的范围应参照以下权利要求以及权利要求所具有的全部等效范围来确定。当前第1页12当前第1页12
技术特征:
1.一种方法,包括:由处理设备通过多个通道接收音频数据,其中,每个通道的所述音频数据对应于多个频率范围;针对用于每个通道的所述多个频率范围中的每个频率范围,通过提供与每个频率范围对应的音频数据作为对被训练以确定给定音频数据的语音音频能量水平或所述给定音频数据的噪声能量水平中的至少一个的模型的输入来确定语音音频能量水平或噪声能量水平中的至少一个;针对与所述音频数据相关联的每个通道,基于用于所述多个频率范围中的每个频率范围的所述语音音频能量水平或所述噪声能量水平中的至少一个,确定去除了噪声的语音信号;针对每个通道,确定与通道的去除了噪声的语音信号的能量水平相关联的一个或多个统计值;确定最强通道,其中,所述最强通道具有与相应通道的语音信号的能量水平相关联的最高的一个或多个统计值;确定与所述最强通道的所述语音信号的所述能量水平相关联的所述一个或多个统计值满足阈值条件;将与除了所述最强通道之外的每个通道的语音信号的能量水平相关联的一个或多个统计值和与所述最强通道的语音信号的能量水平相关联的对应一个或多个统计值进行比较;以及取决于所述比较,基于与相应通道的能量水平相关联的所述一个或多个统计值来确定是否更新用于相应通道的增益值。2.根据权利要求1所述的方法,其中,针对每个通道确定去除了噪声的所述语音信号包括:针对通道的所述多个频率范围中的每个频率范围,基于用于对应频率范围的所述语音音频能量水平或所述噪声能量水平中的至少一个来计算去噪信号;以及组合所计算的去噪信号,所述去噪信号中的每一个对应于所述通道的所述多个频率范围中的一个。3.根据权利要求1所述的方法,其中,所述阈值条件需要与所述最强通道的能量水平相关联的一个或多个统计值高于相应阈值达到阈值时间段。4.根据权利要求1所述的方法,其中,确定是否更新用于所述相应通道的所述增益值包括:确定与所述相应通道的所述能量水平相关联的所述一个或多个统计值是否已经在距与所述最强通道的所述能量水平相关联的对应一个或多个统计值的预定义范围内达到一段时间。5.根据权利要求1所述的方法,包括:基于所述语音音频能量水平和所述噪声能量水平,更新状态机的状态,所述状态机的状态包括语音状态、噪声状态、静默状态和不确定状态。6.根据权利要求5所述的方法,还包括:更新用于所述相应通道的所述增益值,其中,更新用于所述相应通道的所述增益值还
包括:确定所述状态机的所述状态是否是语音状态达到阈值时间量;响应于确定所述状态机的所述状态是语音状态达到所述阈值时间量,将所述增益值更新不超过每秒第一分贝数;确定所述状态机的所述状态是否是不确定状态达到所述阈值时间量;以及响应于确定所述状态机的所述状态是不确定状态达到所述阈值时间量,将所述增益值更新不超过每秒第二分贝数。7.根据权利要求1所述的方法,其中,所述多个频率范围被限制到预定义频率集合。8.根据权利要求6所述的方法,其中,更新所述增益值包括:确保所更新的增益值不超过增益值阈值。9.根据权利要求1所述的方法,包括:接收语音音频段和噪声段;确定每个噪声段的噪声能量水平和每个语音音频段的语音能量水平;通过组合每个噪声段和每个语音音频段来生成有噪声语音音频段;以及使用机器学习,使用每个噪声段的所述噪声能量水平、每个语音音频段的语音音频能量水平以及所述有噪声语音音频段来训练所述模型。10.根据权利要求9所述的方法,其中,组合每个噪声段和每个语音音频段包括:在时域中重叠每个噪声段和每个音频段,并且对每个噪声段和每个音频段进行求和。11.一种系统,包括:存储器;以及处理设备,其能够通信地耦合到所述存储器,所述处理设备用于:通过多个通道接收音频数据,其中,每个通道的所述音频数据对应于多个频率范围;针对用于每个通道的所述多个频率范围中的每个频率范围,通过提供与每个频率范围对应的音频数据作为对被训练以确定给定音频数据的语音音频能量水平或所述给定音频数据的噪声能量水平中的至少一个的模型的输入来确定语音音频能量水平或噪声能量水平中的至少一个;针对与所述音频数据相关联的每个通道,基于用于所述多个频率范围中的每个频率范围的所述语音音频能量水平或所述噪声能量水平中的至少一个,确定去除了噪声的语音信号;针对每个通道,确定与通道的去除了噪声的语音信号的能量水平相关联的一个或多个统计值;确定最强通道,其中,所述最强通道具有与相应通道的语音信号的能量水平相关联的最高的一个或多个统计值;确定与所述最强通道的所述语音信号的所述能量水平相关联的所述一个或多个统计值满足阈值条件;将与除了所述最强通道之外的每个通道的语音信号的能量水平相关联的一个或多个统计值和与所述最强通道的语音信号的能量水平相关联的对应一个或多个统计值进行比较;以及取决于所述比较,基于与相应通道的能量水平相关联的所述一个或多个统计值来确定
是否更新用于相应通道的增益值。12.根据权利要求11所述的系统,其中,为了针对每个通道确定去除了噪声的所述语音信号,所述处理设备还用于:针对通道的所述多个频率范围中的每个频率范围,基于用于对应频率范围的所述语音音频能量水平或所述噪声能量水平中的至少一个来计算去噪信号;以及组合所计算的去噪信号,所述去噪信号中的每一个对应于所述通道的所述多个频率范围中的一个。13.根据权利要求11所述的系统,其中,所述阈值条件需要与所述最强通道的能量水平相关联的一个或多个统计值高于相应阈值达到阈值时间段。14.根据权利要求11所述的系统,其中,为了确定是否更新用于所述相应通道的所述增益值,所述处理设备还用于:确定与所述相应通道的所述能量水平相关联的所述一个或多个统计值是否已经在距与所述最强通道的所述能量水平相关联的对应一个或多个统计值的预定义范围内达到一段时间。15.根据权利要求11所述的系统,其中,所述处理设备还用于:基于所述语音音频能量水平和所述噪声能量水平,更新状态机的状态,所述状态机的状态包括语音状态、噪声状态、静默状态和不确定状态。16.根据权利要求15所述的系统,其中,所述处理设备还用于:更新用于所述相应通道的所述增益值,其中,为了更新用于所述相应通道的所述增益值,所述处理设备还用于:确定所述状态机的所述状态是否是语音状态达到阈值时间量;响应于确定所述状态机的所述状态是语音状态达到所述阈值时间量,将所述增益值更新不超过每秒第一分贝数;确定所述状态机的所述状态是否是不确定状态达到所述阈值时间量;以及响应于确定所述状态机的所述状态是不确定状态达到所述阈值时间量,将所述增益值更新不超过每秒第二分贝数。17.根据权利要求11所述的系统,其中,所述多个频率范围被限制到预定义频率集合。18.根据权利要求16所述的系统,其中,为了更新所述增益值,所述处理设备还用于:确保所更新的增益值不超过增益值阈值。19.根据权利要求11所述的系统,其中,所述处理设备还用于:接收语音音频段和噪声段;确定每个噪声段的噪声能量水平和每个语音音频段的语音能量水平;通过组合每个噪声段和每个语音音频段来生成有噪声语音音频段;以及使用机器学习,使用每个噪声段的所述噪声能量水平、每个语音音频段的语音音频能量水平以及所述有噪声语音音频段来训练所述模型。20.根据权利要求19所述的系统,其中,组合每个噪声段和每个语音音频段包括:在时域中重叠每个噪声段和每个音频段,并且对每个噪声段和每个音频段进行求和。21.一种非暂时性机器可读存储介质,其包括指令,所述指令使得处理设备用于:通过多个通道接收音频数据,其中,每个通道的所述音频数据对应于多个时间相关部
分;针对用于每个通道的所述多个时间相关部分中的每个时间相关部分,通过提供与每个时间相关部分对应的音频数据作为对被训练以确定给定音频数据的去除了噪声的语音信号的模型的输入来确定去除了噪声的语音信号;针对每个通道,确定与通道的去除了噪声的语音信号的能量水平相关联的一个或多个统计值;确定最强通道,其中,所述最强通道具有与相应通道的语音信号的能量水平相关联的最高的一个或多个统计值;确定与所述最强通道的所述语音信号的所述能量水平相关联的所述一个或多个统计值满足阈值条件;将与除了所述最强通道之外的每个通道的语音信号的能量水平相关联的一个或多个统计值和与所述最强通道的语音信号的能量水平相关联的对应一个或多个统计值进行比较;以及取决于所述比较,基于与相应通道的能量水平相关联的所述一个或多个统计值来确定是否更新用于相应通道的增益值。22.根据权利要求21所述的非暂时性机器可读存储介质,其中,为了针对每个通道确定去除了噪声的所述语音信号,所述处理设备还用于:针对通道的所述多个时间相关部分中的每个时间相关部分,计算对应时间相关部分的去噪语音信号;以及组合所计算的去噪语音信号,所述去噪语音信号中的每一个对应于所述通道的所述多个时间相关部分中的一个。23.根据权利要求21所述的非暂时性机器可读存储介质,其中,所述阈值条件需要与所述最强通道的能量水平相关联的一个或多个统计值高于相应阈值达到阈值时间段。

技术总结
方法包括通过多个通道接收对应于多个频率范围的音频数据;针对每个通道的频率范围,使用通过机器学习训练的模型来确定语音音频和/或噪声能量水平;针对每个通道确定去除了噪声的语音信号;确定与通道的去除了噪声的语音信号的能量水平相关联的一个或多个统计值;确定具有与语音信号的能量水平相关联的最高统计值的最强通道;确定与最强通道的语音信号的能量水平相关联的一个或多个统计值满足阈值条件;将与每个通道的语音信号的能量水平相关联的统计值与最强通道的那些相比较;以及基于与能量水平相关联的通道的统计值来确定是否更新用于通道的增益值。否更新用于通道的增益值。否更新用于通道的增益值。


技术研发人员:卡尔
受保护的技术使用者:谷歌有限责任公司
技术研发日:2020.09.30
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-4894.html

最新回复(0)