语音处理方法及装置、电子设备和可读存储介质与流程

专利2026-06-19 8

本发明涉及机器人，具体而言，涉及一种语音处理方法及装置、电子设备和可读存储介质。

背景技术：

1、目前，常规的多通道麦克风阵列语音降噪方法有两大范式：一种是结合声源定位，使用信号处理的波束形成方法进行降噪，另一种则是使用端到端的语音降噪深度神经模型进行降噪。

2、然而，在现实场景中，存在噪声大、信噪比却很低的应用场景。在高噪音环境下，上述语音降噪方法均存在缺陷：对于使用信号处理的波束形成方法的降噪方式，在高噪音环境下，声源定位的准确率较低，会导致信号处理的波束形成效果较差；而对于使用端到端的语音降噪深度神经模型的降噪方式，在高噪音环境下，模型需要大量训练数据、更大规模、更高算力才可实现较好的降噪结果，且应用场景和训练数据不同时模型的降噪性能会明显下降。这样，降低了高噪音环境下的语音降噪效果。

技术实现思路

1、本发明旨在至少解决现有技术或相关技术中存在的高噪音环境下的语音降噪效果较差的问题。

2、为此，本发明的第一个方面在于提出一种语音处理方法。

3、本发明的第二个方面在于提出一种语音处理装置。

4、本发明的第三个方面在于提出一种电子设备。

5、本发明的第四个方面在于提出一种可读存储介质。

6、本发明的第五个方面在于提出一种计算机程序产品。

7、有鉴于此，根据本发明的一个方面，提出了一种语音处理方法，该方法包括：获取多个麦克风通道的多个原始语音信号；对多个原始语音信号在n个波束方向进行波束形成，得到n个波束信号，n为正整数；对多个麦克风通道中的目标麦克风通道的目标原始语音信号和n个波束信号进行降噪处理，得到第一语音信号；对目标原始语音信号和第一语音信号进行加权处理，得到第二语音信号。

8、本发明提供的语音处理方法的技术方案的执行主体可以为电子设备，还可以为语音处理装置，还可以根据实际使用需求进行确定，在此不作具体限定。为了更加清楚地描述本发明提供的语音处理方法，下面以语音处理方法的执行主体为语音处理装置进行说明。

9、具体地，在本发明所提供的语音处理方法中，语音处理装置获取每个麦克风通道对应的原始语音信号，得到多个原始语音信号，进而在n个波束方向对获取到的多个原始语音信号进行波束形成，以在n个波束方向对多个原始语音信号进行增强，得到n个波束信号。其中，n为正整数。进一步地，语音处理装置再选取多个麦克风通道中的目标麦克风通道对应的目标原始语音信号，对上述形成的n个波束信号以及该目标原始语音信号进行降噪处理，并输出单通道的降噪后的语音信号即第一语音信号。进一步地，语音处理装置再对上述第一语音信号以及目标原始语音信号进行加权处理，得到加权后的第二语音信号。这样，一方面，结合多波束信号处理以及多通道语音降噪神经网络进行语音降噪，无需声源定位，也无需使用大量训练数据，提高了高噪音环境下语音降噪的准确性，从而提高语音信号的信噪比；另一方面，结合原始语音信号进行语音信号的降噪和加权，保证了降噪后的语音信号的保真性。

10、根据本发明的上述语音处理方法，还可以具有以下附加技术特征：

11、在一些技术方案中，可选地，对目标原始语音信号和第一语音信号进行加权处理，得到第二语音信号，包括：利用神经网络模型自适应确定目标原始语音信号的第一权重值和第一语音信号的第二权重值；根据第一权重值和第二权重值，对目标原始语音信号和第一语音信号进行加权处理，得到第二语音信号。

12、在该技术方案中，语音处理装置利用神经网络模型自适应分配上述第一语音信号的第二权重值以及上述目标原始语音信号的第一权重值。进一步地，语音处理装置再根据确定的第二权重值以及第一权重值，对上述第一语音信号以及目标原始语音信号进行加权处理，从而得到加权后的第二语音信号。这样，对降噪后得到的第一语音信号以及目标原始语音信号进行自适应加权，实现了信号的权重自适应，保证了加权后得到的第二语音信号的保真性。

13、在一些技术方案中，可选地，利用神经网络模型自适应确定目标原始语音信号的第一权重值和第一语音信号的第二权重值，包括：利用神经网络模型，基于注意力机制，根据目标原始语音信号自适应确定第一权重值和第二权重值。

14、在该技术方案中，上述神经网络模型具体可为注意力模块，在对目标原始语音信号和第一语音信号进行权重自适应的过程中，利用神经网络模型，基于注意力机制，根据目标原始语音信号自适应确定第一权重值和第二权重值。这样，基于目标原始语音信号的情况对第一语音信号以及目标原始语音信号进行权重自适应，保证了加权后得到的第二语音信号的保真性。

15、在一些技术方案中，可选地，对多个原始语音信号在n个波束方向进行波束形成，得到n个波束信号，包括：利用波束形成算法，对多个原始语音信号在预设角度范围内的n个波束方向进行波束形成，得到n个波束信号。

16、在该技术方案中，语音处理装置利用波束形成算法，在预设角度范围内的n个波束方向，对获取到的多个原始语音信号进行波束形成，以在预设角度范围内的n个波束方向对多个原始语音信号进行增强，得到n个波束信号。这样，能够抑制非波束方向的干扰信号，并增强波束方向的语音信号，提高了信噪比。

17、在一些技术方案中，可选地，语音处理方法由语音处理装置执行，n的数值与预设角度范围和波束形成算法的指向性相关；n的数值与语音处理装置的算力正相关。

18、在该技术方案中，上述波束信号的数量即n的具体数值与上述波束形成算法的指向性以及预设角度范围相关。并且，n的数值与执行语音处理方法的语音处理装置的算力正相关。这样，可权衡算力、应用场景和降噪效果。

19、在一些技术方案中，可选地，指向性指示每相邻两个波束方向之间的角度值；指向性与语音处理装置的算力负相关；指向性与降噪强度以及应用场景的噪声信息相关，其中，噪声信息包括应用场景的噪声强度和噪声分布信息。

20、在该技术方案中，波束形成算法的指向性指示每相邻两个波束方向之间的角度值，便于根据预设角度范围与指向性的比值确定波束信号的数量。进一步地，指向性还与语音处理装置的算力负相关。进一步地，指向性还与降噪强度以及应用场景的噪声强度、噪声分布信息等噪声信息相关。这样，可权衡算力、应用场景和降噪效果选择对应指向性的波束形成算法，便于语音处理装置部署在算力较小的电子设备上。

21、根据本发明的第二个方面，提出了一种语音处理装置，该装置包括：获取单元，用于获取多个麦克风通道的多个原始语音信号；处理单元，用于对多个原始语音信号在n个波束方向进行波束形成，得到n个波束信号，n为正整数；处理单元，还用于对多个麦克风通道中的目标麦克风通道的目标原始语音信号和n个波束信号进行降噪处理，得到第一语音信号；处理单元，还用于对目标原始语音信号和第一语音信号进行加权处理，得到第二语音信号。

22、本发明提供的语音处理装置包括获取单元以及处理单元，在进行语音降噪的过程中，获取单元获取每个麦克风通道对应的原始语音信号，得到多个原始语音信号，处理单元进而在n个波束方向对获取单元获取到的多个原始语音信号进行波束形成，以在n个波束方向对多个原始语音信号进行增强，得到n个波束信号。其中，n为正整数。进一步地，处理单元再选取多个麦克风通道中的目标麦克风通道对应的目标原始语音信号，对上述形成的n个波束信号以及该目标原始语音信号进行降噪处理，并输出单通道的降噪后的语音信号即第一语音信号。进一步地，处理单元再对上述第一语音信号以及目标原始语音信号进行加权处理，得到加权后的第二语音信号。这样，一方面，结合多波束信号处理以及多通道语音降噪神经网络进行语音降噪，无需声源定位，也无需使用大量训练数据，提高了高噪音环境下语音降噪的准确性，从而提高语音信号的信噪比；另一方面，结合原始语音信号进行语音信号的降噪和加权，保证了降噪后的语音信号的保真性。

23、根据本发明的第三个方面，提出了一种电子设备，包括处理器和存储器，存储器存储可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如上述任一技术方案中的语音处理方法的步骤。因此，本发明第三个方面所提出的电子设备具备上述第一个方面任一技术方案中的语音处理方法的全部有益效果，在此不再赘述。

24、根据本发明的第四个方面，提出了一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现如上述任一技术方案中的语音处理方法。因此，本发明第四个方面所提出的可读存储介质具备上述第一个方面任一技术方案中的语音处理方法的全部有益效果，在此不再赘述。

25、根据本发明的第五个方面，提出了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如上述任一技术方案中的语音处理方法的步骤。因此，本发明第五个方面所提出的计算机程序产品具备上述第一个方面任一技术方案中的语音处理方法的全部有益效果，在此不再赘述。

26、本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

技术特征：

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的语音处理方法，其特征在于，所述对所述目标原始语音信号和所述第一语音信号进行加权处理，得到第二语音信号，包括：

3.根据权利要求2所述的语音处理方法，其特征在于，所述利用神经网络模型自适应确定所述目标原始语音信号的第一权重值和所述第一语音信号的第二权重值，包括：

4.根据权利要求1至3中任一项所述的语音处理方法，其特征在于，所述对多个所述原始语音信号在n个波束方向进行波束形成，得到n个波束信号，包括：

5.根据权利要求4所述的语音处理方法，其特征在于，由语音处理装置执行，n的数值与所述预设角度范围和所述波束形成算法的指向性相关；n的数值与所述语音处理装置的算力正相关。

6.根据权利要求5所述的语音处理方法，其特征在于，所述指向性指示每相邻两个波束方向之间的角度值；所述指向性与所述语音处理装置的算力负相关；所述指向性与降噪强度以及应用场景的噪声信息相关，其中，所述噪声信息包括所述应用场景的噪声强度和噪声分布信息。

7.一种语音处理装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的语音处理方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的语音处理方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语音处理方法的步骤。

技术总结
本发明提出了一种语音处理方法及装置、电子设备和可读存储介质。语音处理方法包括：获取多个麦克风通道的多个原始语音信号；对多个原始语音信号在N个波束方向进行波束形成，得到N个波束信号，N为正整数；对多个麦克风通道中的目标麦克风通道的目标原始语音信号和N个波束信号进行降噪处理，得到第一语音信号；对目标原始语音信号和第一语音信号进行加权处理，得到第二语音信号。这样，结合多波束信号处理以及多通道语音降噪神经网络进行语音降噪，并结合原始语音信号进行语音信号的降噪和加权，无需声源定位，也无需使用大量训练数据，提高了高噪音环境下语音降噪的准确性，并保证了降噪后的语音信号的保真性。

技术研发人员：张文彬,高羽,蔡亚森
受保护的技术使用者：美的集团（上海）有限公司
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-21931.html

专利

最新回复(0)