声源检测和定位的方法

专利2023-11-24  120



1.本发明涉及一种声源检测和定位的方法,属于深度学习领域。


背景技术:

2.近年来,由于各类定位算法和信息的广泛应用,声音事件的定位和检测也受到了广泛的关注,例如在智慧城市中交通状况的智能疏导、智能会议室的语音识别以及智慧家庭中的音频监控等。当前物联网和人工智能的快速发展,人们也迫切需要一种快速、准确的声音事件的定位和检测算法。通常,这种算法分为两个子任务:声源检测(sound event detection,sed)和声源定位(sound source localization,ssl)。sed任务主要解决声源的类别判断,ssl任务主要解决声源的位置估计。
3.对于sed任务,通常使用不同的有监督分类学习来对于声源的类别进行判断。目前已有的一些分类器包括:隐性马尔科夫模型、循环神经网络(recurrent neural networks,rnn)、卷积神经网络(convolutional neural networks,cnn)以及卷积循环神经网络(convolution recurrent neural network,crnn)。针对sed任务,更需要对于声源种类的快速、准确的判断,目前学术界最好的效果来自crnn,这是通过叠加cnn、rnn和fc层得到的一种网络结构,能够有效利用cnn在不同层级上的感受野实现对于特征维度的降低以及特征纵向维度的拓展,同时利用rnn有效对于时间相关序列建模。
4.对于ssl任务,传统上一般有基于到达时间延迟、基于可控波束响应以及多重信号分类等方法。传统方式在算法复杂度、麦克风阵列几何约束和声学场景的模型假设方面各不相同,难以实现端到端的声源定位系统。同时,近年来深度学习的不断拓展,越来越多的学者开始使用深度学习框架搭建各类ssl网络。在早期的ssl任务中,声源方向很多时候被划分为分类任务。因为在深度学习网络发展初期阶段,分类网络的构建相对于回归网络方便许多,因此早期声源方向被主观的被划分为多个种类,但是也由此引发了一些问题,例如声源方向的分类直接影响ssl任务的分辨率,并且大多数前人的工作都是针对球坐标系中仰角和方位角进行分类划分,如果上升到三维笛卡尔空间坐标系的定位,划分种类可能需要几百种,这对于网络的构建和训练数据的要求极其严格,不具有实际意义。因此,基于分类任务的声源定位任务逐渐被基于回归的声源定位任务取代。
5.在语音特征提取方面,最常用的特征就是梅尔频谱倒数(mel-frequency cepstral coefficients,mfccs)。mfccs利用了声源信号和梅尔滤波器组之间的倒谱变换,以及梅尔音阶的光谱压缩变换。由于前几个mfccs的值就可以捕捉到音高不变的音频特征,所以它们通常被用于对音高进行概括的任务中,例如说话人识别。但是在最近的声音事件检测工作中,使用mfccs的结果表明,由于mfccs对背景噪声敏感,所以它并不是最佳的选择。在以往工作中,梅尔滤波器组(mel-filter bank,fbank)特征已经被证明在深度神经网络中比mfccs更好。而相对于空间定位来说,对于多声道信号来说,相邻声道信号之间的广义互相关(generalized cross correlation,gcc)能够很好的展现声道信号之间的差异,能够针对不同方向所来的信号展现分辨能力,gcc的应用和发展也十分广泛,目前也是传统
方式较为常用的声源定位的解决方法。
6.有鉴于此,确有必要提出一种声源检测和定位的方法,以解决上述问题。


技术实现要素:

7.本发明的目的在于提供一种声源检测和定位的方法,有效降低了未知噪声对于声源信号的影响。
8.为实现上述目的,本发明提供了一种声源检测和定位的方法,主要包括以下步骤:
9.步骤1、将声源音频信号按通道拆分,将多通道信号拆分为单通道信号;
10.步骤2、对每个单通道信号,使用ceemdan降噪算法进行降噪处理;
11.步骤3、将去噪之后的单通道信号分别提取fbank特征和gcc特征,并将fbank特征和gcc特征联合后作为综合特征输入至crnn网络;
12.步骤4、结合类别标签和位置标签对crnn网络进行训练,得到声源定位检测模型;
13.步骤5、将在线提取的样本按通道拆分,将多通道信号拆分为单通道信号;
14.步骤6、将步骤5中拆分之后的单通道信号分别提取fbank特征和gcc特征,并将fbank特征和gcc特征联合后作为综合特征输入至步骤4中的声源定位检测模型,得到声源类别的估计结果和位置的估计结果。
15.作为本发明的进一步改进,包括离线阶段和在线阶段,其中步骤1-步骤4在离线阶段完成,步骤5和步骤6在在线阶段完成。
16.作为本发明的进一步改进,在步骤1中,采用类别信息和位置信息作为标签来标记不同的声源,类别信息使用独热码作为标记,位置信息从球坐标系转为三维笛卡尔坐标系,公式如下:
17.x=r
·
cos(ele)
·
cos(ele)
18.y=r
·
cos(ele)
·
sin(azi)
19.z=r
·
sin(ele),
20.其中,r是扬声器距离麦克风的距离,ele是仰角的度数,azi是方位角的度数,x、y和z分别是三维空间笛卡尔坐标。
21.作为本发明的进一步改进,步骤2具体包括以下步骤:
22.步骤21、将高斯白噪声加入待分解的单通道信号中,得到第一组新的信号;
23.步骤22、对第一组新的信号进行emd分解,得到一阶本征模态分量;
24.步骤23、对产生的n个模态分量进行总体平均,得到通过ceemdan降噪算法分解的第1个本征模态分量;
25.步骤24、计算并去除第1个本征模态分量的残差信号,加入正负成对的高斯白噪声得到第二组新的信号,以第二组新的信号为载体进行emd分解,得到一阶模态分量;
26.步骤25、重复以上步骤,直到得到所有模态分量;
27.步骤26、对于每个模态分量,计算其与步骤21中待分解的单通道信号的互相关系数。
28.作为本发明的进一步改进,在步骤21中,待分解的单通道信号为y(t),加入高斯白噪声后得到第一组新的信号为y(t)+(-1)qεvj(t),其中q=1,2。
29.作为本发明的进一步改进,步骤3具体包括以下步骤:
30.步骤31、对于去噪之后的单通道信号进行短时傅里叶变换;
31.步骤32、将短时傅里叶变换得到的向量使用梅尔滤波器组提取频带内部特征;
32.步骤33、将得到的内部特征进行对数操作,得到fbank特征;
33.步骤34、将不同的通道两两组合,得到不同的组合;
34.步骤35、对于步骤34中每个组合中的每个信号进行傅里叶变换,并对其中一个信号进行共轭操作,得到两个向量;
35.步骤36、将得到的两个向量使用gcc-phat加权函数得到乘积;
36.步骤37、将乘积进行傅里叶逆变换得到通道间的gcc特征;
37.步骤38、将fbank特征和gcc特征在时间轴上进行叠加得到综合特征。
38.作为本发明的进一步改进,在步骤32中,所述梅尔滤波器组包括64个三角滤波器,所述三角滤波器的频率响应定义为:
[0039][0040]
其中,
[0041]
作为本发明的进一步改进,在步骤33中,对数操作为
[0042][0043]
得到的fbank特征为513维度。
[0044]
作为本发明的进一步改进,在步骤34中,两个通道之间的接收信号分别为
[0045]
x1(t)=α1s(t-τ1)+n1(t)
[0046]
x2(r)=α2s(t-τ2)+n2(t),
[0047]
其中,s(t)是声源信号,n1(t)和n2(t)为环境噪声,τ则是阵元接受到声源信号的时间。
[0048]
作为本发明的进一步改进,在步骤36中,gcc-phat加权函数为
[0049][0050]
其中,x(ω)为原信号的傅里叶变换。
[0051]
本发明的有益效果是:本发明通过对未知噪声分布的声源信号进行去噪处理,有效降低了未知噪声对于声源信号的影响,同时使用对声源类别和位置进行多任务学习,能够显著提升精度,降低在线预测过程的复杂度。
附图说明
[0052]
图1为本发明声源检测和定位的方法的流程示意图。
[0053]
图2为本发明声源检测和定位的方法中ceemdan降噪算法分解各个imf分量的互相关系数图。
[0054]
图3为本发明声源检测和定位的方法中所使用不同的降噪阈值实现的降噪效果图。
[0055]
图4为本发明声源检测和定位的方法中所使用的特征提取及融合示意图。
[0056]
图5为本发明声源检测和定位的方法中提取特征受声源类别和位置影响示意图。
[0057]
图6为本发明声源检测和定位的方法中crnn网络框架示意图。
具体实施方式
[0058]
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0059]
在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
[0060]
另外,还需要说明的是,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0061]
如图1至图6所示,本发明揭示了一种使用crnn的基于深度学习的声源检测和定位的方法,通过ceemdan降噪算法(自适应噪声完备集合经验模态分解)对于未知噪声分布的声源信号进行去噪处理,本发明主要包括以下步骤:
[0062]
步骤1、将声源音频信号按通道拆分,将多通道信号拆分为单通道信号;
[0063]
步骤2、对每个单通道信号,使用ceemdan降噪算法进行降噪处理;
[0064]
步骤3、将去噪之后的单通道信号分别提取fbank特征和gcc特征,并将fbank特征和gcc特征联合后作为综合特征输入至crnn网络;
[0065]
步骤4、结合类别标签和位置标签对crnn网络进行训练,得到声源定位检测模型;
[0066]
步骤5、将在线提取的样本按通道拆分,将多通道信号拆分为单通道信号;
[0067]
步骤6、将步骤5中拆分之后的单通道信号分别提取fbank特征和gcc特征,并将fbank特征和gcc特征联合后作为综合特征输入至步骤4中的声源定位检测模型,得到声源类别的估计结果和位置的估计结果。
[0068]
本发明主要包括两个阶段,分别为离线阶段和在线阶段,其中,上述步骤1-步骤4在离线阶段完成,步骤5和步骤6在在线阶段完成,以下将对步骤1-步骤6进行详细说明。
[0069]
在步骤1中,采集声源音频信号形成数据集,并将声源音频信号按通道拆分,将多通道信号拆分为单通道信号。对于不同的声源发声情况,记录下每个样本的类别信息和位置信息作为标签,其中,类别信息使用独热码作为标记,位置信息从球坐标系转为三维笛卡尔坐标系,公式如下:
[0070]
x=r
·
cos(ele)
·
cos(ele)
[0071]
yr.cos(ele).sin(azi)
[0072]
z=r
·
sin(ele),
[0073]
其中,r是扬声器距离麦克风的距离,ele是仰角的度数,azi是方位角的度数,x、y和z分别是三维空间笛卡尔坐标。为了可以在最终回归实现ssl时,加快网络收敛速度,我们对于三维坐标进行归一化处理,使得坐标范围均在(-1,1)内。之后根据麦克风阵列的个数,将多通道信号拆分为单通道信号,同时将采样率重新更改为24khz。
[0074]
在步骤2中,对于每个单通道信号,使用ceemdan降噪算法进行降噪处理,改善信号质量,降低噪声带来的影响。假设ei(
·
)为经过emd分解(经验模态分解)后得到的第i个本征模态分量,ceemdan降噪算法分解得到的第i个本征模态分量为vj为满足标准正态分布的高斯白噪声信号,j=1,2,3...n为加入白噪声的次数,ε为白噪声标准值,y(t)为待分解的信号,ceemdan降噪算法具体包括如下步骤:
[0075]
步骤21、将高斯白噪声加入到待分解的单通道信号y(t)中,得到第一组新的信号y(t)+(-1)qεvj(t),其中q=1,2。
[0076]
步骤22、对于第一组新的信号进行emd分解,得到一阶本征模态分量,
[0077]
步骤23、对产生的n个模态分量进行总体平均就得到了ceemdan降噪算法分解的第1个本征模态分量,即
[0078]
步骤24、计算并去除第1个本征模态分量的残差信号,即在r1(t)中加入正负成对高斯白噪声得到新信号,以新信号为载体进行emd分解,得到一阶模态分量d1。
[0079]
步骤25、重复以上步骤,直到得到所有模态分量。则此时
[0080]
步骤26、对于每个模态分量,计算其与步骤21中待分解的单通道信号(即,原始音频信号)的互相关系数,根据互相关系数对于每个本征分量(intrinsic mode function,imf)进行取舍。平常处理中一般会直接剔除高频信号,但是在很多时候,高频信号中包含一些有用信息,直接剔除会破坏原始数据的完整性。对于每一个信号分解出的imf如何取舍,涉及到对于原信号的噪声的原始分布问题。但是现实中的噪声十分复杂,往往不知道具体分布,所以采取使用相关系数的不同来判断imf的取舍问题。
[0081]
为了能够展现算法逻辑,这里提取4000个采样点进行ceemdan降噪算法模拟讲解,得到13个imf分量,分别进行相关系数计算,得到相关系数如图2。
[0082]
从图2可以看出,不同的imf与原信号的相关程度不同,我们设定降噪阈值t的概念,即相关系数比t大的imf我们保留,相关系数比t小的imf视为噪声,将其滤除。
[0083]
图3是不同的降噪阈值滤除噪声之后,得到的信号与原始信号对比图,其中,a子图为原始信号,b子图为降噪阈值t=0时信号,c子图为降噪阈值t=0.05时信号,d子图为降噪阈值t=0.5时信号。降噪系数使用穷举法得出。
[0084]
图3中圆圈框出部分可以看出,不同的降噪阈值能够实现信号的平滑作用,同时降
低部分噪声,需要注意,滤除部分imf的同时会损失原本信号的部分信息。
[0085]
在步骤3中,将去噪之后的信号分别提取fbank特征和gcc特征,并联合作为综合特征输入crnn网络;
[0086]
图4展示了特征提取及融合算法的整体框图。此处所述分别提取fbank特征和gcc特征并融合,步骤3分为以下步骤:
[0087]
步骤31、首先提取去噪之后的单通道信号内fbank特征,对于去噪之后的单通道信号进行短时傅里叶变换。使用25ms作为一帧,在短时间内,音频信号可以看做平稳信号,此时采样率为24khz,则进行1024点傅里叶变换,得到的向量长度为513。
[0088]
步骤32、将短时傅里叶变换得到的向量使用梅尔滤波器组提取频带内部特征。使用的梅尔滤波器组带有64个三角滤波器,用来提取频带信息。三角带通滤波器有两个主要目的:对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。三角滤波器的频率响应定义为:
[0089][0090]
其中,这种滤波器组滤波的目的是模拟人耳对声音的非线性感知,在较低的频率下更具辨别力,在较高的频率下则不具辨别力,即将频率转换成梅尔刻度,公式为:
[0091][0092]
步骤33、将得到的内部特征进行对数操作,得到fbank特征。即
[0093][0094]
提取出的fbank特征为513维度,至此,提取fbank结束。
[0095]
步骤34、其次提取去噪之后的单通道信号内gcc特征,将不同的通道两两组合,得到不同的组合。例如本实验中使用4通道麦克风阵列,则两两组合得到6种情况,那么gcc特征有6个维度。假定两个麦克风之间的接收信号分别为
[0096]
x1(f)=α1s(t-τ1)+n1(t)
[0097]
x2(t)=α2s(t-τ2)+n2(t),
[0098]
其中,s(t)是声源信号,n1(t)和n2(t)为环境噪声,τ则是阵元接受到声源信号的时间。
[0099]
步骤35、对于每个组合中的每个信号进行傅里叶变换,并对其中一个信号进行共轭操作,得到两个向量。
[0100]
步骤36、将得到的两个向量使用gcc-phat加权函数得到乘积。基于gcc的时延估计算法可以引入加权函数,对互功率谱密度进行调整,从而优化时延估计的性能。根据加权函数的不同,广义互相关函数有多种不同的变形,其中广义互相关-相位变换方法(generalized cross correlation phase transformation,gcc-phat)方法应用最为广泛。gcc-phat加权函数本身具有一定的抗噪声和抗混响能力,故这里也是用这种方式,增强系统的鲁棒性。gcc-phat加权函数为
[0101][0102]
其中,x(ω)为原信号的傅里叶变换。可以看出,经过phat加权的互功率谱近似于单位冲激响应的表达式,突出了时延的峰值,能够有效抑制混响噪声,提高时延估计的精度和准确度。
[0103]
步骤37、将乘积进行傅里叶逆变换得到通道间gcc特征。至此,gcc特征提取完毕。
[0104]
步骤38、最后将fbank特征和gcc特征在时间轴上进行叠加得到综合特征。此时fbank和gcc特征维度均为513维,使用python中numpy模块的concat函数,对提取到的所有特征组合成(10,513)的综合特征。
[0105]
图5为特征的可视化。其中(a)子图表明电话铃声在位置a的时域图以及对应特征,(b)子图表明电话铃声在位置b的时域图以及对应特征,(c)子图表明敲门声在位置b的时域图以及对应特征。(a)子图与(b)子图的对比可以看出,相同的声源在不同的位置发声时,fbank特征基本不变,但是gcc特征会有较大程度改变。(b)子图和(c)子图对比可以看出,不同声源在相同位置发声,fbank特征会有大幅度改变,而gcc特征基本不变。由此可以印证,通过fbank和gcc的共同作用,可以实现声源类别和位置的判定。
[0106]
在步骤4中,结合样本给定的类别标签和位置标签进行训练,得到声源定位检测模型;
[0107]
图6描述了本发明所使用的crnn网络框架。(a)子图表明了整体网络的框架结构图,其中分为3个卷积块、2个门控循环单元(gate recurrent unit,gru)和对应分类和回归的全连接(fully connected,fc)层。卷积块的详细情况如(b)子图所示,其中在第1个卷积块中嵌入软注意力机制,详细结构如(c)子图。下面将分别详细介绍。
[0108]
首先,对于整体框架,输入的特征为(10
×1×
513),在经历第1个卷积块之前,首先进行注意力机制的划分,如(c)子图所示。由于卷积的作用是局部范围内的,所以需要多层卷积才能够实现整个特征图中的不同位置的特征的关联,注意力机制可以实现在卷积中融合整体特征而不是局限在卷积核内。本发明使用的注意力机制借鉴了自然语言处理(natural language processing,nlp)中的思想,使用软注意力方式实现的自注意力机制。首先分离出各个通道的特征图,由于本发明输入特征是10通道,则将每个通道的向量分别重置矩阵大小,并二者进行点积,该步骤的意义在于能够使得之后的注意力机制映射图中的(i,j)坐标是该通道内的第i个元素和第j个元素的影响,从而实现了整个特征图中任意两个元素之间的依赖关系,接着通过softmax归一化则得到了注意力机制映射特征图。最后将特征图与原cnn特征图进行点积,则每个cnn中的特征的权值得到了更新,随着学习的不断加深,原始特征图的单个特征得到了注意力机制更新后的权重,也就是获得了任意位置
的全局依赖。
[0109]
每个卷积块的参数都是类似的,其中所有卷积块中的批量正则化层都是为了归一化参数,使得训练可以加快收敛速度;dropout层则是使用固定概率0.2,以保证训练过程不会过拟合;relu层为激活函数,在每一个卷积块的最后,避免学习到的参数之间的线性关系,同样起到防止过拟合作用。
[0110]
在本发明提出的结构中,对于fbank与gcc的综合特征,可以认为是10通道的综合特征,每个通道是特征维度关于时间维度的1维向量。对于其中的局部移位不变性质,我们重点使用cnn进行多层学习。在三个卷积核中,卷积核大小为1x2的2d卷积核,步长为1x1,维度拓展从10到32维度,再从32到64维度,池化核大小为1x2的2d池化核,步长为1x2。卷积和池化部分重点对于单个通道内的特征长度进行降维,按时间维度取出其局部不变性质,并且将特征拓展到更多维度空间,增强特征的深层信息,同时在第3个卷积块中,增加0x1的边缘填充,用来确保cnn输出维度可以通过矩阵大小重新构造的方式转换成gru所适应的维度。卷积块中重点从通道维度上进行拓展,将综合特征进行深层次挖掘,同时在特征值关于时间的维度上进行压缩,提炼出需要的特征信息。3个卷积核的作用就是综合各声道间特征,并使其可以与后续gru输入维度进行匹配。
[0111]
cnn的输出结果经过矩阵大小重新设置为128x64之后,匹配gru的序列长度,直接输入到gru中,进行时间维度上的记忆性学习。具体地说,gru单元分为两个gru层,通过pytorch中定义num_layer参数指定,每个gru层输入序列长度和输出序列长度均为64,隐藏层大小为64,每个gru的输出结果使用tanh激活。不使用relu激活的原因主要在于对于循环单元来说,relu激活函数容易出现梯度爆炸和梯度衰减的现象,故rnn中一律使用tanh进行激活,避免上述现象。gru均为双向gru,通过gru的学习,可以得到特征在时间维度上的时序信息,进一步提炼特征。经过gru,特征向量输出为128x256二维向量。该特征包含了更多时序上的信息。
[0112]
在主干网络之后是2个分支网络,全部由fc层构建,fc层从时间维度上跨时间共享权值,分别对应sed的分类任务和ssl的回归任务。其中sed分支网络由3个fc构成,最后一个fc使用sigmoid激活函数,实现11分类任务,对于sigmoid函数来说,输出结果对应范围在(0,1)之间,对应每个事件的预测结果,我们将阈值超过0.5的判定为输出结果。ssl分支网络由4个fc构成,最后一个fc使用3个tanh激活,分别对应事件在x,y,z三个坐标上的回归预测结果,由于在标签指定的过程中,本发明规定x,y,z坐标对应范围为(-1,1),所以在这里tanh用来保证输出结果在这个范围内。
[0113]
对于损失函数,sed分支预测类别和真实类别之间使用二元交叉熵损失(binary cross-entropy loss,bce loss)函数;ssl分支使用均方误差损失(mean square error loss,mse loss)函数作为预测坐标和真实坐标的差值。同时,由于本发明使用多任务端到端的神经网络构建而成,而对于分类任务和回归任务的损失函数并不是一个量级,为了能够有效均衡损失函数之间的差距,本发明将bce和mse的量级调控在一个数量级,经过穷举法调参之后,最终确定参与反向传播的损失函数loss=bce+50
×
mse。
[0114]
综上所述,本发明所提出的一种基于卷积循环网络的声源检测和定位的方法,经过同一个主干网络之后,将sed任务和ssl任务分别定义为分类和回归任务,这种多任务学习的方式能够有效提升估计性能。将声源类别本身固定不变的特征fbank和声源跟随位置
变化的特征gcc特征进行融合,可以一步提取声源识别定位的综合特征,作为整个神经网络的输入特征进行训练,得到模型,再通过此模型得到预测结果。这是一种端到端的同时解决sed和ssl问题的神经网络框架,有效提升精度,并且除了采集数据阶段的麦克风阵列以外,不需要额外的任何硬件支持,对于端到端的声源定位检测系统来说是极其便捷的。
[0115]
同时,本发明利用ceemdan降噪算法,对于未知分布噪声的信号进行去噪处理,有效降低了未知噪声对于声源信号的影响,实现了一个模型处理两个任务的端到端模型,与同类型其他研究任务相比,显著提升精度,降低在线预测过程的复杂度,具有优良效果。由于ceemdan降噪算法是将原始信号进行本征模态分解,得到各个imf分量。各个imf分量与原始信号的互相关程度代表了该分量的贡献程度,故使用降噪阈值t,即可有效去除噪声。经多次实验表明,本发明中效果最好的降噪阈值取值为0.05。
[0116]
此外,本发明为声源检测和定位的方法提供了一种新的深度学习网络框架。对于此类算法,不同的框架提供不同的效果,本发明提供的框架简洁易实现,并且比较其他框架具有更加优良的效果。
[0117]
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

技术特征:
1.一种声源检测和定位的方法,其特征在于,主要包括以下步骤:步骤1、将声源音频信号按通道拆分,将多通道信号拆分为单通道信号;步骤2、对每个单通道信号,使用ceemdan降噪算法进行降噪处理;步骤3、将去噪之后的单通道信号分别提取fbank特征和gcc特征,并将fbank特征和gcc特征联合后作为综合特征输入至crnn网络;步骤4、结合类别标签和位置标签对crnn网络进行训练,得到声源定位检测模型;步骤5、将在线提取的样本按通道拆分,将多通道信号拆分为单通道信号;步骤6、将步骤5中拆分之后的单通道信号分别提取fbank特征和gcc特征,并将fbank特征和gcc特征联合后作为综合特征输入至步骤4中的声源定位检测模型,得到声源类别的估计结果和位置的估计结果。2.根据权利要求1所述的声源检测和定位的方法,其特征在于:包括离线阶段和在线阶段,其中步骤1-步骤4在离线阶段完成,步骤5和步骤6在在线阶段完成。3.根据权利要求1所述的声源检测和定位的方法,其特征在于:在步骤1中,采用类别信息和位置信息作为标签来标记不同的声源,类别信息使用独热码作为标记,位置信息从球坐标系转为三维笛卡尔坐标系,公式如下:x=r
·
cos(ele)
·
cos(ele)y=r
·
cos(ele)
·
sin(azi)z=r
·
sin(ele),其中,r是扬声器距离麦克风的距离,ele是仰角的度数,azi是方位角的度数,x、y和z分别是三维空间笛卡尔坐标。4.根据权利要求1所述的声源检测和定位的方法,其特征在于,步骤2具体包括以下步骤:步骤21、将高斯白噪声加入待分解的单通道信号中,得到第一组新的信号;步骤22、对第一组新的信号进行emd分解,得到一阶本征模态分量;步骤23、对产生的n个模态分量进行总体平均,得到通过ceemdan降噪算法分解的第1个本征模态分量;步骤24、计算并去除第1个本征模态分量的残差信号,加入正负成对的高斯白噪声得到第二组新的信号,以第二组新的信号为载体进行emd分解,得到一阶模态分量;步骤25、重复以上步骤,直到得到所有模态分量;步骤26、对于每个模态分量,计算其与步骤21中待分解的单通道信号的互相关系数。5.根据权利要求4所述的声源检测和定位的方法,其特征在于:在步骤21中,待分解的单通道信号为y(t),加入高斯白噪声后得到第一组新的信号为y(t)+(-1)
q
εv
j
(t),其中q=1,2。6.根据权利要求1所述的声源检测和定位的方法,其特征在于:步骤3具体包括以下步骤:步骤31、对于去噪之后的单通道信号进行短时傅里叶变换;步骤32、将短时傅里叶变换得到的向量使用梅尔滤波器组提取频带内部特征;步骤33、将得到的内部特征进行对数操作,得到fbank特征;步骤34、将不同的通道两两组合,得到不同的组合;
步骤35、对于步骤34中每个组合中的每个信号进行傅里叶变换,并对其中一个信号进行共轭操作,得到两个向量;步骤36、将得到的两个向量使用gcc-phat加权函数得到乘积;步骤37、将乘积进行傅里叶逆变换得到通道间的gcc特征;步骤38、将fbank特征和gcc特征在时间轴上进行叠加得到综合特征。7.根据权利要求6所述的声源检测和定位的方法,其特征在于:在步骤32中,所述梅尔滤波器组包括64个三角滤波器,所述三角滤波器的频率响应定义为:其中,8.根据权利要求6所述的声源检测和定位的方法,其特征在于:在步骤33中,对数操作为得到的fbank特征为513维度。9.根据权利要求6所述的声源检测和定位的方法,其特征在于:在步骤34中,两个通道之间的接收信号分别为x1(t)=α1s(t-τ1)+n1(t)x2(t)=α2s(t-τ2)+n2(t),其中,s(t)是声源信号,n1(t)和n2(t)为环境噪声,τ则是阵元接受到声源信号的时间。10.根据权利要求6所述的声源检测和定位的方法,其特征在于:在步骤36中,gcc-phat加权函数为其中,x(ω)为原信号的傅里叶变换。

技术总结
本发明提供了一种声源检测和定位的方法,主要包括以下步骤:将多通道信号拆分为单通道信号;使用CEEMDAN降噪算法进行降噪处理;将去噪之后的单通道信号分别提取FBANK特征和GCC特征;结合类别标签和位置标签对CRNN网络进行训练,得到声源定位检测模型;将在线提取的样本按通道拆分;将拆分之后的单通道信号分别提取FBANK特征和GCC特征,联合后作为综合特征输入至声源定位检测模型,得到声源类别的估计结果和位置的估计结果。本发明通过对未知噪声分布的声源信号进行去噪处理,有效降低了未知噪声对于声源信号的影响,同时使用对声源类别和位置进行多任务学习方法,能够显著提升精度,降低在线预测过程的复杂度。降低在线预测过程的复杂度。降低在线预测过程的复杂度。


技术研发人员:颜俊 朱鸿翔 曹艳华
受保护的技术使用者:南京邮电大学
技术研发日:2022.07.04
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-6589.html

最新回复(0)