1.本发明属于语音识别领域,特点是一种基于双注意力机制动态卷积的说话人识别方法。
背景技术:2.语音是人类用来交流感情、获取信息的一种有效通信方式。由于每个说话人都具有独特的发音方式,说话习惯,咽喉尺寸,因此说话人的声音中含有丰富的个人信息。这使得计算机通过某说话人的声音识别出其身份成为可能。本课题研究的自动说话人识别(automat ic speaker recognit ion,asr),即通过一段语音中蕴含的说话人特征识别出该说话人的身份。
3.说话人识别技术,是语音识别技术的重要分支,同时也是实现人机交互的重要模块,在诸多领域都有着广泛的应用。如,可以在通话时识别说话人的身份防止诈骗,在银行系统中可以使用该技术进行远程的身份识别,在个人智能设备或智能家居领域中可以不用触碰且不需要近距离的面部识别即可解锁并发出指令,使得人机交互更加方便智能化。然而说话人识别技术难以应对工程实际应用中复杂多变的环境,错误的判别结果可能会给说话人本身带来较为严重的后果。在一些安全性需求较高的领域,如银行系统的身份确认,私人智能设备的声纹锁等,设备如果采集到错误的指令会对个人隐私,生命财产安全造成严重影响。
4.尽管有过很多非常成功的商用产品,但是说话人识别系统在实际应用中的性能和人类听觉识别能力相比还有着很大的差距。一方面是因为深度学习是数据驱动的,而人类的语音具有非常多样性的变化。人的不同年龄、性别、语言,同一个人的不同情感、语速等都会使语音信号发生变化,从而影响说话人识别系统的稳定性。另一方面由于说话人语音信号中说话人信息与各种干扰信息掺杂在一起,比如不同采集设备之间信道差异的干扰,不同场景下的环境噪音等,从而导致说话人识别系统的稳定性下降。
5.因此,如何提取出更具有分辨力的说话人特征,以及在面对各种场景的说话人识别任务中如何使提取的说话人特征更加鲁棒是当前主要的研究方向。
6.发明专利cn113763965a中提出了一种多重注意力特征融合的说话人识别方法,该发明通过多重注意力特征融合对输入数据的多个分支特征进行加权融合,多重注意力特征融合包括空间注意力机制和通道注意力机制,增强了每个分支中的有效信息,获得更加鲁棒性的说话人识别性能。然而,该发明中提出的注意力融合方法仅仅对提取出的多个数据进行特征融合,其在特征提取过程中采用的卷积方法仍然是参数固定的静态卷积,在对输入数据进行特征提取时仍然不具有灵活性,不能够捕捉到多个不同输入语音数据间的音素变化信息。因此本发明中采用了结合空间以及通道注意力的双注意力动态卷积方法。动态卷积可以克服静态卷积参数固定的缺陷,且其可以根据输入的不同动态的调节卷积核的参数,使得特征提取过程中能够灵活的捕捉不同输入数据间的音素变化信息。
技术实现要素:7.本发明旨在解决以上现有技术的问题。提出了一种基于双注意力机制动态卷积的说话人识别方法。本发明的技术方案如下:
8.一种基于双注意力机制动态卷积的说话人识别方法,其包括以下步骤:
9.s1,获取说话人声音信号并将声音信号切为多个片段,提取声音信号的梅尔普特征;
10.s2,使用通道注意力以及空间注意力融合的双注意力方法提取注意力权重矩阵;
11.s3,将通道注意力与空间注意力权重矩阵融合作为动态卷积的注意力权重矩阵并与多个静态卷积核按权重相加,得到最终的动态卷积核;
12.s4,将输入语音数据与动态卷积核卷积得到说话人语音信号的帧级特征数据,帧级数据作为后续全连接分层的输入用于说话人分类网络。
13.进一步的,所述步骤s1获取说话人声音信号并将声音信号切为多个片段,提取声音信号的梅尔普特征,具体包括:将声音信号分帧加窗以及傅里叶变换得到梅尔普特征;
14.s21:设置汉明窗的长度为25ms,步长为10ms;
15.s22:设置提取分帧特征的维度为40维。
16.进一步的,所述s2使用通道注意力以及空间注意力融合的双注意力方法提取注意力权重矩阵,并将其进行每一个元素对应相加,所述权重矩阵生成模型建立步骤包括:
17.s31:m
avg
=conv(c
in
,k,1)(avgpool(x)),x为输入数据,avgpool为全局平局池化层,conv为卷积层,其中参数c
in
为数据的输入通道,k为输出通道数,也是设置的静态卷积核的个数,1为卷积核大小;将输入数据进行全局平均池化后,再进行卷积,得到每个通道的注意力权重参数m
avg
;
18.s32:m
channel
=conv(k,k,1)(relu(m
avg
))将注意力权重参数矩阵m
avg
经过非线性函数relu激活后,再进行k
×
k的卷积,即得到了最终的通道注意力参数矩阵m
channel
;
19.s33:将输入数据经过最大值池化层(maxpooling)以及全局平均池化层(avgpooling)后维度降为2
×h×
w,其中h为每一帧语音数据的维度,w为语音数据的帧数。将多帧数据通过卷积使其维度降为1
×h×
w,得到ms矩阵ms=conv(c
in
,1,1)(maxpool,avgpool(x))),ms矩阵为空间上每个位置的权重参数矩阵;
20.s34:将ms矩阵进行展平操作(flatten)后其维度为b
×
t,其中b为输入数据的批量大小,t为展平后数据的长度;卷积核参数中k为静态卷积核的个数,1为卷积核大小,mf=conv(t,k,1)(flatten(ms)),mf为未经非线性激活的空间权重矩阵;
21.s35:将mf矩阵经过relu非线性函数激活之后再进行k
×
k的卷积得到最终的空间注意力权重参数矩阵m
spatial
,m
spatial
=conv(k,k,1)(relu(mf)。
22.进一步的,所述步骤s3将通道注意力与空间注意力权重矩阵融合作为动态卷积的注意力权重矩阵并与多个静态卷积核按权重相加,得到最终的动态卷积核,具体包括:
23.所述动态卷积核生成模型建立步骤包括:
24.s41:首先将得到的通道注意力以及空间注意力参数进行每个元素对应相加(element-wise)其中m
cs
即为融合了通道以及空间注意力的双注意力动态卷积核;
25.s42:将m
cs
进行k
×
k的卷积,再通过归一化指数函数(softmax)将输出数据归一化
至0-1区间内,即得到了最终的动态卷积注意力权重m
attention
,m
attention
=softmax(conv(k,k,1)(m
cs
));
26.s43:最终的动态卷积核参数计算公式为偏动态卷积核偏重数据b计算公式为其中为计算得到的动态卷积核参数,为动态卷积核的偏重数据,k为静态卷积核的个数,为多个静态卷积核的参数,πk(x)为动态卷积核注意力参数矩阵;
27.进一步的,所述s4将输入语音数据与动态卷积核卷积得到说话人语音信号的帧级特征数据,具体包括:
28.s51:将输入语音数据与得到的动态卷积核进行卷积即得到说话人语音信号的帧级特征数据,计算公式为其中w
t
为输入数据,为动态卷积后的输出数据,g为动态卷积层,x为动态卷积核参数,b为动态卷积核偏移数据;
29.本发明的优点及有益效果如下:
30.在文本独立的说话人识别任务中,由于每一句语音都是由音素构成的,而传统静态卷积神经网络由于其自身参数固定的缺陷,无法灵活地捕捉不同输入语音间音素的变化信息,从而限制了说话人识别网络的性能。使用动态卷积方法是克服该问题的常见方法,然而常见的动态卷积方法只有通道注意力,而在说话人识别任务中音素变化更多的体现在频域,也就是空间中。因此,本发明主要创新为步骤3中所说明,该步骤中融合了空间以及通道注意力来生成动态卷积,使用双注意力生成的动态卷积核在说话人识别任务中相较传统静态卷积网络模型更加灵活,相较一般单注意力动态卷积网络捕捉信息更丰富。
附图说明
31.图1是本发明提供优选实施例为一种基于双注意力动态卷积网络图;
32.图2为通道注意力模块图;
33.图3为空间注意力模块图;
34.图4为动态卷积核生成图。
具体实施方式
35.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
36.本发明解决上述技术问题的技术方案是:
37.针对现有技术的不足,提出了一种可获得较高识别率、对不同语音信号之间音素变化信息捕捉更加丰富的基于通道-空间双注意力动态卷积说话人识别方法。本发明的技术方案如下:融合通道以及空间注意力权重矩阵作为动态卷积核生成矩阵,并使用生成的动态卷积核与输入数据进行卷积运算,其包括以下步骤:
38.s1,将声音信号切为多个片段,提取声音信号的梅尔普特征;
39.s2,为解决静态卷积以及一般动态卷积方法中注意力权重矩阵信息量不足的问题,使用通道注意力以及空间注意力融合的双注意力方法提取注意力权重矩阵:
40.首先进行通道注意力矩阵的提取,m
avg
=conv(c
in
,k,1)(avgpool(x))。其中x为输入数据,将其进行全局平均池化后,再进行卷积,得到每个通道的注意力权重参数m
avg
。其中参数c
in
为数据的输入通道,k为输出通道数,也是本文方法中最终需要设置的静态卷积核的个数,1为卷积核大小。
41.将m
avg
矩阵经过一次k
×
k的卷积,即得到了最终的通道注意力参数矩阵m
channel
。接着提取空间注意力,首先将数据进行最大值以及平均值池化,再进行卷积,得到了维度为1
×h×
w的空间注意力权重矩阵。然后将该数据进行flatten操作,为得到最终的空间注意力参数,将展平后的数据进行卷积将其维度降为b
×
k。
42.s3,将通道注意力与空间注意力权重矩阵融合作为动态卷积的注意力权重矩阵并与多个静态卷积核按权重相加,得到最终的动态卷积核。
43.4、根据输入动态生成权重矩阵,并将其与多个静态卷积核加权相加。所述动态卷积核生成模型建立步骤包括:
44.s41:首先将得到的通道注意力以及空间注意力参数经过element-wise相加后得到m
cs
,
45.s42:将m
cs
进行k
×
k的卷积,再通过softmax将输出数据归一化至0-1区间内,即得到了最终的动态卷积注意力权重m
attention
,m
attention
=softmax(conv(k,k,1)(m
cs
))。
46.s43:最终的动态卷积核模型计算公式为,y=g(w
t
x+b)。
47.s44:其中w
t
为权重,由多个静态卷积核的权重矩阵以及m
attention
计算而来,偏重b由多个静态卷积核的偏重以及m
attention
计算而来,
48.s4,使用生成的动态卷积核替换卷积神经网络resnet中的静态卷积核,并使用该网络作为说话人身份特征提取网络。
49.上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
50.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
51.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包
括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
52.以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
技术特征:1.一种基于双注意力机制动态卷积的说话人识别方法,其特征在于,包括以下步骤:s1,获取说话人声音信号并将声音信号切为多个片段,提取声音信号的梅尔普特征;s2,使用通道注意力以及空间注意力融合的双注意力方法提取注意力权重矩阵;s3,将通道注意力与空间注意力权重矩阵融合作为动态卷积的注意力权重矩阵并与多个静态卷积核按权重相加,得到最终的动态卷积核;s4,将输入语音数据与动态卷积核卷积得到说话人语音信号的帧级特征数据,帧级数据作为后续全连接分层的输入用于说话人分类网络。2.根据权利要求1所述的一种基于双注意力机制动态卷积的说话人识别方法,其特征在于,所述步骤s1获取说话人声音信号并将声音信号切为多个片段,提取声音信号的梅尔普特征,具体包括:将声音信号分帧加窗以及傅里叶变换得到梅尔普特征;s21:设置汉明窗的长度为25ms,步长为10ms;s22:设置提取分帧特征的维度为40维。3.根据权利要求1所述的一种基于双注意力机制动态卷积的说话人识别方法,其特征在于,所述s2使用通道注意力以及空间注意力融合的双注意力方法提取注意力权重矩阵,并将其进行每一个元素对应相加,所述权重矩阵生成模型建立步骤包括:s31:m
avg
=conv(c
in
,k,1)(avgpool(x)),x为输入数据,avgpool为全局平局池化层,conv为卷积层,其中参数c
in
为数据的输入通道,k为输出通道数,也是设置的静态卷积核的个数,1为卷积核大小;将输入数据进行全局平均池化后,再进行卷积,得到每个通道的注意力权重参数m
avg
;s32:m
channel
=conv(k,k,1)(relu(m
avg
))将注意力权重参数矩阵m
avg
经过非线性函数relu激活后,再进行k
×
k的卷积,即得到了最终的通道注意力参数矩阵m
channel
;s33:将输入数据经过最大值池化层(maxpooling)以及全局平均池化层(avgpooling)后维度降为2
×
h
×
w,其中h为每一帧语音数据的维度,w为语音数据的帧数。将多帧数据通过卷积使其维度降为1
×
h
×
w,得到m
s
矩阵m
s
=conv(c
in
,1,1)(maxpool,avgpool(x))),m
s
矩阵为空间上每个位置的权重参数矩阵;s34:将m
s
矩阵进行展平操作(flatten)后其维度为b
×
t,其中b为输入数据的批量大小,t为展平后数据的长度;卷积核参数中k为静态卷积核的个数,1为卷积核大小,m
f
=conv(t,k,1)(flatten(m
s
)),m
f
为未经非线性激活的空间权重矩阵;s35:将m
f
矩阵经过relu非线性函数激活之后再进行k
×
k的卷积得到最终的空间注意力权重参数矩阵m
spatial
,m
spatial
=conv(k,k,1)(relu(m
f
)。4.根据权利要求3所述的一种基于双注意力机制动态卷积的说话人识别方法,其特征在于,所述步骤s3将通道注意力与空间注意力权重矩阵融合作为动态卷积的注意力权重矩阵并与多个静态卷积核按权重相加,得到最终的动态卷积核,具体包括:所述动态卷积核生成模型建立步骤包括:s41:首先将得到的通道注意力以及空间注意力参数进行每个元素对应相加其中m
cs
即为融合了通道以及空间注意力的双注意力动态卷积核;s42:将m
cs
进行k
×
k的卷积,再通过归一化指数函数(softmax)将输出数据归一化至0-1
区间内,即得到了最终的动态卷积注意力权重m
attention
,m
attention
=softmax(conv(k,k,1)(m
cs
));s43:最终的动态卷积核参数计算公式为偏动态卷积核偏重数据b计算公式为其中为计算得到的动态卷积核参数,为动态卷积核的偏重数据,k为静态卷积核的个数,为多个静态卷积核的参数,π
k
(x)为动态卷积核注意力参数矩阵。5.根据权利要求4所述的一种基于双注意力机制动态卷积的说话人识别方法,其特征在于,所述s4将输入语音数据与动态卷积核卷积得到说话人语音信号的帧级特征数据,具体包括:s51:将输入语音数据与得到的动态卷积核进行卷积即得到说话人语音信号的帧级特征数据,计算公式为其中w
t
为输入数据,为动态卷积后的输出数据,g为动态卷积层,x为动态卷积核参数,b为动态卷积核偏移数据。
技术总结本发明请求保护一种基于通道-空间注意力的动态卷积说话人识别方法,该方法包括步骤:S1,将声音信号切为多个片段,提取声音信号的声学特征;S2,为解决静态卷积以及一般动态卷积方法中注意力权重矩阵信息量不足的问题,使用通道注意力以及空间注意力融合的双注意力方法提取注意力权重矩阵;S3,将通道注意力与空间注意力权重矩阵融合作为动态卷积的注意力权重矩阵并与多个静态卷积核按权重相加,得到最终的动态卷积核。S4,将输入语音数据与该动态卷积核卷积得到说话人语音帧级特征。动态卷积核卷积得到说话人语音帧级特征。动态卷积核卷积得到说话人语音帧级特征。
技术研发人员:罗元 朱奎林 王文豪 林子尧
受保护的技术使用者:重庆邮电大学
技术研发日:2022.07.15
技术公布日:2022/11/1