1.本发明属于语音情感识别技术领域,具体涉及一种基于平行通道注意力机制与双嵌套残差结构提取加权融合情感特征的深度学习的语音情感识别方法及系统。
背景技术:2.语音情感识别是人机交流的关键技术之一,而语音情感特征的提取是情感判别的重要依据,它将直接决定着情感识别是否有效。目前,语音情感识别算法主要分为非深度学习与深度学习两大类。
3.非深度学习的语音情感识别算法,首先将语音输入机器学习模型后手动提取特定的特征,然后经过分类器得到结果,该方法提取的特征不够完善,容易造成语音信号中有用信息的丢失。基于深度学习的语音情感识别算法,首先将语音信号转换为语谱图,然后输入深度学习网络模型进行特征提取与分类,通常能更加高效地提取特征,得到比传统算法更高的识别率。
4.在深度学习的语音情感识别算法中,通常使用卷积神经网络(cnn)作为特征提取网络,为了更好的提取情感特征,也会将cnn与其他网络相结合组成联合特征提取网络,但同时也导致网络复杂度的提高,不利于模型的进一步优化。因此,情感特征提取网络的架构对能否有效提取情感特征尤为重要。
5.在网络中插入注意力机制是增强特征之间的连接的有效加权操作。在目前的相关研究中,大致分为:通道注意力机制,空间注意力机制和混合注意力机制。
6.通道注意力机制通过压缩与激励操作获得全局感受野,同时强调每个通道的权重,但其激励操作中的全连接层对网络消耗较大;后来提出的ecanet,其eca模块将全连接的激励操作改为非全连接的方式,大大降低了模型复杂度,但同时导致无法获得全局感受野,容易损失部分全局特征。
7.空间注意力机制通过不同尺寸的卷积扩大感受野,捕捉上下文关联,有利于加强特征图像素间的关联,通常需要与金字塔等其他结构相结合使用。
8.混合注意力机制结合了通道注意力机制与空间注意力机制,相比单独使用其中一种注意力机制,该方法能够获得更高的准确率,但同时增加了空间复杂度。
技术实现要素:9.针对现有技术存在的上述缺陷,本发明以有效提取语音情感特征与降低模型复杂度为目的,设计了双嵌套残差结构用于提取融合情感特征,并结合平行通道注意力机制对特征图加权,提出了一种基于平行通道注意力机制与双嵌套残差结构提取加权融合的情感特征的语音情感识别方法及系统。
10.为实现上述目的,本发明采取如下技术方案:
11.一种语音情感识别方法,包括以下步骤:
12.s1、对输入语音特征图进行平行通道注意力加权,得到加权特征图;
13.s2、通过小尺寸残差连接与特征卷积对加权特征图进行特征提取,得到深度融合情感特征图;
14.通过大尺度残差连接对加权特征图进行浅层特征提取,得到浅层情感特征图;
15.s3、将深度融合情感特征图与浅层情感特征图相融合,得到加权融合情感特征图。
16.作为优选方案,所述步骤s1,具体包括以下步骤:
17.s11、采用通道注意力机制对输入语音特征图进行挤压与激励操作,提取每个通道的注意力权重,得到特征图每个通道的加权参数;
18.s12、重新设定通道注意力机制中激励操作的输出通道维度参数,重复执行上述步骤s11,直至得到n组不同尺度的权重参数x={x1,x2,....,xn};
19.s13、将x中的权重参数取均值后得到的权重对输入语音特征图进行加权,得到加权特征图。
20.作为优选方案,步骤s2中,深度融合情感特征图的提取过程包括:
21.通过六层3
×
3卷积对加权特征图进一步提取特征,每隔一层卷积层将输出特征图的长度与宽度调整为原来的1/2,通道数调整为原来的2倍,且对中间两层卷积层插入残差连接,进行小尺度特征融合,同时采用1
×
1卷积进行升维操作,最终在最后一层卷积中得到深度融合情感特征图。
22.作为优选方案,所述步骤s2中,浅层情感特征图的提取过程包括:
23.插入大尺度残差连接,通过三层卷积:1
×
1卷积、3
×
3卷积、1
×
1卷积对加权特征图进行浅层特征提取,得到浅层情感特征图;其中,每层卷积操作调整输出特征图的长度与宽度为原来的1/2,通道数调整为原来的2倍。
24.作为优选方案,在每层卷积操作之后还经过批标准化与激活函数。
25.作为优选方案,所述激活函数采用leaky relu函数。
26.作为优选方案,所述步骤s3,具体包括:
[0027][0028]
其中,z1为深度融合情感特征图,z2为浅层情感特征图,z为加权融合情感特征图。
[0029]
本发明还提供一种语音情感识别系统,应用如上任一项方案所述的语音情感识别方法,所述语音情感识别系统包括:
[0030]
平行通道注意力加权模块,用于对输入语音特征图进行平行通道注意力加权,得到加权特征图;
[0031]
深层融合特征提取模块,用于通过小尺寸残差连接与特征卷积对加权特征图进行特征提取,得到深度融合情感特征图;
[0032]
浅层特征提取模块,用于通过大尺度残差连接对加权特征图进行浅层特征提取,得到浅层情感特征图;
[0033]
特征融合模块,用于将深度融合情感特征图与浅层情感特征图相融合,得到加权融合情感特征图。
[0034]
作为优选方案,所述深层融合特征提取模块进行深度融合情感特征图的提取过程包括:通过六层3
×
3卷积对加权特征图进一步提取特征,每隔一层卷积层将输出特征图的长度与宽度调整为原来的1/2,通道数调整为原来的2倍,且对中间两层卷积层插入残差连接,进行小尺度特征融合,同时采用1
×
1卷积进行升维操作,最终在最后一层卷积中得到深
度融合情感特征图;
[0035]
所述浅层特征提取模块进行浅层情感特征图的提取过程包括:插入大尺度残差连接,通过三层卷积:1
×
1卷积、3
×
3卷积、1
×
1卷积对加权特征图进行浅层特征提取,得到浅层情感特征图;其中,每层卷积操作调整输出特征图的长度与宽度为原来的1/2,通道数调整为原来的2倍。
[0036]
作为优选方案,所述深层融合特征提取模块与浅层特征提取模块构成融合情感特征提取的双嵌套残差结构。
[0037]
与现有技术相比,本发明具有如下有点:
[0038]
(1)本发明提出了改进eca模块的平行通道注意力机制,对不同尺度的权重信息取均值后对输入语音特征图进行加权,最大程度减少全局特征的丢失,同时该模型仅在加权时进行一次点乘操作,保证了该模块的加入不会导致整个系统复杂度的较大提高,从而拖慢网络进程。
[0039]
(2)本发明设计了有效提取融合情感特征的双嵌套残差结构,通过增加特征提取的随机性来提取较全面的情感特征;通过不同尺度的残差连接实现融合情感特征,产生新的特征图。该结构采用较少的网络层次,有效提取融合情感特征,有利于提高深度学习网络参数训练的效率。
[0040]
(3)本发明有效实现了提取语音特征图中的情感特征,减少全局特征的丢失,有效实现融合情感特征的提取,同时模型复杂度较低,避免了网络过于复杂导致的训练缓慢,效率低下等问题。
附图说明
[0041]
图1是本发明实施例的语音情感识别方法的流程图;
[0042]
图2是本发明实施例的平行通道注意力机加权的模型框图;
[0043]
图3是本发明实施例的双嵌套残差结构图;
[0044]
图4是本发明实施例的语音情感识别系统的模块构架图。
具体实施方案
[0045]
以下通过具体实施例对本发明的技术方案作进一步解释说明。
[0046]
为方便描述,设置输入语音特征图(简称输入特征图)i∈rc×h×w。
[0047]
如图1所示,本发明实施例的基于平行通道注意力机制与双嵌套残差结构提取加权融合情感特征的语音情感识别方法,包含以下步骤:
[0048]
s1、将输入特征图i输入不同尺度的通道注意力机制,得到n组不同尺度的注意力权重:
[0049]
xi=ecaweight(i),i∈[1,n]
[0050]
将这些权重进行取均值操作,得到整体注意力权重:
[0051][0052]
通过点乘操作使用该权重对输入语音特征图进行加权,得到加权特征图y。
[0053]
具体地,如图2所示,上述步骤s1包括:
[0054]
s11、首先通过全局平均池化对输入语音特征图进行挤压操作,然后通过两个1
×
1卷积核实现对非全连接的局部激励操作,得到输入语音特征图每个通道的加权参数;
[0055]
s12、将激励操作的第一层卷积的输出通道维度参数设为不同大小,重复上述步骤s11,n次操作后得到n组不同尺度的权重参数x:
[0056]
x={x1,x2,....,xn};
[0057]
s13、将x中的权重参数取均值后对输入语音特征图i进行加权,得到加权特征图y:
[0058][0059]
s2、如图3所示,通过六个3
×
3卷积核加权特征图y进一步提取特征。为了提高特征提取的随机性,同时保证不会因此而提高复杂度,每隔一层卷积层将输出特征图的长度与宽度调整为原来的1/2,通道数调整为原来的2倍;其中,中间两层卷积采用残差连接,进行小尺度特征融合,起到特征融合的作用,同时采用1
×
1卷积进行升维操作,最终在最后一层卷积中得到深度融合情感特征图z1。
[0060]
每隔一层卷积便调整输出特征图的尺寸为:
[0061][0062]
其中,l表示当前卷积层数,且l∈{2,4,6},得到深层融合特征图(即深度融合情感特征图)
[0063]
另外,本发明实施例还通过大尺度残差,分别使用1
×
1、3
×
3、1
×
1三个卷积核对加权特征图y进行浅层特征提取,且为保证所提取的浅层特征图与深层融合特征图维度一致,每层卷积都如步骤s2所述公式调整输出特征图的维度,即每层卷积操作调整输出特征图的长度与宽度为原来的1/2,通道数调整为原来的2倍以保证特征维度的统一,最终得到浅层特征图(即浅层情感特征图)
[0064]
为了提取加权特征图在不同尺度的卷积操作下的情感特征,采用较少的网络层次最大程度的提取y中包含的有用信息。需要注意的是,每层卷积操作后都会经过批标准化与激活函数,采用leaky relu函数作为激活函数。
[0065]
上述浅层特征和深度融合情感特征的提取构成构成融合情感特征提取的双嵌套残差结构。
[0066]
s3、将步骤s2的深度融合特征图和浅层特征图相融合,得到加权融合的情感特征图(即加权融合情感特征图):
[0067][0068]
基于本发明实施例的情感识别方法,如图4所示,本发明实施例提供的情感识别系统,包括:
[0069]
平行通道注意力加权模块:对输入语音特征图进行不同尺度的通道注意力加权,
得到n组特征权重,取均值后得到整体权重,并使用用该权重对输入语音特征图进行加权,得到加权特征图。
[0070]
深层融合特征提取模块:通过六层3
×
3卷积操作进一步提取加权特征图的情感特征,同时对中间两层卷积层提取的特征进行小尺度特征融合并通过升维操作保证特征维度统一,得到深度融合情感特征图。
[0071]
浅层特征提取模块:通过1
×
1、3
×
3、1
×
1三个卷积核,对融合特征y进行浅层特征提取,并保持特征维度与深层融合特征图一致,得到浅层特征图。
[0072]
特征融合模块:将深层融合特征图与浅层特征图相加得到双嵌套残差结构输出的加权融合特征图。
[0073]
其中,深层融合特征提取模块与浅层特征提取模块构成融合情感特征提取的双嵌套残差结构。
[0074]
综上,本发明基于平行通道注意力加权与双嵌套残差结构的有效提取情感特征的情感识别方法及系统。输入语音特征图首先经过平行通道注意力机制进行加权,强化有用信息;然后经过双嵌套残差结构,通过提取深层融合特征图与浅层特征图,融合得到需要的情感特征图,由此进行情感识别。本发明实现了情感特征的有效提取,减少全局特征的丢失,避免了网络过于复杂导致的训练缓慢,效率低等问题。
[0075]
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。
技术特征:1.一种语音情感识别方法,其特征在于,包括以下步骤:s1、对输入语音特征图进行平行通道注意力加权,得到加权特征图;s2、通过小尺寸残差连接与特征卷积对加权特征图进行特征提取,得到深度融合情感特征图;通过大尺度残差连接对加权特征图进行浅层特征提取,得到浅层情感特征图;s3、将深度融合情感特征图与浅层情感特征图相融合,得到加权融合情感特征图。2.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述步骤s1,具体包括以下步骤:s11、采用通道注意力机制对输入语音特征图进行挤压与激励操作,提取每个通道的注意力权重,得到特征图每个通道的加权参数;s12、重新设定通道注意力机制中激励操作的输出通道维度参数,重复执行上述步骤s11,直至得到n组不同尺度的权重参数x={x1,x2,....,x
n
};s13、将x中的权重参数取均值后得到的权重对输入语音特征图进行加权,得到加权特征图。3.根据权利要求2所述的一种语音情感识别方法,其特征在于,步骤s2中,深度融合情感特征图的提取过程包括:通过六层3
×
3卷积对加权特征图进一步提取特征,每隔一层卷积层将输出特征图的长度与宽度调整为原来的1/2,通道数调整为原来的2倍,且对中间两层卷积层插入残差连接,进行小尺度特征融合,同时采用1
×
1卷积进行升维操作,最终在最后一层卷积中得到深度融合情感特征图。4.根据权利要求3所述的一种语音情感识别方法,其特征在于,所述步骤s2中,浅层情感特征图的提取过程包括:插入大尺度残差连接,通过三层卷积:1
×
1卷积、3
×
3卷积、1
×
1卷积对加权特征图进行浅层特征提取,得到浅层情感特征图;其中,每层卷积操作调整输出特征图的长度与宽度为原来的1/2,通道数调整为原来的2倍。5.根据权利要求3或4所述的一种语音情感识别方法,其特征在于,在每层卷积操作之后还经过批标准化与激活函数。6.根据权利要求5所述的一种语音情感识别方法,其特征在于,所述激活函数采用leaky relu函数。7.根据权利要求4所述的一种语音情感识别方法,其特征在于,所述步骤s3,具体包括:其中,z1为深度融合情感特征图,z2为浅层情感特征图,z为加权融合情感特征图。8.一种语音情感识别系统,应用如权利要求1-7任一项所述的语音情感识别方法,其特征在于,所述语音情感识别系统包括:平行通道注意力加权模块,用于对输入语音特征图进行平行通道注意力加权,得到加权特征图;深层融合特征提取模块,用于通过小尺寸残差连接与特征卷积对加权特征图进行特征提取,得到深度融合情感特征图;
浅层特征提取模块,用于通过大尺度残差连接对加权特征图进行浅层特征提取,得到浅层情感特征图;特征融合模块,用于将深度融合情感特征图与浅层情感特征图相融合,得到加权融合情感特征图。9.根据权利要求8所述的一种语音情感识别系统,其特征在于,所述深层融合特征提取模块进行深度融合情感特征图的提取过程包括:通过六层3
×
3卷积对加权特征图进一步提取特征,每隔一层卷积层将输出特征图的长度与宽度调整为原来的1/2,通道数调整为原来的2倍,且对中间两层卷积层插入残差连接,进行小尺度特征融合,同时采用1
×
1卷积进行升维操作,最终在最后一层卷积中得到深度融合情感特征图;所述浅层特征提取模块进行浅层情感特征图的提取过程包括:插入大尺度残差连接,通过三层卷积:1
×
1卷积、3
×
3卷积、1
×
1卷积对加权特征图进行浅层特征提取,得到浅层情感特征图;其中,每层卷积操作调整输出特征图的长度与宽度为原来的1/2,通道数调整为原来的2倍。10.根据权利要求9所述的一种语音情感识别系统,其特征在于,所述深层融合特征提取模块与浅层特征提取模块构成融合情感特征提取的双嵌套残差结构。
技术总结本发明涉及一种语音情感识别方法及系统,其方法包括以下步骤:S1、对输入语音特征图进行平行通道注意力加权,得到加权特征图;S2、通过小尺寸残差连接与特征卷积对加权特征图进行特征提取,得到深度融合情感特征图;通过大尺度残差连接对加权特征图进行浅层特征提取,得到浅层情感特征图;S3、将深度融合情感特征图与浅层情感特征图相融合,得到加权融合情感特征图。本发明充分提取语音特征图中的情感特征,减少全局特征的丢失,有效实现融合情感特征的提取,同时模型复杂度较低,避免了网络过于复杂导致的训练缓慢,效率低下等问题。效率低下等问题。效率低下等问题。
技术研发人员:杨雪滢 应娜 郭春生 蒋银河 叶学义
受保护的技术使用者:杭州电子科技大学
技术研发日:2022.07.12
技术公布日:2022/11/1