一种基于改进transformer的多模态情感识别方法和系统
技术领域
1.本发明属于人工智能技术领域,尤其涉及一种基于改进transformer的多模态情感识别方法和实施该方法的系统。
背景技术:2.随着科学技术的进步、计算机技术的发展,人工智能逐渐进入到人们的日常生活中。近几年,各种各样智能设备的出现,提升了人类的生活品质。但是,现阶段的这些智能设备还无法做到真正意义上的人机对话,要做到人类与计算机之间的无障碍沟通,需要依靠情感识别技术。传统的情感识别技术主要建立在单模态数据上,虽然这种识别方式比较好实现,但是存在准确度低和资源样本利用率低等问题。目前,由先进的科研设备可以提取多种模态的数据,如视频、语音、文本、姿态和脑电等,并且多模态情感识别技术可以广泛应用到智能家居、智能交通、智慧城市、前端医疗等领域,所以,多模态情感识别技术是人工智能研究的热点之一。
3.经过检索发现,公开号cn112784730a的中国专利提供了一种基于时域卷积网络的多模态情感识别方法,其方法主要利用视频和音频模态数据进行情感识别。首先将视频进行等间隔采样并通过人脸监测和关键点定位,生成灰度人脸图像序列,将音频数据输入梅尔滤波器组得到梅尔声谱图。然后分别将人脸图像与声谱图送入卷积神经网络,进行特征融合。最后将融合特征序列输入时域卷积网络得到高级特征向量,通过全连接层与softmax回归,最终对多模态多元情感识别进行预测。
4.越来越多的研究人员期望能够利用各个模态信息之间的互补性,来构建鲁棒的情感识别模型,以达到更高的情感分类准确率。但是在考虑模态间特征互补的同时,大都忽略了单模态内特征的重要性,并且也需要重视算法的复杂度以及运行效率,仍存在有待改进的地方。
5.有鉴于此,有必要设计一种基于改进transformer的语音、表情和文本多模态情感识别方法和实施该方法的系统,以解决上述问题。
技术实现要素:6.本发明的目的是针对现有多模态情感分类技术的缺点,提出一种基于改进transformer的多模态情感识别方法及系统,通过引入两两模态间的全局交互特征及单模态内的全局交互特征,丰富了特征信息,然后通过改进的transformer网络提取高级特征向量,在提高了多模态情感识别准确率同时,减少了网络参数,提高了系统运行效率。
7.为实现以上目的,本发明提供了一种基于改进transformer的多模态情感识别方法,包括以下步骤:
8.步骤s1、对视频、语音、文本数据库中的每个模态进行预处理,提取各样本数据特征,每个数据样本生成一个二维特征向量;
9.步骤s2、通过跨模态注意力模型,获取两种模态间全局交互的特征;
10.步骤s3、通过自注意力模型,获取单模态内全局交互的特征;
11.步骤s4、构建由bigru2d替代多头注意力模块的改进transformer模型,提取深层次特征;
12.步骤s5、利用处理好的数据样本对构建网络模型进行训练,将训练好的模型用于多元情感的分类。
13.本发明的进一步改进在于,所述步骤s1还包括以下步骤:
14.步骤s1-1、对每个视频数据样本进行分帧处理,按照时间顺序截取k帧图像序列,对截取的每帧图像进行特征提取,每段视频数据样本生成一个二维特征向量zv;
15.步骤s1-2、对每个语音数据样本进行分段处理,按照时间顺序截取k段语音序列,对截取的每段语音进行特征提取,每个语音数据样本生成一个二维特征向量za;
16.步骤s1-3、对每个文本数据样本进行词级别处理,按照时间顺序截取k个单词,对截取的每段语音进行特征提取,每个文本数据样本生成一个二维特征向量z
t
。
17.本发明的进一步改进在于,在所述步骤s1-1中通过facet工具提取样本数据特征;通过covarep提取低水平声学特征,其中包括12个mel倒谱系数、声门源参数、峰值斜率参数、基音跟踪和浊音/清音分割特征和最大色散商等74个表现语音特征的声学特征;以及通过预训练的glove模型将每个单词生成维度为300的词向量。
18.本发明的进一步改进在于,所述步骤s2中构建跨模态注意力模型,处理三种模态特征两两排列组合后的特征数据,获取两种模态间全局交互特征向量
19.本发明的进一步改进在于,步骤s2主要包括以下步骤:
20.步骤s2-1:将处理后的样本数据zv、za、z
t
通过卷积核大小为n
×
n的conv1d进行一维卷积,样本数据维度统一至d维;然后通过正余弦位置编码继续对统一维度后的样本数据进行处理,最终得到三模态数据样本
21.步骤s2-2:通过跨模态注意力网络进行两种模态间的全局交互获得交互特征向量
22.本发明的进一步改进在于,在步骤s2-2中,以语音模态为目标模态,视频模态为辅助模态为例,将语音模态特征数据视频模态特征数据输入多层跨模态注意力网络单元中,通过多轮的全局特征交互计算得到特征向量计算步骤如下:
23.步骤s2-2-1:分别对目标模态与辅助模态数据特征进行层归一化处理,计算过程如下:
[0024][0025][0026]
其中,代表通过i-1层多头注意力网络进行模态间特征交互后的特征向量;
[0027]
步骤s2-2-2:将输入多头注意力网络进行全局特征的交互并进行残差
计算,计算过程如下:
[0028][0029][0030][0031]
其中,代表不同张量的权重矩阵,代表使用辅助模态的低级特征数据与经过i-1层多头注意力网络单元后输出的目标模态特征数据进行全局特征交互后的结果;以及
[0032]
步骤s2-2-3:对残差相加后的特征数据归一化后,输入前馈神经网络并进行残差计算,计算过程如下:
[0033][0034]
其中,i=0,1,
…
,d、代表将第i轮语音和视频模态特征交互后进行层归一化的结果,再将结果输入前馈神经网络;经过d1层跨模态注意力网络的特征交互,得到以语音模态为目标模态,视频模态为辅助模态,通过跨模态注意力网络进行全局特征交互的特征向量
[0035]
本发明的进一步改进在于,在所述步骤3中构建自注意力模型,获取单模态内全局交互特征的方法包括:分别将通过conv1d和正余弦位置编码处理后的语音、视频、文本模态特征数据经过d2层自注意力模块单元,进行模态内的特征信息交互编码并经过前馈神经网络后再进行残差计算,得到经自注意力网络交互编码后的模态内语音、视频、文本特征
[0036]
本发明的进一步改进在于,在所述步骤4中构建由bigru2d替代多头注意力模块的改进transformer模型,处理单模态内全局交互的特征与两两模态排列组合后模态间全局交互的特征拼接后的数据,提取深层次特征,进一步包括如下步骤:
[0037]
步骤s4-1:分别将单模态内全局交互的特征与两两组合的模态间全局交互的特征进行拼接,即有拼接后的特征数据进行拼接,即有拼接后的特征数据za、zv、z
t
分别代表语音模态间-模态内特征数据、视频模态间-模态内特征数据、文本模态间-模态内特征数据;
[0038]
步骤s4-2:将经过步骤s4-1拼接后的模态间-模态内特征za、zv、z
t
,输入由bigru2d替代多头注意力模块的改进transformer编码器进行深层次特征的提取。
[0039]
本发明的进一步改进在于,在步骤s4-2中,以处理语音模态间-模态内特征数据为例,具体步骤如下:
[0040]
步骤s4-2-1:首先将za输入层归一化网络,
[0041]
步骤s4-2-2:将输入bigru2d网络模块,通过竖直和水平方向上的bigru,提取二维特征向量的有效信息,维特征向量的有效信息,其中代表以水平方向分割特征向量后,将序列顺序输入bigru网络中提取的水平方向上特征信息代表以垂直方向分割特征向量后,将序列顺序输入bigru网络中提取到垂直方向上的特征信息然后将两特征向量进行拼接并进行残差计算,
[0042]
步骤s4-2-3:将层归一化后,送入前馈神经网络并引入残差计算,
[0043]
最后得到的特征用于对多模态多元情感的分类。
[0044]
为实现以上发明目的,本发明还提供了基于改进transformer的多模态情感识别系统,该系统可实施如前述任一项所述的方法。
[0045]
本发明的有益效果如下:
[0046]
本发明基于注意力机制和由bigru2d替代多头注意力机制的改进transformer模态提取语音、视频和文本情感特征并进行多模态情感分类。通过构建注意力机制模块,不仅能够获取两种模态间的全局交互编码特征,还能获取单模态内的全局交互编码特征,将两种特征数据整合拼接,能够丰富特征维度与信息,从而提高多模态情感分类的识别率。同时,本发明构建的改进transformer的网络模块,提取高级特征信息,由水平和垂直方向上的bigru2d模块替代复杂的多头注意力模态,大大减少了网络参数,节省了模型训练时间,在保持高准确率的同时,提高了多模态情感识别系统的运行效率。
附图说明
[0047]
图1是本发明一种基于改进transformer的多模态情感识别方法流程图。
[0048]
图2是模态间注意力机制网络结构图。
[0049]
图3是单模态内注意力机制网路结构图。
[0050]
图4是改进transformer模块的网络结构图。
[0051]
图5是bigru2d模块的网络结构图。
具体实施方式
[0052]
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0053]
需要强调的是,在描述本发明过程中,各种公式和约束条件分别使用前后一致的
标号进行区分,但也不排除使用不同的标号标志相同的公式和/或约束条件,这样设置的目的是为了更清楚的说明本发明特征所在。
[0054]
如图1所示,本发明提出了一种基于改进transformer的多模态情感识别方法。该方法包含以下步骤:对视频、语音、文本数据库中的每个模态进行预处理,通过传统方法提取各样本数据特征;然后,通过3层跨模态注意力网络,获取两种模态间全局交互的特征,同时通过3层自注意力模型,获取单模态内全局交互的特征;再通过构建的改进transformer网络对注意力网络提取的特征进行进一步提取;最后用将数据输入深度神经网络进行训练,并将训练好的模型用于多模态情感分类任务。
[0055]
以下将结合图1所示对本发明提供的基于改进transformer的多模态情感识别方法进行详细地步骤说明。所述方法包括:
[0056]
步骤s1:对视频、语音、文本数据库中的每个模态进行预处理,通过传统方法提取各样本数据特征,每个数据样本生成一个二维特征向量。本实施例选用iemocap多模态情感样本库。iemocap多模态情感库是南加州大学sail实验室从十位演员的面部、头部和手部的标记中记录下来的一个动作、多模态和多说话者的数据库,包括视频、语音、面部动作捕捉等。演员们表演了经过挑选的情绪剧本,也即兴创作了一些假想场景,旨在引出5种特定类型的离散情绪(快乐、愤怒、悲伤、沮丧和中性状态),语料库包含大约12小时的数据。在实验中处理了快乐、愤怒、悲伤和沮丧四种多模态情绪样本,样本数量为973。在实验中,通过传统方法对三模态数据进行预处理。对iemocap多模态数据库具体处理步骤如下::
[0057]
步骤s1-1:对每个视频数据样本进行分帧处理,按照时间顺序截取20帧图像序列,然后通过facet工具提取每帧图像中人脸35个面部动作单元的运动信息,最后每段视频数据样本生成一个二维特征向量zv;
[0058]
步骤s1-2:对每个语音数据样本进行分段处理,按照时间顺序截取20段语音序列,然后通过covarep提取低水平声学特征,其中包括12个mel倒谱系数、声门源参数、峰值斜率参数、基音跟踪和浊音/清音分割特征和最大色散商等74个表现语音特征的声学特征,最后每个语音数据样本生成一个二维特征向量za;
[0059]
步骤s1-3:对每个文本数据样本进行词级别处理,然后通过预训练的glove模型将每个单词生成维度为300的词向量,最后每个文本数据样本生成一个二维特征向量z
t
。
[0060]
步骤s2:如图2所示,首先将三种模态特征两两排列组合后,输入构建好的跨模态注意力网络中,模态间的全局交互有两种方式,即将两种模态分别作为目标模态和辅助模态进行交互,辅助模态作为低级特征,在每一层跨模态注意力网络中与上一层跨模态注意力网络输出的特征编码,再次进行特征交互,最后通过三层跨模态注意力网络获取两种模态间全局交互特征向量获取过程的具体步骤如下:
[0061]
步骤s2-1:将处理后的样本数据zv、za、z
t
通过卷积核大小为3
×
3的conv1d进行一维卷积,样本数据维度统一至40维。然后通过正余弦位置编码继续对统一维度后的样本数据进行处理,最终得到三模态数据样本
[0062]
步骤s2-2:通过3层跨模态注意力网络,进行两种模态间的全局交互获得特征向量
以语音模态为目标模态,视频模态为辅助模态为例,将语音模态特征数据视频模态特征数据输入3层跨模态注意力网络单元中,通过多轮的全局特征交互计算得到特征向量具体计算步骤如下:
[0063]
步骤s2-2-1:分别对目标模态与辅助模态数据特征进行层归一化处理,具体计算过程如下:
[0064][0065][0066]
其中,代表通过i-1层多头注意力网络进行模态间特征交互后的特征向量。
[0067]
步骤s2-2-2:将输入多头注意力网络进行全局特征的交互并进行残差计算,具体计算过程如下:
[0068][0069][0070][0071]
其中,代表不同张量的权重矩阵,具体的da、dv、dk、ds分别为74、35、40、40,代表使用辅助模态的低级特征数据与经过i-1层多头注意力网络单元后输出的目标模态特征数据进行全局特征交互后的结果;
[0072]
步骤s2-2-3:对残差相加后的特征数据归一化后,输入前馈神经网络并进行残差计算,具体计算过程如下:
[0073][0074]
其中,i=0,1,
…
,d、代表将第i轮语音和视频模态特征交互后进行层归一化的结果,再将结果输入前馈神经网络。最终经过3层跨模态注意力网络的特征交互,得到以语音模态为目标模态,视频模态为辅助模态,通过跨模态注意力网络进行全局特征交互的特征向量
[0075]
步骤s3:如图3所示,构建自注意力模型,获取单模态内全局交互特征的具体方法为:分别将通过conv1d和正余弦位置编码处理后的语音、视频、文本模态特征数据经过3层自注意力模块单元,进行模态内的特征信息交互编码并经过前馈神
经网络后再进行残差计算,得到经自注意力网络交互编码后的模态内语音、视频、文本特征
[0076]
步骤s4:构建由bigru2d替代多头注意力网络的改进transformer网络,具体步骤如下:
[0077]
步骤s4-1:分别将单模态内全局交互的特征与两两组合的模态间全局交互的特征进行拼接,即获得拼接后的特征数据进行拼接,即获得拼接后的特征数据za、zv、z
t
分别代表语音模态间-模态内特征数据、视频模态间-模态内特征数据、文本模态间-模态内特征数据;
[0078]
步骤s4-2:将经过步骤s4-1拼接后的模态间-模态内特征za、zv、z
t
,输入改进transformer编码器进行深层次特征的提取。以处理语音模态间-模态内特征数据为例,具体步骤如下:
[0079]
步骤s4-2-1:首先将za输入层归一化网络,
[0080]
步骤s4-2-2:将输入bigru2d网络模块,通过竖直和水平方向上的bigru,提取二维特征向量的有效信息,维特征向量的有效信息,其中代表以水平方向分割特征向量后,将序列顺序输入bigru网络中提取的水平方向上特征信息水平方向上特征信息代表以垂直方向分割特征向量后,将序列顺序输入bigru网络中提取到的垂直方向上的特征信息然后将两特征向量进行拼接并进行残差计算,
[0081]
步骤s4-2-3:将层归一化后,送入前馈神经网络并引入残差计算,
[0082]
最后得到的特征用于对多模态多元情感的分类。
[0083]
步骤s5:将处理好的数据输入深度神经网络进行训练,并将训练好的模型用于多模态情感分类任务。
[0084]
基于以上发明构思,本发明还公开了一种基于改进transformer的多模态情感识别系统,包括至少一台计算设备,该计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时可实现上述的基于改进transformer的多模态情感识别方法。
[0085]
本发明构建了一种注意力机制模块,不仅能够获取两种模态间的全局交互编码特征,还能获取单模态内的全局交互编码特征,将两种特征数据整合拼接,能够丰富特征维度与信息,从而提高多模态情感分类的识别率。同时,本发明构建的改进transformer的网络模块,通过提取高级特征信息,由水平和垂直方向上的bigru2d模块替代复杂的多头注意力
模态,从而大大减少了网络参数,节省了模型训练时间,在保持高准确率的同时,提高了多模态情感识别系统的运行效率。
[0086]
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
技术特征:1.一种基于改进transformer的多模态情感识别方法,其特征在于:包括以下步骤:步骤s1、对视频、语音、文本数据库中的每个模态进行预处理,提取各样本数据特征,每个数据样本生成一个二维特征向量;步骤s2、通过跨模态注意力模型,获取两种模态间全局交互的特征;步骤s3、通过自注意力模型,获取单模态内全局交互的特征;步骤s4、构建由bigru2d替代多头注意力模块的改进transformer模型,提取深层次特征;步骤s5、利用处理好的数据样本对构建网络模型进行训练,将训练好的模型用于多元情感的分类。2.根据权利要求1所述的方法,其特征在于:所述步骤s1还包括以下步骤:步骤s1-1、对每个视频数据样本进行分帧处理,按照时间顺序截取k帧图像序列,对截取的每帧图像进行特征提取,每段视频数据样本生成一个二维特征向量zv;步骤s1-2、对每个语音数据样本进行分段处理,按照时间顺序截取k段语音序列,对截取的每段语音进行特征提取,每个语音数据样本生成一个二维特征向量z
a
;步骤s1-3、对每个文本数据样本进行词级别处理,按照时间顺序截取k个单词,对截取的每段语音进行特征提取,每个文本数据样本生成一个二维特征向量z
t
。3.根据权利要求2所述的方法,其特征在于:在所述步骤s1-1中,通过facet工具提取样本数据特征;通过covarep提取低水平声学特征,其中包括12个mel倒谱系数、声门源参数、峰值斜率参数、基音跟踪和浊音/清音分割特征和最大色散商等74个表现语音特征的声学特征;以及通过预训练的glove模型将每个单词生成维度为300的词向量。4.根据权利要求2所述的方法,其特征在于:所述步骤s2中构建跨模态注意力模型,处理三种模态特征两两排列组合后的特征数据,获取两种模态间全局交互特征向量5.根据权利要求4所述的方法,其特征在于:步骤s2主要包括以下步骤:步骤s2-1:将处理后的样本数据zv、z
a
、z
t
通过卷积核大小为n
×
n的conv1d进行一维卷积,样本数据维度统一至d维;然后通过正余弦位置编码继续对统一维度后的样本数据进行处理,最终得到三模态数据样本步骤s2-2:通过跨模态注意力网络进行两种模态间的全局交互获得交互特征向量6.根据权利要求5所述的方法,其特征在于:在步骤s2-2中,以语音模态为目标模态,视频模态为辅助模态为例,将语音模态特征数据视频模态特征数据输入多层跨模态注意力网络单元中,通过多轮的全局特征交互计算得到特征向量计算步骤如下:步骤s2-2-1:分别对目标模态与辅助模态数据特征进行层归一化处理,计算过程如下:1:分别对目标模态与辅助模态数据特征进行层归一化处理,计算过程如下:
其中,代表通过i-1层多头注意力网络进行模态间特征交互后的特征向量;步骤s2-2-2:将输入多头注意力网络进行全局特征的交互并进行残差计算,计算过程如下:算,计算过程如下:算,计算过程如下:其中,代表不同张量的权重矩阵,代表使用辅助模态的低级特征数据与经过i-1层多头注意力网络单元后输出的目标模态特征数据进行全局特征交互后的结果;以及步骤s2-2-3:对残差相加后的特征数据归一化后,输入前馈神经网络并进行残差计算,计算过程如下:其中,i=0,1,
…
,d、代表将第i轮语音和视频模态特征交互后进行层归一化的结果,再将结果输入前馈神经网络;经过d1层跨模态注意力网络的特征交互,得到以语音模态为目标模态,视频模态为辅助模态,通过跨模态注意力网络进行全局特征交互的特征向量7.根据权利要求6所述的方法,其特征在于:在所述步骤3中构建自注意力模型,获取单模态内全局交互特征的方法包括:分别将通过conv1d和正余弦位置编码处理后的语音、视频、文本模态特征数据经过d2层自注意力模块单元,进行模态内的特征信息交互编码并经过前馈神经网络后再进行残差计算,得到经自注意力网络交互编码后的模态内语音、视频、文本特征8.根据权利要求7所述的方法,其特征在于:在所述步骤4中构建由bigru2d替代多头注意力模块的改进transformer模型,处理单模态内全局交互的特征与两两模态排列组合后模态间全局交互的特征拼接后的数据,提取深层次特征,进一步包括如下步骤:步骤s4-1:分别将单模态内全局交互的特征与两两组合的模态间全局交互的特征进行拼接,即有拼接后的特征数据拼接,即有拼接后的特征数据拼接,即有拼接后的特征数据z
a
、zv、z
t
分别代表语音模态间-模态内特征数据、视频模态间-模态内特征数据、文本模态间-模态内
特征数据;步骤s4-2:将经过步骤s4-1拼接后的模态间-模态内特征z
a
、zv、z
t
,输入由bigru2d替代多头注意力模块的改进transformer编码器进行深层次特征的提取。9.根据权利要求8所述的方法,其特征在于:在步骤s4-2中,以处理语音模态间-模态内特征数据为例,具体步骤如下:步骤s4-2-1:首先将z
a
输入层归一化网络,步骤s4-2-2:将输入bigru2d网络模块,通过竖直和水平方向上的bigru,提取二维特征向量的有效信息,其中代表以水平方向分割特征向量后,将序列顺序输入bigru网络中提取的水平方向上特征信息代表以垂直方向分割特征向量后,将序列顺序输入bigru网络中提取到垂直方向上的特征信息然后将两特征向量进行拼接并进行残差计算,拼接并进行残差计算,步骤s4-2-3:将层归一化后,送入前馈神经网络并引入残差计算,最后得到的特征用于对多模态多元情感的分类。10.一种基于改进transformer的多模态情感识别系统,该系统可实施如权利要求1至9任一项所述的方法。
技术总结本发明提供了一种基于改进Transformer的多模态情感识别方法和实施该方法的系统。该方法包括以下步骤:对视频、语音、文本数据库中的每个模态进行预处理,提取各样本数据特征,每个数据样本生成一个二维特征向量;通过跨模态注意力模型,获取两种模态间全局交互的特征;通过自注意力模型,获取单模态内全局交互的特征;构建由BiGRU2D替代多头注意力模块的改进Transformer模型,提取深层次特征;利用处理好的数据样本对构建网络模型进行训练,将训练好的模型用于多元情感的分类。本发明不仅提取了模态间的交互特征,还考虑了模态内的交互特征信息,并且通过改进的轻量级Transformer编码器提取高级特征,更快速、高效的解决了情感分类问题。类问题。类问题。
技术研发人员:丁俊丰 闫静杰
受保护的技术使用者:南京邮电大学
技术研发日:2022.06.21
技术公布日:2022/11/1