基于Transformer的模态异质摘要情感分析系统

专利2025-04-22  33


本发明属于信息挖掘,涉及一种情感分析系统。


背景技术:

1、随着人工智能技术的快速进步,人们对智能人机交互场景的要求不断提高,在现实生活中,多模态数据通常由三种模态组成:视觉(图像)、声学(语音)和转录文本。由于人类情感的表达具有不确定性和多样性,而多模态情感分析方法则可以结合文本、语音、图像等多种信息来源之间的互补信息,提供更全面和准确的情感识别结果,使得机器能够以一种更符合人类习惯的方式理解人类情感。因此模态异质摘要情感分析方法在众多领域具有广泛的应用前景,但当前模态异质摘要情感分析方法研究还存在一些问题,难以满足复杂环境下的需求。

2、传统的情感识别方法多使用低级特征,如多层多头融合注意机制和递归神经网络(rnn)的语音情绪识别的多模态识别方法,因此使得多模态识别能力还有很大的提升和发展空间。现有的多模态情感分析方法通常采用简单的模态融合方式,如早期融合、中期融合或晚期融合,这些方法忽略了不同模态之间的异质性和不对齐性,导致了互补信息的损失和噪声信息的引入,从而影响了情感分析的准确性和鲁棒性。此外,transformer的提出使得生成式文本摘要取得了突破性进展,但对于获取原始文本中句子与句子之间,段落与段落之间的语义关系还有待提升,简单的特征拼接、特征融合可能会使某些模态数据损失较大,从而降低了特征之间的差异性,导致识别精度较低。多模态情感分析方法通常没有考虑到文本数据中存在的长文本信息和多文档信息,这些信息对于理解文本的主旨和情感是非常重要的,但是由于其复杂性和多样性,难以被有效地提取和利用。

3、基于以上原因,在网络数据量飞速增长的环境下,提供一个自动的,准确的且能融合多种模态信息的摘要情感分析方法是至关重要的。


技术实现思路

1、本发明是为了解决传统模态融合方式的情感分析方法存在互补信息挖掘不充分的问题,进而导致了情感分析准确率欠佳的问题。

2、基于transformer的模态异质摘要情感分析系统,包括预训练特征提取模块、多模态摘要生成模块和模态融合模块;其中,

3、所述预训练特征提取模块包括文本特征提取单元和语音特征提取单元;

4、文本特征提取单元:对文本进行标记,并对标记后的文本进行编码得到xα;由特征信息xa所表示的文档数据发送到多模态摘要生成模块;

5、语音特征提取单元:对语音进行离散化,并对离散后的语音进行编码得到xβ;

6、所述多模态摘要生成模块的处理过程以下步骤:

7、s201、将文档数据集合切分为段落,并输入一个段落编码层,段落编码层利用transformer对段落进行编码,从段落编码层的输出中提取句子,并构建一个表示句子间相似度的无向加权图g,表示摘要文本的句子间相似度关系;对图g进行基于图卷积网络的聚类算法处理,并将图g划分为若干个子图,每个子图代表一个主题或者一个观点;

8、s202、将无向加权图的子图输入一个图编码层,利用图结构信息对句子进行编码;

9、s203、将图编码层和段落编码层得到的特征向量进行融合,并输入一个带有注意力机制和指针网络的序列到序列模型,生成摘要序列;将多模态摘要生成模块生成的摘要序列记为

10、所述模态融合模块的处理过程包括以下步骤:

11、针对特征矩阵表示的摘要文本序列和语音的xβ,得到和分别对应表示文本和语音的querys、keys和values矩阵,分别为对应的权重矩阵;

12、通过多模态融合机制得到从β到α′的跨模态attention输出,表示为即:

13、

14、其中,为尺度系数,与具有相同的长度;

15、采用相同的方式,通过多模态融合机制得到从α′到β的跨模态attention输出,表示为

16、用xcon表示yβ之一,或者yβ的融合特征,xcon经过一维卷积层得到再输入到基于注意力的lstm模块中;然后送入全连接层并经过softmax处理后输出情感结果。

17、进一步地,所述文本特征提取单元使用gpt-2标记器对文本进行标记,使用roberta模型对标记后的文本进行编码得到xα。

18、进一步地,所述语音特征提取单元使用vq-wav2vec模型对语音进行离散化,使用speech-bert模型对离散后的语音进行编码得到xβ。

19、进一步地,s201中所述的段落编码层由若干个local transformer layer和global transformer layer组成,将local transformer layer和global transformerlayer交替堆叠,形成一个深层的transformer网络,每个transformer layer包含multi-head attention子层和前馈神经网络子层,其中,multi-head attention是多头注意力机制。

20、进一步地,所述s201的具体过程包括以下步骤:

21、(1)假设文档数据集合包含n1篇文档d1-dn1,每篇文档由m个段落组成;对每篇文档进行分段处理,得到所有段落的集合p={p1,p2,p3,...pm},其中pi表示第i个段落;

22、(2)对于每个段落pi,对其进行分词处理,得到所有单词的集合wi={w1,w2,…,wn1},其中wk表示第j个单词;

23、(3)对于每个单词wj使用词嵌入模型得到其词向量ej,然后使用位置编码模型得到其位置向量将两者相加得到单词的表示向量xj,即

24、(4)将段落pi中所有单词的表示向量xij组成一个矩阵x∈rn*d,其中n是段落中单词的个数,d是表示向量的维度;

25、(5)将矩阵x作为段落编码层的输入,首先输入到local transformer layer中,使用local transformer layer对其进行局部自注意力编码,得到段落的编码矩阵y;

26、(6)将矩阵y输入global transformer layer,得到每个段落的上下文向量zi;

27、(7)对每个段落的上下文向量zi输入一个双层前馈网络,得到每个段落的摘要向量si;

28、(8)对每个段落的摘要向量si输入一个softmax层,得到每个段落的摘要概率probi∈[0,1],其中probi表示段落probi被选入摘要的概率;具体表示为:

29、

30、其中,w∈rd表示softmax层的权重向量,b∈r表示softmax层的偏置标量,m表示文档内段落的个数;

31、(9)根据每个段落的摘要概率probi,选择若干个段落作为摘要的候选段落,将候选段落按照原文档的顺序拼接起来,形成段落的摘要文本;

32、(10)由段落编码层的输出向量构建一个无向加权图,计算句子间的余弦相似度矩阵,具体步骤如下:

33、将摘要文本中的每个段落的编码矩阵记为yi,对每个段落的编码矩阵yi,使用句子分割模型对其进行分句处理,得到每个段落中的句子集合s={s1,s2,…,sk},其中sj表示第j个句子,k是段落中句子的个数;

34、对每个句子sj,使用句子编码模型得到其句子向量vj,然后使用位置编码模型得到其位置向量将两者相加得到句子的表示向量xosj,即

35、将所有段落中句子的表示向量xosj组成一个矩阵xos;

36、对每两个句子xosj,xosk,计算它们之间的余弦相似度sim(xosj,xosk),并根据一个阈值θ来判断两个句子是否有连接;接着以句子为节点,句子间相似度为边权值,构建无向加权图g=(v,e),表示摘要文本的句子间相似度关系;

37、对图g进行基于图卷积网络的聚类算法处理,来动态地计算节点之间的注意力权重,并将图g划分为若干个子图g1,g2,…,gl,其中gi=(viei),vi是gi中节点的集合,ei是gi中边的集合;每个子图gi代表了一个主题或者一个观点。

38、进一步地,所述local transformer layer的处理过程包括:

39、基于输入的由词嵌入向量组成的矩阵,对输入的token进行embedding和位置编码,得到每个token的初始表示;对每个token的表示应用多头自注意力机制multi-headattention,得到每个token对段落内其他token的注意力分数;对注意力分数进行残差连接;然后进行层标准化layer normalization处理,再应用前馈神经网络,得到每个token的最终表示,对最终表示进行残差连接;最后通过层标准化,得到每个token的输出表示。

40、进一步地,将矩阵y输入global transformer layer,得到每个段落的上下文向量zi,具体过程如下:

41、zi=layernorm(gi+yij)

42、其中zi∈rd,zi是y的第i行;layernorm表示层归一化操作;gi表示头部信息ci与每个输入token向量yij相加后得到的向量,即:

43、

44、其中,和分别表示前馈神经网络子层的第一层和第二层的权重矩阵,ci表示第i个段落经过所有头部的inter-paragraph attention机制后得到的上下文向量之和:

45、

46、其中,h表示头部的数量,表示第i个段落经过第z个头部的inter-paragraph attention机制后得到的上下文向量,中的t表示转置操作,表示第z个头部的inter-paragraph attention机制中的可学习的参数矩阵,表示向量查询、键和值向量,是从yij线性变换而来的。

47、进一步地,步骤s202中的图编码层由多个graph encoding layer组成,graphencoding layer使用图注意力机制或图神经网络等技术来实现;具体步骤如下:

48、将无向加权图的子图gi输入graph encoding layer,对每个子图进行图编码,得到节点特征和边特征,节点特征用矩阵v表示,边特征用矩阵e表示,e的每一行ei表示第i条边的特征向量;将节点特征和边特征融合为图表示向量,利用基于图注意力网络机制的增强图来计算向量中节点之间的相关性,并更新节点的特征向量;即通过图注意力网络机制将显式图形表示输入编码过程,利用图中的显式关系来学习更好的句子间关系;每个句子从其他相关句子收集信息,从而从整个输入中获取全局信息;

49、设表示第i个句子在第t-1次图编码层的输出向量,其中是输入句子向量;对于每个节点i,上下文表示ui是第i个节点的向量表示,通过以下步骤得到:

50、αij=softmax(eij+rij)

51、

52、其中,αij表示第i个节点第j个节点之间的权重系数;wk,wq,wv为参数权重,分别用于计算查询,键和值的参数矩阵;eij表示第i个节点与第j个节点之间的潜在关系权重,dhead表示每个注意力头的维度,rij表示第i个节点与第j个节点之间的相对位置信息;

53、最后,u′i经过两层前馈神经网络输出特征向量ui。

54、进一步地,rij通过计算无向加权图g中两个节点之间的连接情况确定:

55、

56、其中,σ表示代表图形结构影响强度的标准偏差;σ是一个超参数;g[i][j]为无向加权图g中的元素。

57、进一步地,s203具体过程包括以下步骤:

58、s2031、将特征矩阵ui和si作为编码器encoder的输入,使用一个双向lstm或gru来对特征矩阵进行编码,得到隐藏状态矩阵h,其中每一行表示一个节点或token的隐藏状态;

59、s2032、在解码器decoder端,使用一个单向lstm或gru来生成摘要序列,初始状态为编码器的最后一个隐藏状态,初始输入为一个特殊的开始符号<start>;

60、s2033、根据输出概率分布piut,选择概率最大的词或token作为当前解码步骤的输出;

61、s2034、如果输出的词或token是一个特殊的结束符号<end>,则停止解码,否则将输出的词或token作为下一个解码步骤的输入,重复上述操作,直到达到最大解码长度或输出结束符号为止;

62、将多模态摘要生成模块生成的摘要序列记为

63、有益效果:

64、本发明提出的一种新的基于transformer和注意力机制的多模态摘要情感分析系统,在有效保留数据低级特征的基础上,能够从文本、语音多种模态中提取特征,并利用图结构信息和transformer模型生成简洁、准确、连贯的摘要,然后利用双向transformer融合网络进行模态融合,可以充分的对不同模态的互补信息进行充分挖掘,能够实现高效、准确、鲁棒的情感分析。


技术特征:

1.基于transformer的模态异质摘要情感分析系统,其特征在于,包括预训练特征提取模块、多模态摘要生成模块和模态融合模块;其中,

2.根据权利要求1所述的基于transformer的模态异质摘要情感分析系统,其特征在于,所述文本特征提取单元使用gpt-2标记器对文本进行标记,使用roberta模型对标记后的文本进行编码得到xα。

3.根据权利要求1所述的基于transformer的模态异质摘要情感分析系统,其特征在于,所述语音特征提取单元使用vq-wav2vec模型对语音进行离散化,使用speech-bert模型对离散后的语音进行编码得到xβ。

4.根据权利要求1所述的基于transformer的模态异质摘要情感分析系统,其特征在于,s201中所述的段落编码层由若干个local transformer layer和global transformerlayer组成,将local transformer layer和global transformer layer交替堆叠,形成一个深层的transformer网络,每个transformer layer包含multi-head attention子层和前馈神经网络子层,其中,multi-head attention是多头注意力机制。

5.根据权利要求1所述的基于transformer的模态异质摘要情感分析系统,其特征在于,所述s201的具体过程包括以下步骤:

6.根据权利要求4或5所述的基于transformer的模态异质摘要情感分析系统,其特征在于,所述local transformer layer的处理过程包括:

7.根据权利要求4或5所述的基于transformer的模态异质摘要情感分析系统,其特征在于,将矩阵y输入global transformer layer,得到每个段落的上下文向量zi,具体过程如下:

8.根据权利要求5所述的基于transformer的模态异质摘要情感分析系统,其特征在于,步骤s202中的图编码层由多个graph encoding layer组成,graph encoding layer使用图注意力机制或图神经网络等技术来实现;具体步骤如下:

9.根据权利要求8所述的基于transformer的模态异质摘要情感分析系统,其特征在于,rij通过计算无向加权图g中两个节点之间的连接情况确定:

10.根据权利要求8所述的基于transformer的模态异质摘要情感分析系统,其特征在于,s203具体过程包括以下步骤:


技术总结
基于Transformer的模态异质摘要情感分析系统,属于信息挖掘技术领域。为了解决传统模态融合方式的情感分析方法存在互补信息挖掘不充分的问题,进而导致了情感分析准确率欠佳的问题。本发明包括预训练特征提取模块、多模态摘要生成模块和模态融合模块;其中,预训练特征提取模块包括对文本进行标记和编码的文本特征提取单元,以及对语音进行离散化和编码的语音特征提取单元;多模态摘要生成模块首先对段落进行编码并构建一个表示句子间相似度的无向加权图,基于图卷积网络的聚类划分子图,利用图结构信息对句子进行编码;将图编码层和段落编码层得到的特征向量进行融合并生成摘要序列;模态融合模块基于摘要文本序列和语音特征进行情感分类。

技术研发人员:刘美玲,李梦华
受保护的技术使用者:东北林业大学
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-13406.html

最新回复(0)