本发明涉及人工智能的多模态讽刺检测,特别是涉及一种基于联合注意力和图学习增强的多模态讽刺检测方法。
背景技术:
1、讽刺是一种情感表达方式,通过批评或嘲笑某人、某事或某种观点来传达信息。能够促使人们重新思考某些观点或行为,从而达到批判、反思或娱乐的目的。因此,讽刺检测在分析隐含情感、理解文学作品等任务中尤为重要。早期的讽刺检测通常仅基于文本分析,但是在现实世界中讽刺常常涉及多种形式的表达,包括语言、图像等。例如,在网络社交平台上,人们更倾向于使用表情结合文字去表达意见。这产生了大量的讽刺相关的多模态数据。在这种情况之下,视觉信息变得无法被忽略。多模态讽刺检测应运而生。
2、然而,在多模态讽刺检测任务中文本模态与图像模态含有讽刺信息的量并不相等。文本模态内的讽刺信息更丰富并且表达能力也更强。此外,以往研究广泛使用的注意力机制在多模态讽刺检测任务上具有局限性,可能会因为文本数据的输入而突出不相关的词。
技术实现思路
1、本发明的目的是提出一种基于联合注意力和图学习增强的多模态讽刺检测方法,以解决上述现有技术存在的问题,能够引入联合注意力机制来同时捕捉多模态讽刺检测任务中模态内与模态间的不一致性问题;还能够使用双仿射变换的方式将文本模态内的高阶关系用以加强平面的注意力机制学习,以解决多模态讽刺检测任务中模态间讽刺信息不一致的问题和注意力机制本身的局限性。
2、为实现上述目的,本发明提供了如下方案:
3、一种基于联合注意力和图学习增强的多模态讽刺检测方法,包括:
4、提取图像文本对的初始图像特征和初始文本特征;
5、对所述初始图像特征和初始文本特征进行联合交叉注意力学习处理,获取联合注意力的图像特征和联合注意力的文本特征;
6、利用图学习对所述联合注意力的文本特征进行增强;
7、将增强后的文本特征和联合注意力的图像特征进行结合,利用结合后的特征预测讽刺倾向。
8、可选地,提取图像文本对的初始图像特征和初始文本特征包括:
9、通过预训练的图像编码器,提取图像文本对的所述初始图像特征;
10、通过预训练的文本编码器,提取图像文本对的所述初始文本特征。
11、可选地,对所述初始图像特征和初始文本特征进行联合交叉注意力学习处理包括:
12、将所述初始图像特征和初始文本特征进行连接,获取联合特征;
13、将所述联合特征分别与所述初始图像特征和初始文本特征进行交叉注意力学习,获取图像相关性矩阵和文本相关性矩阵;
14、将所述图像相关性矩阵和文本相关性矩阵,分别与初始图像特征和初始文本特征进行结合,再分别利用可学习权重矩阵和relu函数,计算图像特征的注意力map和文本特征的注意力map;
15、利用图像注意力map计算得到新的图像特征,利用文本注意力map 得到新的文本特征,将两种新特征再进行连接,获取新的联合特征,重复上述处理,获取最终的联合注意力的图像特征和联合注意力的文本特征。其中本发明发现由于迭代融合的形式有利于不同种模态间信息进行融合,故需要进行重复操作。
16、可选地,所述图像相关性矩阵为:
17、
18、其中,为图像相关性矩阵,为i 和 j之间的可学习权重矩阵,j 与i分别为代表联合向量与图像向量的下角标,i为图像特征,( )为激活函数,j为联合特征,为图像特征的转置,为图像和文本特征的特征维度;
19、所述文本相关性矩阵为:
20、
21、其中,为文本相关性矩阵, 为t 和 j之间的可学习权重矩阵,t为代表图像的下角标,为文本特征的转置。
22、可选地,所述图像特征的注意力map为:
23、
24、其中,为图像特征的注意力map, 为 和 t 之间的可学习权重矩阵,为文本相关性矩阵,( )为激活函数;
25、所述文本特征的注意力map为:
26、
27、其中,为文本特征的注意力map,为 和i 之间的可学习权重矩阵。
28、利用文本和图像的map图,计算得到融合了联合特征的文本特征 和图像特征 。
29、
30、
31、其中, 代表第一次进行联合注意力操作, 代表第二次进行联合注意力操作,即迭代部分, 为联合注意力模块最后文本输出, 为联合注意力机制的最后的图像输出, 用作下一步的图依赖增强操作, 用作进行分类前的模态融合操作,为第一次联合注意力模块的文本特征输出,为第一次联合注意力模块的图像输出,为第二次联合注意力操作的文本特征注意力map,为第二次联合注意力操作的图像特征注意力map,为文本模态的可学习权重,为图像模态的可学习权重。
32、可选地,利用图学习对所述联合注意力的文本特征进行增强包括:
33、对所述联合注意力的文本特征,构建文本图;
34、利用图注意力机制对文本图进行处理,获取预设高级特征的文本特征;
35、将所述文本特征进行联合注意力处理,获取文本特征;
36、将所述文本特征和文本特征进行特征交换,对交换结果进行迭代。
37、可选地,构建所述文本图包括:
38、将所述联合注意力的文本特征中的 token 视为图的节点,提取所述联合注意力的文本特征中单词之间的依赖关系作为图的边;并且构建的所述文本图为无向且包括自循环的。
39、可选地,利用图注意力机制对文本图进行处理包括:
40、
41、
42、
43、其中,w和均为第1层gat的可学习参数,为一个用来指示节点i与临近节点j 之间相关性分数的一个标量,表示第(l)层节点j的特征表示,为第 (l) 层中节点 i 对节点 j 的注意力系数的非归一化得分,为一个可学习的权重向量的转置,为节点i的特征,为与i节点相邻的节点,为节点的集合,为第(l)层中节点i对节点k的注意力系数的非归一化得分,为节点i自身的注意力权重,为第(l+1)层节点i的特征,( )为激活函数,( )为激活函数。
44、可选地,对所述交换结果进行迭代包括:
45、
46、
47、
48、
49、
50、
51、其中,和分别为图与注意力机制的可学习权重矩阵,为到的投影,为到的投影,k为交互迭代学习的次数,为基于和之间的关系所计算的注意力权重,为基于和之间的关系所计算的注意力权重,为在第k+1层中的更新后的表示,为表示第k层的图结构特征,为在第k+1层更新后的表示,为第k层的文本联合注意力特征,将最后一层的 将其命名为 ,用作接下来的融合部分,为第(k)层 到的投影,为第(k)层 到 的投影,( )为归一化操作。
52、可选地,利用结合后的特征预测讽刺倾向包括:
53、
54、
55、
56、
57、其中,mean( )表示对特征应用平均函数,ln( ) 表示使用归一化, 与 是可训练的学习参数, 是预测标签的可能性, 为对 进行平均池化后得到的结果, 为最后经过图强化后的文本特征, 为对 平均池化后得到的结果, 为融合了联合特征的图像特征, 为将 和 融合后的再经过线性变换得到的结果, 和 为对应的偏置向量。
58、本发明的有益效果为:
59、本发明首次将联合特征表示引入跨模态交叉注意力机制中,以同时捕获模态间与模态内的不一致性。
60、本发明同时考虑从文本相应依赖图中学习到的基于图的表示和从联合注意力机制中学习到的跨模态表示。通过将两种表示相互biaffine转换,让依赖图来指导联合注意力机制的表示学习。解决了讽刺信息不相等和注意力机制在msd任务上的局限性问题。
61、本发明在渐进式机制中,将两种表示再次馈送到强化模块,以获得更加细致的特征表示。
1.一种基于联合注意力和图学习增强的多模态讽刺检测方法,其特征在于,包括:
2.根据权利要求1所述的基于联合注意力和图学习增强的多模态讽刺检测方法,其特征在于,提取图像文本对的初始图像特征和初始文本特征包括:
3.根据权利要求1所述的基于联合注意力和图学习增强的多模态讽刺检测方法,其特征在于,对所述初始图像特征和初始文本特征进行联合交叉注意力学习处理包括:
4.根据权利要求3所述的基于联合注意力和图学习增强的多模态讽刺检测方法,其特征在于,所述图像相关性矩阵为:
5.根据权利要求3所述的基于联合注意力和图学习增强的多模态讽刺检测方法,其特征在于,
6.根据权利要求1所述的基于联合注意力和图学习增强的多模态讽刺检测方法,其特征在于,利用图学习对所述联合注意力的文本特征进行增强包括:
7.根据权利要求6所述的基于联合注意力和图学习增强的多模态讽刺检测方法,其特征在于,构建所述文本图包括:
8.根据权利要求6所述的基于联合注意力和图学习增强的多模态讽刺检测方法,其特征在于,利用图注意力机制对文本图进行处理包括:
9.根据权利要求6所述的基于联合注意力和图学习增强的多模态讽刺检测方法,其特征在于,对所述交换结果进行迭代包括:
10.根据权利要求9所述的基于联合注意力和图学习增强的多模态讽刺检测方法,其特征在于,利用结合后的特征预测讽刺倾向包括:
