基于时序情感特征的谣言检测方法和系统

专利2023-06-24  108



1.本发明涉及谣言检测技术领域,具体为一种基于时序情感的谣言检方法和系统。


背景技术:

2.社交媒体的发展改变了公众的信息消费方式。然而,大量的信息也带来了许多谣言。谣言被定义为未经官方证实的信息,大多数谣言都有不良影响。同时有研究证明普通人很难识别事件是否是谣言。传统谣言识别需要通过训练有素的谣言鉴别员对事件进行鉴别,但是随着社交网络的发展,事件数量爆发增长,传统的基于人工的谣言检测方法陷入了困境。因此,有必要开发有效的谣言检测方法。
3.目前现有的谣言检测方法侧重于文本特征。最近,随着社交媒体的发展,越来越多的特征被调查并整合为谣言的复杂表征,例如视觉特征。然而,恶意用户仍然可以通过图像生成或文本生成技术轻松地伪造文本或图像。此外,与社交媒体的文本和视觉特征相比,传播特征很难被恶意用户操纵。因此,越来越多的多模态检测模型将传播特性集成到其方法中。但是在传播特征和文本特征较为不明显的事件上,传统多模态方法难以识别事件是否为假新闻。同时在事件的传播过程中,帖子的情感特征通常会发生变化,但是目前多模态谣言检测方法并没有充分利用谣言的时序情感特征。


技术实现要素:

4.本发明要克服现有谣言检测算法在缺失文本和传播结构信息时性能较低的问题,提出了使用时序情感作为谣言检测的特征,使用时序情感特征作为信息的补充。
5.本发明的技术构思为:情绪作为人们心理状态的一种表征,也越来越受到研究人员的关注。现有的大多数基于情感的谣言检测方法都将情感作为文本特征的补充属性,但忽略了信息传播时的情感变化。因此,本发明提出了使用时序情感特征的谣言检测系统,使用时序情感特征作为事件的信息补充,能够有效提高模型的泛化性能。
6.本发明实现上述发明目的所采用的技术方案如下:
7.一种基于时序情感特征的谣言检测方法,包括以下步骤:
8.s1:对从社交网络中获取的数据进行数据提取以及格式转换,获取事件的源帖子、回复帖子以及传播路径;
9.s2:将s1处理过后的源及回复的文本进行文本特征提取,转化为向量形式;
10.s3:将s1处理过后的源及回复的文本进行情感特征提取,将文本情感特征转化为情感分数;
11.s4:将s1处理过后的帖子的文本进行时序特征提取,将帖子序列转化为one-hot时序向量;
12.s5、将s3提取的情感特征与s4提取的时序特征相乘,得到帖子的情感时序特征向量;
13.s6、将s5提取的情感时序特征向量与s2提取的文本特征向量进行向量拼接,得到
帖子的表示向量;
14.s7、将s6处理得到的帖子表示向量和帖子的传播路径输入rvnn神经网络中以获得事件的综合表示;
15.s8、将s7获得的事件综合表示输入谣言分类模块中的神经网络中,对事件进行判断,输出谣言分类结果。
16.优选的,所述步骤s1具体包括:
17.将训练数据定义为其中表示训练数据的数量,ci为其中的一个事件。将事件表示为树结构ci=《vi,ei》,其中为节点集,节点集中的每个元素为源帖子则为帖子总数为ki。将帖子之间的转发关系定义为其中表示为的回复。
18.优选的,所述步骤s2具体包括:
19.使用预训练的word2vec模型将帖子中的文本转化为词向量[e1,e2,...,e
l
],并使用下述公式将词向量转化为帖子的文本特征向量:
[0020][0021]
优选的,所述步骤s3具体包括:
[0022]
使用通用情感分析工具对文本情感特征进行提取。通用情感分析工具能够提取帖子中的情感特征。最终获得帖子的情感分数
[0023]
优选的,所述步骤s4具体包括:
[0024]
将帖子序列进行压缩编码,使用固定维度的向量来表示帖子在当前事件所有帖子中的位置,公式如下:
[0025][0026]
其中[*]表示向下取整,i(l=k)表示如果l=k则函数值为1,反之为0,j为事件下标,d
sen
为位置向量维度,ki为当前事件的帖子总数量。
[0027]
优选的,所述步骤s5具体包括:
[0028]
使用下述公式将步骤s3得到的特征和步骤s4得到的特征进行融合,得到时序情感特征
[0029][0030]
其中为步骤s3获得的帖子情感特征,为步骤s4获得帖子时序特征,最终输出为帖子的时序情感特征。
[0031]
优选的,所述步骤s6具体包括:
[0032]
按照下述公式对s5和s2中提取的特征进行融合,得到帖子的综合表示:
[0033]
[0034]
其中为步骤s2获得的文本特征,为步骤s5获得时序情感特征。
[0035]
优选的,所述步骤s7具体包括:
[0036]
s7.1:使用rvnn捕获帖子综合表示的传播特征,公式如下:
[0037][0038]
其中表示节点的父节点,gru(*)表示gur隐藏单元,公式如下:
[0039][0040][0041][0042][0043][0044]
式中e为转化矩阵,{w
*
,u
*
}为权重矩阵,σ(*)和tanh(*)表示激活函数,x
t
表示输入h
t
表示输出的隐藏状态,h
t-1
表示前一节点的隐藏状态。可以获得所有叶子节点的隐藏状态
[0045]
s7.2:获得所有的叶子节点隐藏状态后,使用最大池化层获得事件的综合表示,表示如下:
[0046][0047]
优选的,所述步骤s8具体包括:
[0048]
使用mlp作为分类器,根据帖子综合表示的传播特征进行分类,计算公式表示如下:
[0049][0050]
其中{w
*
,b
*
}为神经网络的权重和偏置,relu(*)和σ(*)为激活函数,最终输出为模型对事件ci的预测。
[0051]
实现本发明的一种基于时序情感特征的谣言检测方法,包括:包括帖子表示模块,事件表示模块和谣言分类模块;
[0052]
所述帖子表示模块使用文本特征和时序情感特征对社交网络帖子进行表示;
[0053]
所述事件表示模块使用rvnn按照新闻传播路径捕获事件帖子表示特征,得到事件的综合表示;
[0054]
所述谣言分类模块依据事件的综合表示对事件是否为谣言进行判断。
[0055]
所述的帖子表示模块,事件表示模块和谣言分类模块依次连接。
[0056]
本发明的有益效果为:
[0057]
(1).本发明提出的一种基于时序情感特征的谣言检测方法,可以使用事件传播过程中的时序情感特征,能够显著提高识别准确性;
[0058]
(2).本文提出的一种基于时序情感特征的谣言检测方法优于现有方法。
附图说明
[0059]
图1是本发明的结构图。
具体实施方式
[0060]
下面结合说明书附图对本发明的具体实施方式作进一步详细描述。
[0061]
参照图1,本文所述一种基于时序情感特征的谣言检测方法,包括以下步骤:
[0062]
s1:对从社交网络中获取的数据进行数据提取以及格式转换,获取事件的源帖子、回复帖子以及传播路径,具体包括:
[0063]
将原始社交网络平台api获取的数据进行预处理,将“转发微博”、“转发”去除。按照帖子所属事件、帖子id、帖子文本、发帖时间、回复id的格式将原始数据进行重新打包,其中帖子文本为经过文本预处理后的文本信息。
[0064]
s2:将s1处理过后的源及回复的文本进行文本特征提取,转化为向量形式,具体包括:
[0065]
s2.1使用word2vec预训练模型对文本中的词进行转化,将词转化为向量形式。使用 word2vec中的skip-gram对文本词进行训练,得到预训练词向量模型,所述词向量的嵌入维度为200。再使用预训练词向量模型获取帖子的词向量[e1,e2,...,e
l
]。
[0066]
s2.2使用平均池化层将词向量转化为帖子的文本表示,过程如下所示:
[0067][0068]
s3:将s1处理过后的源及回复的文本进行情感特征提取,将文本情感特征转化为情感分数,具体包括:
[0069]
使用nltk公开api对文本的情感倾向进行分析,获得文本情感特征结果范围为(-1,1),结果越接近1,表示文本情感越倾向于积极。
[0070]
s4:将s1处理过后的帖子的文本进行时序特征提取,将帖子序列转化为one-hot时序向量,具体包括:
[0071]
使用数据集中的发帖信息将同一事件的发帖顺序信息,获得发帖序列,再按照公式,对获得帖子时序特征,所述公式如下所示:
[0072][0073]
其中[*]表示向下取整,i(l=k)表示如果l=k则函数值为1,反之为0,j为事件下标,d
sen
为位置向量维度,为100,ki为当前事件的帖子总数量。
[0074]
s5、将s3提取的情感特征与s4提取的时序特征相乘,得到帖子的情感时序特征向量,具体包括:
[0075]
将s3获得的文本情感特征与s4获得的帖子时序特征相乘,获得帖子的时序情感特征,即:
[0076][0077]
s6、将s5提取的情感时序特征向量与s2提取的文本特征向量进行向量拼接,得到帖子的表示向量,具体包括:
[0078]
按照下述公式对s5提取的情感时序特征向量与s2提取的文本特征向量进行向量
拼接:
[0079][0080]
得到帖子的综合表示。
[0081]
s7、将s6处理得到的帖子表示向量和帖子的传播路径输入rvnn神经网络中以获得事件的综合表示,具体包括:
[0082]
s7.1使用rvnn捕获帖子综合表示的传播特征,公式如下:
[0083][0084]
其中表示节点的父节点,gru(*)表示gur隐藏单元,公式如下:
[0085][0086][0087][0088][0089][0090]
式中e为转化矩阵,{w
*
,u
*
}为权重矩阵,σ(*)和tanh(*)表示激活函数,x
t
表示输入h
t
表示输出的隐藏状态,h
t-1
表示前一节点的隐藏状态。可以获得所有叶子节点的隐藏状态
[0091]
s7.2获得所有的叶子节点隐藏状态后,使用最大池化层获得事件的综合表示,表示如下:
[0092][0093]
其中为事件的综合表示,maxpooling(*)表示最大池化操作。
[0094]
s8、将s7获得的事件综合表示输入谣言分类模块中的神经网络中,对事件进行判断,输出谣言分类结果具体包括:
[0095]
使用mlp作为分类器,根据帖子综合表示的传播特征进行分类,计算公式表示如下:
[0096][0097]
其中{w
*
,b
*
}为神经网络的权重和偏置,relu(*)和σ(*)为激活函数,最终输出为模型对事件ci的预测。
[0098]
为了证明本发明提出的一种的基于时序情感的谣言检测系统及方法效果相对其他现有模型有所提升,我们在微博谣言数据集测试该方法的效果,我们使用交叉熵损失函数和 adam优化方法对模型进行训练。从实验的效果可知,本专利提出的方法所获得的性能优于基线方法。其中bert表示用bert提取事件的文本特征;bigru表示使用bigru提取文本特征;emo-bigru表示使用bigru提取文本特征,并使用情感特征作为增强;rnn表示使用rnn提取事件的文本序列特征;rvnn表示使用rvnn提取文本的传播特征;bigcn 表示使用bigcn
提取事件的传播特征。此外,我们采用accuracy(正确率)、macro-f1(宏平均 f-score)、precision(精确率)、recall(召回率)和f1(f-score)作为评价指标。
[0099]
表1在微博数据集上与基线方法的比较。
[0100][0101]
从表1中可以看出,本专利提出的模型将所有事件的宏平均f1值提升到了0.939,同时正确率也提升到了0.939,超过了所有基线方法。
[0102]
为了证实本文提出的一种的基于时序情感的谣言检测系统及方法中的特征的有效性,本节采用了控制模型变量法,分别去除了新闻表示模块中的文本表示特征和情感时序特征,对比结果在下表显示。
[0103]
表2去除不同特征后的模型在微博数据集上的表现。
[0104][0105]
其中w/o text表示去除了新闻表示模块中的文本特征,w/o sen表示去取了新闻表示模块中的时序情感特征。当删除一个新闻表示模块中的特征时,本实施例所提出的模型的性能都会下降。
[0106]
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

技术特征:
1.一种基于时序情感特征的谣言检测方法,其特征在于:包括以下步骤:s1:对从社交网络中获取的数据进行数据提取以及格式转换,获取事件的源帖子、回复帖子以及传播路径;s2:将s1处理过后的源及回复的文本进行文本特征提取,转化为向量形式;s3:将s1处理过后的源及回复的文本进行情感特征提取,将文本情感特征转化为情感分数;s4:将s1处理过后的帖子的文本进行时序特征提取,将帖子序列转化为one-hot时序向量;s5、将s3提取的情感特征与s4提取的时序特征相乘,得到帖子的情感时序特征向量;s6、将s5提取的情感时序特征向量与s2提取的文本特征向量进行向量拼接,得到帖子的表示向量;s7、将s6处理得到的帖子表示向量和帖子的传播路径输入rvnn神经网络中以获得事件的综合表示;s8、将s7获得的事件综合表示输入谣言分类模块中的神经网络中,对事件进行判断,输出谣言分类结果。2.如权利要求1所述的一种基于时序情感特征的谣言检测方法,其特征在于:所述步骤s1具体包括:将训练数据定义为其中表示训练数据的数量,c
i
为其中的一个事件。将事件表示为树结构c
i
=<v
i
,e
i
>,其中为节点集,节点集中的每个元素为源帖子则为帖子总数为k
i
。将帖子之间的转发关系定义为其中表示为的回复。3.如权利要求1所述的一种基于时序情感特征的谣言检测方法,其特征在于:所述步骤s2具体包括:使用预训练的word2cvec模型将帖子中的文本转化为词向量[e1,e2,...,e
l
],并使用下述公式将词向量转化为帖子的文本特征向量:4.如权利要求1所述的一种基于时序情感特征的谣言检测方法,其特征在于:所述步骤s3具体包括:使用通用情感分析工具对文本情感特征进行提取,通用情感分析工具能够提取帖子中的情感特征。最终获得帖子的情感分数5.如权利要求1所述的一种基于时序情感特征的谣言检测方法,其特征在于:所述步骤s4具体包括:将帖子序列进行压缩编码,使用固定维度的向量来表示帖子在当前事件所有帖子中的位置,公式如下:
其中[*]表示向下取整,i(l=k)表示如果l=k则函数值为1,反之为0,j为事件下标,d
sen
为位置向量维度,k
i
为当前事件的帖子总数量。6.如权利要求1所述的一种基于时序情感特征的谣言检测方法,其特征在于:所述步骤s5具体包括:使用下述公式将步骤s3和步骤s4得到的特征进行融合,得到时序情感特征征进行融合,得到时序情感特征其中为步骤s3获得的帖子情感特征,为步骤s4获得帖子时序特征,最终输出为帖子的时序情感特征。7.如权利要求1所述的一种基于时序情感特征的谣言检测方法,其特征在于:所述步骤s6具体包括:按照下述公式对s5和s2中提取的特征进行融合,得到帖子的综合表示:其中为步骤s2获得的文本特征,为步骤s5获得的时序情感特征。8.如权利要求1所述的一种基于时序情感特征的谣言检测方法,其特征在于:所述步骤s7具体包括:s7.1:使用rvnn捕获帖子综合表示的传播特征,公式如下:其中表示节点的父节点,gru(*)表示gur隐藏单元,公式如下:的父节点,gru(*)表示gur隐藏单元,公式如下:的父节点,gru(*)表示gur隐藏单元,公式如下:的父节点,gru(*)表示gur隐藏单元,公式如下:的父节点,gru(*)表示gur隐藏单元,公式如下:式中e为转化矩阵,{w
*
,u
*
}为权重矩阵,σ(*)和tanh(*)表示激活函数,x
t
表示输入h
t
表示输出的隐藏状态,h
t-1
表示前一节点的隐藏状态。可以获得所有叶子节点的隐藏状态s7.2:获得所有的叶子节点隐藏状态后,使用最大池化层获得事件的综合表示,表示如下:9.如权利要求1所述的一种基于时序情感特征的谣言检测方法,其特征在于:所述步骤s8具体包括:使用mlp作为分类器,根据帖子综合表示的传播特征进行分类,计算公式表示如下:
其中{w
*
,b
*
}为神经网络的权重和偏置,relu(*)和σ(*)为激活函数,最终输出为模型对事件c
i
的预测。10.实现权利要求1所述的一种基于时序情感特征的谣言检测方法,包括:包括帖子表示模块,事件表示模块和谣言分类模块;所述帖子表示模块使用文本特征和时序情感特征对社交网络帖子进行表示;所述事件表示模块使用rvnn按照帖子传播路径捕获帖子表示的特征,得到事件的综合表示;所述谣言分类模块依据事件的综合表示对事件是否为谣言进行判断。所述的新闻表示模块,综合表示模块和谣言分类模块依次连接。

技术总结
一种基于时序情感特征的谣言检测方法,包括:对从社交网络中获取的数据进行处理,获取事件的源帖子、回复帖子以及传播路径;将源及回复的文本进行文本特征提取,转化为向量形式;将源及回复的文本进行情感特征提取,获得文本情的情感分数;将帖子的文本进行时序特征提取,获得one-hot时序向量;将提取的情感特征与提取的时序特征相乘,得到帖子的情感时序特征向量;将情感时序特征向量与文本特征向量进行向量拼接,得到帖子的表示向量;将帖子表示向量和帖子的传播路径输入RvNN神经网络中以获得事件的综合表示;将获得的事件综合表示输入谣言分类模块中的神经网络中,对事件进行判断,输出谣言分类结果。输出谣言分类结果。输出谣言分类结果。


技术研发人员:傅晨波 陈康 潘星宇 俞山青 闵勇
受保护的技术使用者:浙江工业大学
技术研发日:2022.05.30
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-3480.html

最新回复(0)