一种舆情信息内容挖掘与传播监控的分析方法
【技术领域】
1.本发明涉及信息技术领域,尤其涉及一种舆情信息内容挖掘与传播监控的分析方法。
背景技术:2.舆情信息具有词语的隐含性,其对应的舆情事件具有正负面极性,而舆情事件的发生并 非都是偶然的,因为有些事件会因为关联事件的发生而发生,有些会因为时间周期的发生而 发生。例如神州13号载人航天,从发射成功,会带来大量的舆情信息。但是载人航天,有 升空就必然有降落,可以预测的是,舆情信息的周期会在规划周期后到来,这时前期发挥了 舆情影响力的自媒体,会再次迎来具有较大影响力的宣传。而如果在上一次舆情事件报道后 ,该自媒体本身持有负面影响的情况下,其对于上一次舆情事件再现的态度也有较大变化。 因此对于传播的预测,可以通过上一次舆情事件的情况预测上一次舆情事件再现的情况。有 些自媒体在平台上会有不良言论,如何对自媒体进行更严格的认证,避免有些自媒体发表不 良言论并进行备案认证是一个问题。
技术实现要素:3.本发明提供了一种舆情信息内容挖掘与传播监控的分析方法,主要包括:
4.获取上一次舆情信息;根据上一次舆情信息,识别上一次舆情事件的正负面;分析上一 次舆情事件发生的因素;基于上一次舆情事件的发生因素,分析上一次舆情事件再现的传播 程度;根据上一次舆情事件再现的传播程度,挖掘上一次舆情事件报道相关自媒体;预测相 关自媒体对于上一次舆情事件再现的态度;根据自媒体的态度预测结果,对可能引发舆情危 机的自媒体进行备案认证;
5.进一步可选地,所述获取上一次舆情信息包括:
6.基于互联网舆情信息获取上一次舆情信息,包括:获取预设条件;所述预设条件包括预 设时间、预设领域、预设地点和预设事物中的至少一种;基于所述预设条件,采用舆情计算 分析方法获取所述上一次舆情信息;基于所述预设条件,采用舆情计算分析方法获取所述上 一次舆情信息,包括:根据所述预设条件,通过爬虫从互联网数据库中爬取与所述预设条件 相同的至少一个第一信息;至少一个所述第一信息为一个时,将所述第一信息确定为所述上 一次舆情信息;或者,至少一个所述第一信息为多个时,则爬取多个所述第一信息的浏览量 ,从多个所述第一信息筛选出浏览量最高的至少一个第二信息;至少一个所述第二信息为一 个时,将所述第二信息确定为所述上一次舆情信息,或者,至少一个所述第二信息为多个时 ,则爬取多个所述第二信息的互动量,将多个所述第二信息中互动量最高的第二信息确定为 所述上一次舆情信息;所述互动量是指信息包含的点赞量和评论回复量之和。
7.进一步可选地,所述根据上一次舆情信息,识别上一次舆情事件的正负面包括:
8.所述识别上一次舆情事件的正负面,是指将所述上一次舆情信息的正负极性进行
分类, 方法如下:首先,对所述上一次舆情信息进行特征提取,让计算机系统分辨出表达真实的主 观信息的文本内容;所述特征提取,是指计算机通过对信息文本检测,并查阅标准词库,将 带有主观信息所在的段落句子筛选出来;所述主观信息,是指带有情感色彩及正负面倾向性 的词语;然后,基于所述带有主观信息所在的段落句子,进一步提取该段落句子所表达的意 见,选择一方对特定主题的观点,包括:主题提取,观点持有者识别以及陈述的选择;所述 主题提取,是指提取带有评述性的观点以及表述的主题的具体方面;所述观点持有者识别, 是指确定持有所述评述性的观点的人;所述陈述的选择,是指鉴别观点持有者发布的意见, 并去除其他人的陈述;接着,以历史所有舆情事件为样本,基于影响因子构建单分类svm模 型;所述影响因子包括提取的主题,观点持有者的陈述;然后利用激活函数,将单分类svm 模型的中间输出的样本到超球面球心的距离的取值区间映射至[0,1];若映射结果等于第一 预设阈值,则上一次舆情事件的极性是中立的;若映射结果小于第一预设阈值,则上一次舆 情事件的极性与历史舆情事件的极性相反;否则,上一次舆情事件的极性与历史舆情事件的 极性相同。
[0009]
进一步可选地,所述分析上一次舆情事件发生的因素包括:
[0010]
根据识别的上一次舆情事件的正负面,分析上一次舆情事件发生的因素;所述因素包括 关联事件与关联时间;所述关联事件是指导致上一次舆情事件发生的事件;所述关联时间是 指导致上一次舆情事件发生的时间周期;通过上一次舆情事件发生关联函数,计算上一次舆 情事件发生关联度,分析其发生的因素;包括:上一次舆情事件发生的关联事件分析;上一 次舆情事件发生的关联时间分析;根据上一次舆情事件发生关联函数,计算上一次舆情事件 发生关联度;
[0011]
所述上一次舆情事件发生的关联事件分析,具体包括:
[0012]
通过舆情关联事件分析系统对上一次舆情事件发生的关联事件进行分析;所述舆情关联 事件分析系统包括预处理模块、拓扑模块和专家模块;所述预处理模块,用于对上一次舆情 事件进行文本的预处理;所述文本的预处理,是指划分文本的关键词作为子信息,包括地点、 事物和状态;所述拓扑模块,用于将预处理模块的子信息分类到不同的层上,然后分别对同 一层的子信息及不同层的子信息进行拓扑,基于上一次舆情事件的信息生成多种类型的子信 息;所述专家模块,是根据所述拓扑模块生成的多种类型的子信息,在互联网大数据库中爬 取包含相同子信息的文本,将浏览量与互动量之和超过第二预设阈值的文本对应的内容作为 关联事件,并生成分析报告。
[0013]
所述上一次舆情事件发生的关联时间分析,具体包括:
[0014]
所述关联时间分析是对时间周期进行分析;首先预设数据粒度;所述数据粒度是指对上 一次舆情事件的数据细化的程度;根据所述数据粒度划分时间间隔,绘制时间间隔分布图, 横坐标为时间,纵坐标为关联事件发生指标,若关联事件在所述时间间隔内发生,则所述时 间间隔分布图的纵坐标值为1,否则为0;若在预设时间周期内,时间间隔分布图中预设时 间间隔内出现纵坐标值为1,则上一次舆情事件与时间周期关联,该纵坐标值在时间间隔分 布图对应的横坐标值即为所述关联时间。
[0015]
所述根据上一次舆情事件发生关联函数,计算上一次舆情事件发生关联度,具体包括:
[0016]
建立上一次舆情事件发生关联函数,即r=sr*w1+tr*w2;其中,r表示上一次舆情
事件 发生关联度;sr表示关联事件数量;tr表示关联时间数量;w1和w2分别表示对应的权重 ,且w1+w2=1。
[0017]
进一步可选地,所述基于上一次舆情事件的发生因素,分析上一次舆情事件再现的传播 程度包括:
[0018]
所述传播程度,通过上一次舆情事件再现的热度及上一次舆情事件再现的焦点来衡量; 所述热度是指上一次舆情事件再现的火热程度,反映上一次舆情事件再现受大众的关注度; 所述焦点是指上一次舆情事件再现时大众争论的集中点;根据分析的上一次舆情事件再现的 热度及上一次舆情事件再现的焦点,建立舆情事件再现的传播程度评价体系,即spr=(
[0019]
hot+foc)/2;其中,spr表示上一次舆情事件再现的传播程度评价指标;hot表示上一次舆 情事件再现的热度评价指标,若上一次舆情事件再现的热度超过第三预设阈值,则hot=1, 否则hot=0;foc表示上一次舆情事件再现的焦点评价指标,若上一次舆情事件再现的焦点 的关键词在爬取的大数据词库中出现的概率大于第四预设阈值,则foc=1,否则,foc=0; 根据bp神经网络分析上一次舆情事件再现的传播程度;根据舆情事件热度函数以及焦点预 测模型确定训练样本与测试样本,所述训练样本用于神经网络训练,所述测试样本用于检测 实际值与预测值的相对误差;包括:基于关联事件的数量,分析上一次舆情事件再现的热度 ;根据舆情事件热度函数,计算上一次舆情事件热度;预测上一次舆情事件再现的焦点;
[0020]
所述基于关联事件的数量,分析上一次舆情事件再现的热度,具体包括:
[0021]
基于关联事件的数量,对上一次舆情事件再现的热度进行分析;若关联事件越多,关联 事件总关注度和上一次舆情事件总关注度越高,则上一次舆情事件热度越高,所述上一次舆 情事件再现的热度也越高;根据关联事件总关注度和舆情事件热度函数计算得到的上一次舆 情事件热度作为原始数据,建立arima回归模型:以时间顺序绘制关联事件总关注度与上一 次舆情事件热度的变化曲线;若曲线不平稳,则对曲线对应的序列进行差分,并画出差分折 线图确定阶数d;然后继续绘制差分折线图的自相关函数图与偏自相关函数图,根据图的形 状分别判定模型的阶数p、q;最后根据arima(p,d,q)输出曲线,读取时间往后移动后 的预测值,即为所述上一次舆情事件再现的热度。
[0022]
所述根据舆情事件热度函数,计算上一次舆情事件热度,具体包括:
[0023]
建立舆情事件热度函数,即hpr=sr*ca1+ca2;其中,hpr表示上一次舆情事件热度;sr 表示关联事件数量;ca1表示关联事件总关注度;所述关联事件总关注度,是指通过事件发 布系统后台的统计数据中大众对于该关联事件的浏览量、点赞量、评论量和转发量之和。 ca2表示上一次舆情事件总关注度;所述上一次舆情事件总关注度,是指通过事件发布系统 后台的统计数据中大众对于该上一次舆情事件的浏览量、点赞量、评论量和转发量之和。
[0024]
所述预测上一次舆情事件再现的焦点,具体包括:
[0025]
通过爬取互联网大数据获得历史所有的焦点,利用焦点预测模型,对上一次舆情事件再 现的焦点进行预测;所述焦点预测模型内容如下:将所述历史所有的焦点作为样本数据,通 过k-means聚类算法分析,根据历史所有的焦点的关键词选择多个质心;所述关键词是指在 大数据中出现的频率大于第五预设阈值的词语;然后计算各个样本到质心的欧
氏距离,将各 个样本分别归类到离其最近的质心;然后将每个类别的样本数据取平均值,求出每个类别的 新质心;最后迭代进行样本归类和求新质心,直到聚类收敛,新旧质心不再变化为止。将所 述上一次舆情事件与所述关联事件作为参数输入,通过聚类算法归类到与其最相似的焦点的 关键词类型作为算法输出;最后根据焦点的关键词与所述上一次舆情事件,分析得到上一次 舆情事件再现的焦点。
[0026]
进一步可选地,所述根据上一次舆情事件再现的传播程度,挖掘上一次舆情事件报道相 关自媒体包括:
[0027]
基于上一次舆情事件再现的传播程度,对上一次舆情事件报道的相关自媒体的类型和数 量进行挖掘;所述相关自媒体包括:图文类自媒体、视频类自媒体、音频类自媒体与直播类 自媒体;对上一次舆情事件报道的相关自媒体越多,上一次舆情事件热度就越高,上一次舆 情事件再现的传播程度越大;利用关联规则挖掘apriori算法挖掘相关自媒体对应上一次舆 情事件再现的传播程度间的关联关系;所述关联规则算法过程如下:通过迭代输入,检索出 网络大数据平台中相关自媒体的类型,数量两个因子中的所有频繁项集,即支持度不低于设 定阈值的项集;所述支持度,是各个因子项集在大数据平台中出现的次数占各自的总项集次 数的百分比;然后利用频繁项集构造出满足置信度的规则;所述置信度,是各个因子的总项 集占数据库所有项集的百分比;通过对比支持度与置信度,判断与上一次舆情事件再现的传 播程度关联性的强弱,并根据关联规则绘制上一次舆情事件再现的传播程度关联网络图;所 述上一次舆情事件再现的传播程度关联网络图表明对上一次舆情事件报道的相关自媒体。
[0028]
进一步可选地,所述预测相关自媒体对于上一次舆情事件再现的态度包括:
[0029]
基于深度学习方法建立相关自媒体态度预测模型,对相关自媒体对于上一次舆情事件再 现的态度进行预测;首先收集大量的相关自媒体的舆情影响力,包括自媒体知名度、自媒体 平台活跃度、自媒体影响力和上一次舆情事件的影响;所述自媒体知名度是指自媒体的粉丝 数量,粉丝数量越多,自媒体知名度越高;所述自媒体平台活跃度包括自媒体平台上发布所 有舆情事件的频率和发布总数;所述自媒体影响力,包括自媒体报道所有舆情事件后的点赞 量,转发量和评论量;所述上一次舆情事件的影响,是指自媒体本身对于上一次舆情事件的 积极影响或消极影响;所述积极影响通过上一次舆情事件报道后的点赞量衡量,点赞量越多 ,积极影响越大;所述消极影响通过上一次舆情事件报道后举报量来衡量,举报量越多,消 极影响越大;通过爬虫爬取互联网大数据平台的所述相关自媒体的舆情影响力的内容数据, 包括自媒体的粉丝数量,自媒体平台上发布所有舆情事件的频率和发布总数,自媒体报道所 有舆情事件后的点赞量,转发量和评论量,以及上一次舆情事件报道后的点赞量,举报量; 将所述相关自媒体的舆情影响力的内容数据划分为训练集和测试集;然后对上一次舆情事件 报道后的点赞量,举报量进行预处理,将点赞量大于举报量且数值上超过第六预设阈值的, 判定为积极影响作为预处理结果;将举报量大于点赞量且数值上超过第七预设阈值的,判定 为消极影响作为预处理结果;将自媒体知名度,自媒体平台活跃度,自媒体影响力作为特征 ,预处理结果作为标签来训练相关自媒体态度预测神经网络模型,判断相关自媒体对于上一 次舆情事件再现的态度,并且将判断结果按照预设格式记录到表格文件中返回给系统;最后 利用测试集的数据来不断调整模型的参数,提高相关自媒体态度预测模型的准确性。
[0030]
所述根据自媒体的态度预测结果,对可能引发舆情危机的自媒体进行备案认证,包括:
[0031]
所述舆情危机,是指自媒体发布不良言论引起在社会的消极影响;自媒体备案认证包括 数据处理模块,神经网络模型构建模块与自媒体预警生成模块;根据自媒体的态度预测结果 ,对可能引发舆情危机的自媒体进行备案认证,包括:根据自媒体上一次舆情事件报道后的 举报量判断是否需要进行不良言论认证;若所述举报量高于第八预设阈值,则确定需要进行 不良言论认证,将自媒体报道的上一次舆情信息认证为所述不良言论;通过所述数据处理模 块获取上一次舆情事件的内容数据,以及利用深度学习rnn算法分析所述举报量与相关自媒 体对于舆情事件再现的态度预测结果,找出所述不良言论,构建不良言论向量;通过所述神 经网络模型构建模块利用所述所述不良言论向量构建并训练卷积神经网络模型;通过所述自 媒体预警生成模块利用训练好的卷积神经模型进行预警,实现对可能引发舆情危机的自媒体 进行备案认证。
[0032]
本发明实施例提供的技术方案可以包括以下有益效果:
[0033]
本发明能够根据识别上一次舆情事件的正负面,分析出上一次舆情事件的关联事件和关 联时间,从而预测上一次舆情再现的热度和焦点。同时,挖掘报道上一次舆情事件的自媒体 并对其对于上一次舆情事件再现的态度进行预测。根据预测态度的结果,对可能引发舆情危 机的自媒体进行预警,备案认证,从而维持较好的舆情影响力,制裁不良言论,维护网络平 台绿色健康。
【附图说明】
[0034]
图1为本发明的一种舆情信息内容挖掘与传播监控的分析方法的流程图;
[0035]
图2为本发明的一种舆情关联事件分析系统的结构示意图。
【具体实施方式】
[0036]
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明 进行详细描述。
[0037]
图1为本发明的一种舆情信息内容挖掘与传播监控的分析方法流程图。如图1所示,本 实施例的舆情信息内容挖掘与传播监控的分析方法具体可以包括:
[0038]
步骤101,获取上一次舆情信息。
[0039]
基于互联网舆情信息获取上一次舆情信息,包括:获取预设条件;所述预设条件包括预 设时间,预设领域,预设地点,预设事物中的至少一种;基于所述预设条件,采用舆情计算 分析方法获取所述上一次舆情信息。基于所述预设条件,采用舆情计算分析方法获取所述上 一次舆情信息,包括:根据所述预设条件,通过爬虫从互联网数据库中爬取与所述预设条件 相同的至少一个第一信息;至少一个所述第一信息为一个时,将所述第一信息确定为所述 上一次舆情信息;或者,至少一个所述第一信息为多个时,则爬取多个所述第一信息的浏 览量,从多个所述第一信息筛选出浏览量最高的至少一个第二信息;至少一个所述第二信息 为一个时,将所述第二信息确定为所述上一次舆情信息,或者,至少一个所述第二信息为多 个时,则爬取多个所述第二信息的互动量,将多个所述第二信息中互动量最高的第二信息确 定为所述上一次舆情信息;所述互动量是指信息包含的点赞量和评论回
复量之和。
[0040]
步骤102,根据上一次舆情信息,识别上一次舆情事件的正负面。
[0041]
所述识别上一次舆情事件的正负面,是指将所述上一次舆情信息的正负极性进行分类, 方法如下:首先,对所述上一次舆情信息进行特征提取,让计算机系统分辨出表达真实的主 观信息的文本内容;所述特征提取,是指计算机通过对信息文本检测,并查阅标准词库,将 带有主观信息所在的段落句子筛选出来;所述主观信息,是指带有情感色彩及正负面倾向性 的词语;然后,基于所述带有主观信息所在的段落句子,进一步提取该段落句子所表达的意 见,选择一方对特定主题的观点,包括:主题提取,观点持有者识别以及陈述的选择;所述 主题提取,是指提取带有评述性的观点以及表述的主题的具体方面;所述观点持有者识别, 是指确定持有所述评述性的观点的人;所述陈述的选择,是指鉴别观点持有者发布的意见, 并去除其他人的陈述;接着,以历史所有舆情事件为样本,基于影响因子构建单分类svm模 型;所述影响因子包括提取的主题,观点持有者的陈述;然后利用激活函数,将单分类svm 模型的中间输出的样本到超球面球心的距离的取值区间映射至[0,1];若映射结果等于第一 预设阈值,则上一次舆情事件的极性是中立的;若映射结果小于第一预设阈值,则上一次舆 情事件的极性与历史舆情事件的极性相反;否则,上一次舆情事件的极性与历史舆情事件的 极性相同。
[0042]
步骤103,分析上一次舆情事件发生的因素。
[0043]
根据识别的上一次舆情事件的正负面,分析上一次舆情事件发生的因素;所述因素包括 关联事件与关联时间;所述关联事件是指导致上一次舆情事件发生的事件;所述关联时间是 指导致上一次舆情事件发生的时间周期;通过上一次舆情事件发生关联函数,计算上一次舆 情事件发生关联度,分析其发生的因素。例如,在管理人员portal界面输入“2022年3月 21日”,通过舆情计算分析方法获取到“腾讯投资阅文集团”,“阿里投资茶颜悦色”,
ꢀ“
泉州万达广场正式投入使用”三条信息;浏览量分别为10w,10w,2w;再获取“腾讯投 资阅文集团”与“阿里投资茶颜悦色”这两条信息的互动量,发现互动量分别为1w,6k; 最后在管理人员portal界面推荐展示结果,获取到“腾讯投资阅文集团”这一个上一次的 舆情信息。
[0044]
上一次舆情事件发生的关联事件分析。
[0045]
通过舆情关联事件分析系统对上一次舆情事件发生的关联事件进行分析;所述舆情关联 事件分析系统包括预处理模块,拓扑模块,专家模块;所述预处理模块,用于对上一次舆情 事件进行文本的预处理;所述文本的预处理,是指划分文本的关键词作为子信息,包括地点 ,事物,状态;所述拓扑模块,用于将预处理模块的子信息分类到不同的层上,然后分别对 同一层的子信息及不同层的子信息进行拓扑,基于上一次舆情事件的信息生成多种类型的子 信息;所述专家模块,是根据所述拓扑模块生成的多种类型的子信息,在互联网大数据库中 爬取包含相同子信息的文本,将浏览量与互动量之和超过第二预设阈值的文本对应的内容作 为关联事件,并生成分析报告。例如,在历史舆情事件中,上市公司破产这一舆情都是负面 的;在一篇文章中,计算机检测到“无奈”“很难”这两个词语对应的段落句子;进一步检 测其主题为上市公司破产重整;博主的陈述是金融与资本市场领域不佳,资金短缺,供应不 足;通过svm模型,映射结果第一预设阈值为0.5;分析上一次舆情事件的正负极性,映射 结果为0.9;可得到该上一次舆情事件负面的。
[0046]
上一次舆情事件发生的关联时间分析。
[0047]
所述关联时间分析是对时间周期进行分析;首先预设数据粒度;所述数据粒度是指对上 一次舆情事件的数据细化的程度;根据所述数据粒度划分时间间隔,绘制时间间隔分布图, 横坐标为时间,纵坐标为关联事件发生指标,若关联事件在所述时间间隔内发生,则所述时 间间隔分布图的纵坐标值为1,否则为0;若在预设时间周期内,时间间隔分布图中预设时 间间隔内出现纵坐标值为1,则上一次舆情事件与时间周期关联,该纵坐标值在时间间隔分 布图对应的横坐标值即为所述关联时间。例如,“车主热议油价上涨”的关联事件有“购买 新能源汽车需求增加”,“车主选择给汽车加压缩天然气为燃料”;不存在关联时间;则通 过上一次舆情事件发生关联函数计算出“车主热议油价上涨”的发生关联度为1.2;可分析 出该事件是由于关联事件而发生的,与时间没有关联,关联因素是“新能源”,“压缩天然 气”。
[0048]
根据上一次舆情事件发生关联函数,计算上一次舆情事件发生关联度。
[0049]
建立上一次舆情事件发生关联函数,即r=sr*w1+tr*w2;其中,r表示上一次舆情事件 发生关联度;sr表示关联事件数量;tr表示关联时间数量;w1,w2分别表示对应的权重, 且w1+w2=1。例如,已经获得一个正面舆情事件,内容为“国家话剧院打造首个5g智慧市 场”;通过舆情关联事件分析系统,划分“国家话剧院”“首个”“5g”“智慧市场”四个 关键词,分到四个层上;第一层拓扑关系为“国家话剧院
”‑
》“中国联通
”‑
》“华为技术
”ꢀ
;第二层拓扑关系为“首个
”‑
》“院场一体化”;第三层拓扑关系为“5g
”‑
》“智慧剧场
”ꢀ
;第四层拓扑关系为“智慧市场
”‑
》“体验丰富
”‑
》“文化传播广泛”;然后爬取浏览量和 互动量超过1w的文本,生成最后的关联事件分析报告;结果有两个,分别是“国家话剧院 打造5g智慧市场”和“云上文化传播的异军突起”。
[0050]
步骤104,基于上一次舆情事件的发生因素,分析上一次舆情事件再现的传播程度。
[0051]
所述传播程度,通过上一次舆情事件再现的热度及上一次舆情事件再现的焦点来衡量; 所述热度是指上一次舆情事件再现的火热程度,反映上一次舆情事件再现受大众的关注度; 所述焦点是指上一次舆情事件再现时大众争论的集中点;根据分析的上一次舆情事件再现的 热度及上一次舆情事件再现的焦点,建立舆情事件再现的传播程度评价体系,即spr=(
[0052]
hot+foc)/2;其中,spr表示上一次舆情事件再现的传播程度评价指标;hot表示上一次舆 情事件再现的热度评价指标,若上一次舆情事件再现的热度超过第三预设阈值,则hot=1, 否则hot=0;foc表示上一次舆情事件再现的焦点评价指标,若上一次舆情事件再现的焦点 的关键词在爬取的大数据词库中出现的概率大于第四预设阈值,则foc=1,否则,foc=0; 根据bp神经网络分析上一次舆情事件再现的传播程度;根据舆情事件热度函数以及焦点预 测模型确定训练样本与测试样本,所述训练样本用于神经网络训练,所述测试样本用于检测 实际值与预测值的相对误差。例如,“广东省一市民每个星期做饭都用完1.5l花生油”这 一舆情事件的数据粒度选择上,可以有“类目”“品牌”2个选择;而该市民对于花生油的 品牌依赖度比较小;如果在单个品牌的粒度上,噪音比较大,该市民可能会在两次购买一款 花生油之间购买其他款花生油,往往无法挖掘有效关联;但如果在类目的粒度上,虽然该市 民换了品牌,但花生油类的商品需求数量仍然是每周恒定的;划分时间间
隔为一周时间,通 过绘制时间间隔分布图可以看到每周六的纵坐标值都有1;所以关联时间是每周六。
[0053]
基于关联事件的数量,分析上一次舆情事件再现的热度。
[0054]
基于关联事件的数量,对上一次舆情事件再现的热度进行分析;若关联事件越多,关联 事件总关注度和上一次舆情事件总关注度越高,则上一次舆情事件热度越高,所述上一次舆 情事件再现的热度也越高;根据关联事件总关注度和舆情事件热度函数计算得到的上一次舆 情事件热度作为原始数据,建立arima回归模型:以时间顺序绘制关联事件总关注度与上一 次舆情事件热度的变化曲线;若曲线不平稳,则对曲线对应的序列进行差分,并画出差分折 线图确定阶数d;然后继续绘制差分折线图的自相关函数图与偏自相关函数图,根据图的形 状分别判定模型的阶数p,q;最后根据arima(p,d,q)输出曲线,读取时间往后移动后 的预测值,即为所述上一次舆情事件再现的热度。例如,“车主热议油价上涨”的关联事件 有“购买新能源汽车需求增加”,“车主选择给汽车加压缩天然气为燃料”;不存在关联时 间;所以sr=2,tr=0;设定对应关联指数的权重分别为0.6,0.4;则通过上一次舆情事件发 生关联函数计算出“车主热议油价上涨”的发生关联度为1.2。
[0055]
根据舆情事件热度函数,计算上一次舆情事件热度。
[0056]
建立舆情事件热度函数,即hpr=sr*ca1+ca2;其中,hpr表示上一次舆情事件热度;sr 表示关联事件数量;ca1表示关联事件总关注度;所述关联事件总关注度,是指通过事件发 布系统后台的统计数据中大众对于该关联事件的浏览量,点赞量,评论量,转发量之和。 ca2表示上一次舆情事件总关注度;所述上一次舆情事件总关注度,是指通过事件发布系统 后台的统计数据中大众对于该上一次舆情事件的浏览量,点赞量,评论量,转发量之和。例 如,舆情事件再现的传播程度评价体系为较大范围(0.70-1),一般范围(0.40-0.69), 较小范围(0-0.39);bp神经网络的输入层包括2个指标:上一次舆情事件再现的热度, 上一次舆情事件再现的焦点的关键词在爬取的大数据词库中出现的概率,即n=2,输出层为 上一次舆情事件再现的传播程度评价结果,即m=1,隐含层为2层。数据经过神经网络训练 后,得出上一次舆情事件a,b,c的再现传播程度数值分别为0.60,0.82,0.25,则表示 上一次舆情事件a再现在一般范围传播,上一次舆情事件b再现在较大范围传播,上一次舆 情事件c再现则只在较小范围传播。
[0057]
预测上一次舆情事件再现的焦点。
[0058]
通过爬取互联网大数据获得历史所有的焦点,利用焦点预测模型,对上一次舆情事件再 现的焦点进行预测;所述焦点预测模型内容如下:将所述历史所有的焦点作为样本数据,通 过k-means聚类算法分析,根据历史所有的焦点的关键词选择多个质心;所述关键词是指在 大数据中出现的频率大于第五预设阈值的词语;然后计算各个样本到质心的欧氏距离,将各 个样本分别归类到离其最近的质心;然后将每个类别的样本数据取平均值,求出每个类别的 新质心;最后迭代进行样本归类和求新质心,直到聚类收敛,新旧质心不再变化为止。将所 述上一次舆情事件与所述关联事件作为参数输入,通过聚类算法归类到与其最相似的焦点的 关键词类型作为算法输出;最后根据焦点的关键词与所述上一次舆情事件,分析得到上一次 舆情事件再现的焦点。例如,“腾讯投资阅文集团”有3件关联事件,关联事件总关注度为 10w;所以这个上一次舆情事件热度是35w;通过arima回归模型分析,原始数据曲线呈上 升趋势,不平滑,所以对序列进行一阶差分处理;处理后得到一阶差
分折线图且无明显上升 与下降趋势,所以d=1;再继续画出一阶差分折线图的自相关分析图与偏自相关函数图,确 定模型阶数;结果得到自相关函数序列呈现正弦波形状,是ar(2)模型的特征,即p=2; 偏自相关函数序列只有一个显著不为零,因此判定时间序列适用于二阶移动平均模型ma(1 ),即q=1;所以输出结果为arima(2,1,1);根据模型参数值画出函数图,根据函数图找 到往后时间点的预测值为40w,即预测上一次舆情事件再现的热度是40w。
[0059]
步骤105,根据上一次舆情事件再现的传播程度,挖掘上一次舆情事件报道相关自媒体 。
[0060]
基于上一次舆情事件再现的传播程度,对上一次舆情事件报道的相关自媒体的类型和数 量进行挖掘;所述相关自媒体包括:图文类自媒体,视频类自媒体,音频类自媒体与直播类 自媒体;对上一次舆情事件报道的相关自媒体越多,上一次舆情事件热度就越高,上一次舆 情事件再现的传播程度越大;利用关联规则挖掘apriori算法挖掘相关自媒体对应上一次舆 情事件再现的传播程度间的关联关系;所述关联规则算法过程如下:通过迭代输入,检索出 网络大数据平台中相关自媒体的类型,数量两个因子中的所有频繁项集,即支持度不低于设 定阈值的项集;所述支持度,是各个因子项集在大数据平台中出现的次数占各自的总项集次 数的百分比;然后利用频繁项集构造出满足置信度的规则;所述置信度,是各个因子的总项 集占数据库所有项集的百分比。通过对比支持度与置信度,判断与上一次舆情事件再现的传 播程度关联性的强弱,并根据关联规则绘制上一次舆情事件再现的传播程度关联网络图;所 述上一次舆情事件再现的传播程度关联网络图表明对上一次舆情事件报道的相关自媒体。例 如,“腾讯投资阅文集团”有3件关联事件,通过发布系统后台数据显示,总浏览量,点赞 量,评论量,转发量之和为10w;即关联事件总关注度为10w;而该上一次舆情事件本身的 总关注度是5w;通过舆情事件热度函数计算,所以这个上一次舆情事件热度是35w。
[0061]
步骤106,预测相关自媒体对于上一次舆情事件再现的态度。
[0062]
基于深度学习方法建立相关自媒体态度预测模型,对相关自媒体对于上一次舆情事件再 现的态度进行预测。首先收集大量的相关自媒体的舆情影响力,包括自媒体知名度、自媒体 平台活跃度、自媒体影响力和上一次舆情事件的影响;所述自媒体知名度是指自媒体的粉丝 数量,粉丝数量越多,自媒体知名度越高;所述自媒体平台活跃度包括自媒体平台上发布所 有舆情事件的频率和发布总数;所述自媒体影响力,包括自媒体报道所有舆情事件后的点赞 量,转发量和评论量;所述上一次舆情事件的影响,是指自媒体本身对于上一次舆情事件的 积极影响或消极影响;所述积极影响通过上一次舆情事件报道后的点赞量衡量,点赞量越多 ,积极影响越大;所述消极影响通过上一次舆情事件报道后举报量来衡量,举报量越多,消 极影响越大;通过爬虫爬取互联网大数据平台的所述相关自媒体的舆情影响力的内容数据, 包括自媒体的粉丝数量,自媒体平台上发布所有舆情事件的频率和发布总数,自媒体报道所 有舆情事件后的点赞量,转发量和评论量,以及上一次舆情事件报道后的点赞量,举报量; 将所述相关自媒体的舆情影响力的内容数据划分为训练集和测试集;然后对上一次舆情事件 报道后的点赞量,举报量进行预处理,将点赞量大于举报量且数值上超过第六预设阈值的, 判定为积极影响作为预处理结果;将举报量大于点赞量且数值上超过第七预设阈值的,判定 为消极影响作为预处理结果;将自媒体知名度,
自媒体平台活跃度,自媒体影响力作为特征 ,预处理结果作为标签来训练相关自媒体态度预测神经网络模型,判断相关自媒体对于上一 次舆情事件再现的态度,并且将判断结果按照预设格式记录到表格文件中返回给系统;最后 利用测试集的数据来不断调整模型的参数,提高相关自媒体态度预测模型的准确性。例如, 对于上一次“腾讯投资阅文集团”这一舆情事件的关联事件有“阅文集团开发新的阅读 app”,“小说阅读变成小学生的习惯”;将这3个事件输入到焦点预测模型,通过k
‑ꢀ
means聚类算法分析得到焦点的关键词为“阅读”;最后结合该上一次舆情事件,预测出上 一次舆情事件再现的焦点为“微信对话式的小说抽取阅读软件开发成功”。
[0063]
步骤107,根据自媒体的态度预测结果,对可能引发舆情危机的自媒体进行备案认证。
[0064]
所述舆情危机,是指自媒体发布不良言论引起在社会的消极影响;自媒体备案认证包括 数据处理模块,神经网络模型构建模块与自媒体预警生成模块;根据自媒体的态度预测结 果,对可能引发舆情危机的自媒体进行备案认证,包括:根据自媒体上一次舆情事件报道后 的举报量判断是否需要进行不良言论认证;若所述举报量高于第八预设阈值,则确定需要进 行不良言论认证,将自媒体报道的上一次舆情信息认证为所述不良言论;通过所述数据处理 模块获取上一次舆情事件的内容数据,以及利用深度学习rnn算法分析所述举报量与相关自 媒体对于舆情事件再现的态度预测结果,找出所述不良言论,构建不良言论向量;通过所述 神经网络模型构建模块利用所述所述不良言论向量构建并训练卷积神经网络模型;通过所述 自媒体预警生成模块利用训练好的卷积神经模型进行预警,实现对可能引发舆情危机的自媒 体进行备案认证。例如,通过舆情事件再现的传播程度评价体系算出来的“腾讯投资阅文集 团”的传播程度指标值为0.80,传播范围较大;通过apriori算法挖掘所有相关自媒体对 应上一次舆情事件再现的传播程度间的关联关系,其中第一条关联规则为“较大范围(0.70-0.80)=》微信公众号,支持度=0.769,置信度=0.953”;第二条关联规则为“较大范 围(0.70-0.80)=》微博,支持度=0.746,置信度=0.921”;第三条关联规则为“较大范围 (0.70-0.80)=》抖音,支持度=0.824,置信度=0.896”;表明上一次该传播范围较大的舆 情事件很可能在微信公众号,微博与抖音三个平台传播,即“较大范围(0.70-0.80)”传 播程度与“微信公众号”“微博”“抖音”三个类型的相关自媒体存在关联。汇总多条关联 规则并绘制上一次舆情事件再现的传播程度关联网络图,表明上一次舆情事件再现的传播程 度关联网络图上的相关自媒体的类型和数量即为报道“腾讯投资阅文集团”这一上一次舆情 事件的相关自媒体。
[0065]
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明 书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域, 均同理包括在本发明的专利保护范围内。
[0066]
用于实现本发明进行信息控制的程序,可以以一种或多种程序设计语言或其组合来编写 用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言— 诸如java、python、c++,还包括常规的过程式程序设计语言—诸如c语言或类似的程序设 计语言。
[0067]
程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一
个独立 的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服 务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局 域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因 特网服务提供商来通过因特网连接)。
[0068]
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过 其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分 ,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0069]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部 件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元 上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0070]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个 单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以 采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0071]
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质 中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可 以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施 例所述方法的部分步骤。
[0072]
而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、 随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码 的介质。
技术特征:1.一种舆情信息内容挖掘与传播监控的分析方法,其特征在于,所述方法包括:获取上一次舆情信息;根据上一次舆情信息,识别上一次舆情事件的正负面;分析上一次舆情事件发生的因素,所述分析上一次舆情事件发生的因素,具体包括:上一次舆情事件发生的关联事件分析,上一次舆情事件发生的关联时间分析,根据上一次舆情事件发生关联函数,计算上一次舆情事件发生关联度;基于上一次舆情事件的发生因素,分析上一次舆情事件再现的传播程度,所述基于上一次舆情事件的发生因素,分析上一次舆情事件再现的传播程度,具体包括:基于关联事件的数量,分析上一次舆情事件再现的热度,根据舆情事件热度函数,计算上一次舆情事件热度,预测上一次舆情事件再现的焦点;根据上一次舆情事件再现的传播程度,挖掘上一次舆情事件报道相关自媒体;预测相关自媒体对于上一次舆情事件再现的态度;根据自媒体的态度预测结果,对可能引发舆情危机的自媒体进行备案认证。2.根据权利要求1所述的方法,其中,所述获取上一次舆情信息,包括:基于互联网舆情信息获取上一次舆情信息,包括:获取预设条件;所述预设条件包括预设时间、预设领域、预设地点和预设事物中的至少一种;基于所述预设条件,采用舆情计算分析方法获取所述上一次舆情信息;基于所述预设条件,采用舆情计算分析方法获取所述上一次舆情信息,包括:根据所述预设条件,通过爬虫从互联网数据库中爬取与所述预设条件相同的至少一个第一信息;至少一个所述第一信息为一个时,将所述第一信息确定为所述上一次舆情信息;或者,至少一个所述第一信息为多个时,则爬取多个所述第一信息的浏览量,从多个所述第一信息筛选出浏览量最高的至少一个第二信息;至少一个所述第二信息为一个时,将所述第二信息确定为所述上一次舆情信息,或者,至少一个所述第二信息为多个时,则爬取多个所述第二信息的互动量,将多个所述第二信息中互动量最高的第二信息确定为所述上一次舆情信息;所述互动量是指信息包含的点赞量和评论回复量之和。3.根据权利要求1所述的方法,其中,所述根据上一次舆情信息,识别上一次舆情事件的正负面,包括:所述识别上一次舆情事件的正负面,是指将所述上一次舆情信息的正负极性进行分类,方法如下:首先,对所述上一次舆情信息进行特征提取,让计算机系统分辨出表达真实的主观信息的文本内容;所述特征提取,是指计算机通过对信息文本检测,并查阅标准词库,将带有主观信息所在的段落句子筛选出来;所述主观信息,是指带有情感色彩及正负面倾向性的词语;然后,基于所述带有主观信息所在的段落句子,进一步提取该段落句子所表达的意见,选择一方对特定主题的观点,包括:主题提取,观点持有者识别以及陈述的选择;所述主题提取,是指提取带有评述性的观点以及表述的主题的具体方面;所述观点持有者识别,是指确定持有所述评述性的观点的人;所述陈述的选择,是指鉴别观点持有者发布的意见,并去除其他人的陈述;接着,以历史所有舆情事件为样本,基于影响因子构建单分类svm模型;所述影响因子包括提取的主题,观点持有者的陈述;然后利用激活函数,将单分类svm模型的中间输出的样本到超球面球心的距离的取值区间映射至[0,1];若映射结果等于第一预设阈值,则上一次舆情事件的极性是中立的;若映射结果小于第一预设阈值,则上一次舆情事件的极性与历史舆情事件的极性相反;否则,上一次舆情事件的极性与历史舆情事件的极性相同。4.根据权利要求1所述的方法,其中,所述分析上一次舆情事件发生的因素,包括:
根据识别的上一次舆情事件的正负面,分析上一次舆情事件发生的因素;所述因素包括关联事件与关联时间;所述关联事件是指导致上一次舆情事件发生的事件;所述关联时间是指导致上一次舆情事件发生的时间周期;通过上一次舆情事件发生关联函数,计算上一次舆情事件发生关联度,分析其发生的因素;包括:上一次舆情事件发生的关联事件分析;上一次舆情事件发生的关联时间分析;根据上一次舆情事件发生关联函数,计算上一次舆情事件发生关联度;所述上一次舆情事件发生的关联事件分析,具体包括:通过舆情关联事件分析系统对上一次舆情事件发生的关联事件进行分析;所述舆情关联事件分析系统包括预处理模块、拓扑模块和专家模块;所述预处理模块,用于对上一次舆情事件进行文本的预处理;所述文本的预处理,是指划分文本的关键词作为子信息,包括地点、事物和状态;所述拓扑模块,用于将预处理模块的子信息分类到不同的层上,然后分别对同一层的子信息及不同层的子信息进行拓扑,基于上一次舆情事件的信息生成多种类型的子信息;所述专家模块,是根据所述拓扑模块生成的多种类型的子信息,在互联网大数据库中爬取包含相同子信息的文本,将浏览量与互动量之和超过第二预设阈值的文本对应的内容作为关联事件,并生成分析报告;所述上一次舆情事件发生的关联时间分析,具体包括:所述关联时间分析是对时间周期进行分析;首先预设数据粒度;所述数据粒度是指对上一次舆情事件的数据细化的程度;根据所述数据粒度划分时间间隔,绘制时间间隔分布图,横坐标为时间,纵坐标为关联事件发生指标,若关联事件在所述时间间隔内发生,则所述时间间隔分布图的纵坐标值为1,否则为0;若在预设时间周期内,时间间隔分布图中预设时间间隔内出现纵坐标值为1,则上一次舆情事件与时间周期关联,该纵坐标值在时间间隔分布图对应的横坐标值即为所述关联时间;所述根据上一次舆情事件发生关联函数,计算上一次舆情事件发生关联度,具体包括:建立上一次舆情事件发生关联函数,即r=sr*w1+tr*w2;其中,r表示上一次舆情事件发生关联度;sr表示关联事件数量;tr表示关联时间数量;w1和w2分别表示对应的权重,且w1+w2=1。5.根据权利要求1所述的方法,其中,所述基于上一次舆情事件的发生因素,分析上一次舆情事件再现的传播程度,包括:所述传播程度,通过上一次舆情事件再现的热度及上一次舆情事件再现的焦点来衡量;所述热度是指上一次舆情事件再现的火热程度,反映上一次舆情事件再现受大众的关注度;所述焦点是指上一次舆情事件再现时大众争论的集中点;根据分析的上一次舆情事件再现的热度及上一次舆情事件再现的焦点,建立舆情事件再现的传播程度评价体系,即spr=(hot+foc)/2;其中,spr表示上一次舆情事件再现的传播程度评价指标;hot表示上一次舆情事件再现的热度评价指标,若上一次舆情事件再现的热度超过第三预设阈值,则hot=1,否则hot=0;foc表示上一次舆情事件再现的焦点评价指标,若上一次舆情事件再现的焦点的关键词在爬取的大数据词库中出现的概率大于第四预设阈值,则foc=1,否则,foc=0;根据bp神经网络分析上一次舆情事件再现的传播程度;根据舆情事件热度函数以及焦点预测模型确定训练样本与测试样本,所述训练样本用于神经网络训练,所述测试样本用于检测实际值与预测值的相对误差;包括:基于关联事件的数量,分析上一次舆情事件再现
的热度;根据舆情事件热度函数,计算上一次舆情事件热度;预测上一次舆情事件再现的焦点;所述基于关联事件的数量,分析上一次舆情事件再现的热度,具体包括:基于关联事件的数量,对上一次舆情事件再现的热度进行分析;若关联事件越多,关联事件总关注度和上一次舆情事件总关注度越高,则上一次舆情事件热度越高,所述上一次舆情事件再现的热度也越高;根据关联事件总关注度和舆情事件热度函数计算得到的上一次舆情事件热度作为原始数据,建立arima回归模型:以时间顺序绘制关联事件总关注度与上一次舆情事件热度的变化曲线;若曲线不平稳,则对曲线对应的序列进行差分,并画出差分折线图确定阶数d;然后继续绘制差分折线图的自相关函数图与偏自相关函数图,根据图的形状分别判定模型的阶数p、q;最后根据arima(p,d,q)输出曲线,读取时间往后移动后的预测值,即为所述上一次舆情事件再现的热度;所述根据舆情事件热度函数,计算上一次舆情事件热度,具体包括:建立舆情事件热度函数,即hpr=sr*ca1+ca2;其中,hpr表示上一次舆情事件热度;sr表示关联事件数量;ca1表示关联事件总关注度;所述关联事件总关注度,是指通过事件发布系统后台的统计数据中大众对于该关联事件的浏览量、点赞量、评论量和转发量之和;ca2表示上一次舆情事件总关注度;所述上一次舆情事件总关注度,是指通过事件发布系统后台的统计数据中大众对于该上一次舆情事件的浏览量、点赞量、评论量和转发量之和;所述预测上一次舆情事件再现的焦点,具体包括:通过爬取互联网大数据获得历史所有的焦点,利用焦点预测模型,对上一次舆情事件再现的焦点进行预测;所述焦点预测模型内容如下:将所述历史所有的焦点作为样本数据,通过k-means聚类算法分析,根据历史所有的焦点的关键词选择多个质心;所述关键词是指在大数据中出现的频率大于第五预设阈值的词语;然后计算各个样本到质心的欧氏距离,将各个样本分别归类到离其最近的质心;然后将每个类别的样本数据取平均值,求出每个类别的新质心;最后迭代进行样本归类和求新质心,直到聚类收敛,新旧质心不再变化为止;将所述上一次舆情事件与所述关联事件作为参数输入,通过聚类算法归类到与其最相似的焦点的关键词类型作为算法输出;最后根据焦点的关键词与所述上一次舆情事件,分析得到上一次舆情事件再现的焦点。6.根据权利要求1所述的方法,其中,所述根据上一次舆情事件再现的传播程度,挖掘上一次舆情事件报道相关自媒体,包括:基于上一次舆情事件再现的传播程度,对上一次舆情事件报道的相关自媒体的类型和数量进行挖掘;所述相关自媒体包括:图文类自媒体、视频类自媒体、音频类自媒体与直播类自媒体;对上一次舆情事件报道的相关自媒体越多,上一次舆情事件热度就越高,上一次舆情事件再现的传播程度越大;利用关联规则挖掘apriori算法挖掘相关自媒体对应上一次舆情事件再现的传播程度间的关联关系;所述关联规则算法过程如下:通过迭代输入,检索出网络大数据平台中相关自媒体的类型,数量两个因子中的所有频繁项集,即支持度不低于设定阈值的项集;所述支持度,是各个因子项集在大数据平台中出现的次数占各自的总项集次数的百分比;然后利用频繁项集构造出满足置信度的规则;所述置信度,是各个因子的总项集占数据库所有项集的百分比;通过对比支持度与置信度,判断与上一次舆情事件再现的传播程度关联性的强弱,并根据关联规则绘制上一次舆情事件再现的传播程度关
联网络图;所述上一次舆情事件再现的传播程度关联网络图表明对上一次舆情事件报道的相关自媒体。7.根据权利要求1所述的方法,其中,所述预测相关自媒体对于上一次舆情事件再现的态度,包括:基于深度学习方法建立相关自媒体态度预测模型,对相关自媒体对于上一次舆情事件再现的态度进行预测;首先收集大量的相关自媒体的舆情影响力,包括自媒体知名度、自媒体平台活跃度、自媒体影响力和上一次舆情事件的影响;所述自媒体知名度是指自媒体的粉丝数量,粉丝数量越多,自媒体知名度越高;所述自媒体平台活跃度包括自媒体平台上发布所有舆情事件的频率和发布总数;所述自媒体影响力,包括自媒体报道所有舆情事件后的点赞量、转发量和评论量;所述上一次舆情事件的影响,是指自媒体本身对于上一次舆情事件的积极影响或消极影响;所述积极影响通过上一次舆情事件报道后的点赞量衡量,点赞量越多,积极影响越大;所述消极影响通过上一次舆情事件报道后举报量来衡量,举报量越多,消极影响越大;通过爬虫爬取互联网大数据平台的所述相关自媒体的舆情影响力的内容数据,包括自媒体的粉丝数量,自媒体平台上发布所有舆情事件的频率和发布总数,自媒体报道所有舆情事件后的点赞量,转发量和评论量,以及上一次舆情事件报道后的点赞量,举报量;将所述相关自媒体的舆情影响力的内容数据划分为训练集和测试集;然后对上一次舆情事件报道后的点赞量,举报量进行预处理,将点赞量大于举报量且数值上超过第六预设阈值的,判定为积极影响作为预处理结果;将举报量大于点赞量且数值上超过第七预设阈值的,判定为消极影响作为预处理结果;将自媒体知名度,自媒体平台活跃度,自媒体影响力作为特征,预处理结果作为标签来训练相关自媒体态度预测神经网络模型,判断相关自媒体对于上一次舆情事件再现的态度,并且将判断结果按照预设格式记录到表格文件中返回给系统;最后利用测试集的数据来不断调整模型的参数,提高相关自媒体态度预测模型的准确性。8.根据权利要求1所述的方法,其中,所述根据自媒体的态度预测结果,对可能引发舆情危机的自媒体进行备案认证,包括:所述舆情危机,是指自媒体发布不良言论引起在社会的消极影响;自媒体备案认证包括数据处理模块,神经网络模型构建模块与自媒体预警生成模块;根据自媒体的态度预测结果,对可能引发舆情危机的自媒体进行备案认证,包括:根据自媒体上一次舆情事件报道后的举报量判断是否需要进行不良言论认证;若所述举报量高于第八预设阈值,则确定需要进行不良言论认证,将自媒体报道的上一次舆情信息认证为所述不良言论;通过所述数据处理模块获取上一次舆情事件的内容数据,以及利用深度学习rnn算法分析所述举报量与相关自媒体对于舆情事件再现的态度预测结果,找出所述不良言论,构建不良言论向量;通过所述神经网络模型构建模块利用所述所述不良言论向量构建并训练卷积神经网络模型;通过所述自媒体预警生成模块利用训练好的卷积神经模型进行预警,实现对可能引发舆情危机的自媒体进行备案认证。
技术总结本申请提供一种舆情信息内容挖掘与传播监控的分析方法,包括:获取上一次舆情信息;根据上一次舆情信息,识别上一次舆情事件的正负面;分析上一次舆情事件发生的因素;基于上一次舆情事件的发生因素,分析上一次舆情事件再现的传播程度;根据上一次舆情事件再现的传播程度,挖掘上一次舆情事件报道相关自媒体;预测相关自媒体对于上一次舆情事件再现的态度;根据自媒体的态度预测结果,对可能引发舆情危机的自媒体进行备案认证。机的自媒体进行备案认证。机的自媒体进行备案认证。
技术研发人员:常宁
受保护的技术使用者:青岛理工大学
技术研发日:2022.06.07
技术公布日:2022/11/1