考虑竞争与合作关系的话题流行度短期预测方法与流程

专利2024-05-08  77



1.本发明涉及社交网络大数据分析与挖掘领域。更具体地说,本发明涉及一种考虑竞争与合作关系的话题流行度短期预测方法。


背景技术:

2.由于人人都可以在社交媒体发表言论,平台中涌现出的数量庞大的话题已远远超过用户的信息处理能力。它们像动物争夺有限食物一样争夺着社交媒体用户的注意力。这使得话题的传播往往不是独立的,而是彼此之间相互影响的。为了更好地将有价值、流行度高的话题推荐给客户,对话题流行度进行合理预测,是十分必要且具有挑战性的话题。
3.现有话题流行度预测方法往往仅考虑了单一话题内容和用户属性,忽略了多元话题传播交互影响。鉴于此,如何弥补现有话题流行度预测方法忽略多话题传播交互影响、从海量信息中自动识别竞争与合作对象,并利用竞争与合作关系提升流行度预测解释性和准确性的不足,是目前急需解决的问题。


技术实现要素:

4.本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
5.本发明还有一个目的是提供一种考虑竞争与合作关系的话题流行度短期预测方法,其利用竞争与合作关系提升流行度预测解释性和准确性。
6.为了实现根据本发明的这些目的和其它优点,提供了一种考虑竞争与合作关系的话题流行度短期预测方法,包括以下步骤:
7.获取文档集合,提取话题,确定目标话题、非目标话题;
8.取与目标话题相似度小于给定相似度阈值的非目标话题为潜在影响话题;
9.针对文档集合,以时间t为时间间隔划分时间段,计算目标话题、每个潜在影响话题在每个时间段内出现的次数,形成话题的流行度向量;
10.基于每个潜在影响话题的流行度向量,计算得每个潜在影响话题的流行度滞后向量;
11.汇集全部潜在影响话题的流行度滞后向量形成潜在影响话题时滞矩阵;
12.基于目标话题流行度向量、潜在影响话题时滞矩阵预测目标话题在下一时间间隔t内的流行度。
13.优选的是,针对文档集合,以正则表达式提取话题。
14.优选的是,计算非目标话题与目标话题相似度的方法,包括以下步骤:
15.针对提取的每一个话题,遍历文档集合,获得包含该话题的文档集合;
16.针对每一个话题,将文档集合中的文本以首尾相接的方式连接形成话题文本;
17.对每一个话题文本分词,并去除停用词,得到每个话题的话题词语集合;
18.以全部话题和话题词语集合作为输入,训练doc2vec模型;
19.基于训练所得doc2vec模型,得到目标话题和每一个非目标话题的话题向量;
20.针对每一个非目标话题,计算其话题向量与目标话题向量的欧氏距离,作为该非目标话题与目标话题的相似度。
21.优选的是,对文档集合,以具有目标话题的时间点为起点,以文档集合的截止时间为终点,倒推划分时间段,其中,按时间顺序,第一个时间段的时间间隔≤t。
22.优选的是,针对文档集合,划分为a个时间段,目标话题的流行度向量记为y
tar,q
=(y
tar,1
,

,y
tar,a
)
t
,其中,y
tar,a
表示目标话题在第a个时间段内出现的次数,t表示向量转置。
23.优选的是,目标话题在下一时间间隔t内的流行度表示为:优选的是,目标话题在下一时间间隔t内的流行度表示为:其中,μ
tar,a+1
为基于目标话题流行度向量估计得到的目标话题在a+1时刻的流行度;x
i,a+1-m
βi为基于潜在影响话题时滞矩阵估计得到的目标话题在a+1时刻的流行度,回归系数βi=(β
1,a-1
,


1,a-m
,


d,a-1
,


d,a-m
)
t

24.优选的是,依据y
tar,q
,构建局部线性趋势模型,具体如下:
[0025][0026][0027]
其中,μ
tar,j
表示在第j个时间段时目标话题的水平趋势部分;
[0028]vtar,j-1
表示在j-1个时间段时目标话题水平趋势的斜率;
[0029]
ε
tar,j-1
,表示水平趋势的白噪声;
[0030]

tar,j-2
,表示水平趋势斜率的白噪声;
[0031]
当j≤a时,y
tar,j
作为μ
tar,j
的输入,对局部线性趋势模型运用极大似然估计与卡尔曼滤波算法,迭代获得v
tar,a-1
、∈
tar,a-1
、ε
tar,a
的估计值,进一步迭代获得a+1时间段目标话题的水平趋势部分μ
tar,a+1

[0032]
优选的是,设定共有d个潜在影响话题,则第i个潜在影响话题的流行度向量记为y
i,q
=(y
i,1
,

,y
i,a
)
t
,i∈{1,

,d},其中,y
i,a
表示第i个潜在影响话题在第a个时间段内出现的次数;
[0033]
给定拟考虑的滞后阶数l,l<a,则第i个潜在影响话题的流行度滞后向量记为x
i,a-m
=(x
i,m+1,a-m
,

,x
i,a,a-m
)
t
,i∈{1,

,d},m∈{1,

,l-1},其中,x
i,m+1,a-m
表示第i个潜在影响话题在第m+1个时间段内的m阶滞后项。
[0034]
优选的是,用表示潜在影响话题对目标话题h
tar
流行度的影响部分,即
[0035]
则的似然函数可以表示如下:
[0036]
其中,i∈{1,

,d};
[0037]
是指中的第j个元素,j∈{3,

,a},为第j时刻的影响部分。
[0038]
x
i,j-1
是x
i,a-m
中第j-1行元素组成的向量;
[0039]
是对角矩阵r中第j行、第j列元素;
[0040]
假设回归系数βi服从钉板分布,得:p(βi,γ,r
β
)=p(βi|γ,r
β
)p(r
β
|γ)p(γ),其中,
[0041]
设定βi为服从均值为0,协方差矩阵为r
β
的正态分布;k为拟引入影响部分的非目标话题及其滞后项的个数;πk为βi中第k项被引入模型的概率,且当βi中第k项βk≠0时,γk=1;当βk=0时,γk=0;
[0042]
通过使用mcmc方法得到βi,基于估计所得的βi以及a+1时刻潜在影响话题时滞矩阵x
i,a+1-m
,运用如下公式:预测获得a+1时间段的影响部分x
i,a+1-m
βi。
[0043]
优选的是,当βi=(β
1,a-1
,


1,a-m
,


d,a-1
,


d,a-m
)
t
中的系数β
i,a-c
,i∈{1,

,d},c∈{1,

,m}为正且显著异于0时,该潜在影响话题为目标话题的合作话题;
[0044]
当βi=(β
1,a-1
,


1,a-m
,


d,a-1
,


d,a-m
)
t
中的系数β
i,a-c
,i∈{1,

,d},c∈{1,

,m}为负且显著异于0时,该潜在影响话题为目标话题的竞争话题。
[0045]
本发明至少包括以下有益效果:
[0046]
弥补现有话题流行度短期预测方法忽略多话题传播交互影响、多话题传播方法无法从海量信息中自动识别竞争话题与合作话题的不足,并利用竞争与合作关系提升流行度预测解释性和准确性,与传统的时间序列预测中常用的ar方法、动态线性方法一步向前预测任务中的效果对比发现,本专利提出的方法在累积绝对误差(cumulative absolute error,cae)指标上相较于对比方法至少提升了15.46%,均方误差根(root mean squared error,rmse)指标至少提升了16.97%。
[0047]
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
[0048]
图1为本发明的其中一种技术方案所述考虑竞争与合作关系的话题流行度短期预测方法的流程框图。
具体实施方式
[0049]
下面结合实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
[0050]
如图1所示,一种考虑竞争与合作关系的话题流行度短期预测方法,包括以下步骤:
[0051]
步骤一:定义话题流行度、目标话题、非目标话题
[0052]
在微博、推特等社交媒体中,用户往往通过井字标签,即hashtag(例如,在微博中以“#关键词#”的形式),标记话题,并用于组织话题讨论。
[0053]
hashtag作为一种社交媒体的新兴信息分类方式,以其增加曝光度、调动用户参与性的特点吸引着越来越多用户的使用。hashtag也成为了识别社交媒体话题的有效途径。
[0054]
鉴于此,本发明将话题的流行度定义为:社交媒体中一个hashtag标记的话题在一特定时间间隔t(例如,1小时、1天等)内被用户使用的数量;
合作话题集合h

={h1,

,hd},即共有d个潜在影响话题,hd表示第d个潜在影响话题;
[0074]
4.2、针对文档集合,计算目标话题、每个潜在影响话题在每个时间段内出现的次数,形成话题的流行度向量
[0075]
基于文档集合w,计算每个话题(目标话题h
tar
和潜在竞争-合作话题集合h’中的d个潜在影响话题(h1,

,hd))在每个时间段内出现的次数,形成话题的流行度向量y
i,q
=(y
i,1
,

,y
i,a
)
t
,i∈{1,

,d,tar},其中,y
i,a
表示话题hi,i∈{1,

,d,tar}在第a个时间段内出现的次数,t表示向量转置;
[0076]
当i∈{1,

,d}时,为潜在竞争-合作话题集合中的d个潜在影响话题流行度向量y
i,q
=(y
i,1
,

,y
i,a
)
t
,i∈{1,

,d},其中,y
i,a
表示第i个潜在影响话题在第a个时间段内出现的次数(转入步骤五);
[0077]
当i=tar时,为目标话题的流行度向量y
tar,q
=(y
tar,1
,

,y
tar,a
)
t
,其中,y
tar,a
表示目标话题在第a个时间段内出现的次数,t表示向量转置(转入步骤6.1);
[0078]
步骤五:基于每个潜在影响话题的流行度向量,计算得每个潜在影响话题的流行度滞后向量,具体为:
[0079]
给定拟考虑的滞后阶数l;
[0080]
针对潜在竞争-合作话题集合中的每一个潜在影响话题hi,i∈{1,

,d},通过向前移动l阶时间得到该话题流行度的滞后向量;
[0081]
x
i,a-m
=(x
i,m+1,a-m
,

,x
i,a,a-m
)
t
,i∈{1,

,d},m∈{1,

,l-1}
[0082]
其中,x
i,a-m
为潜在影响话题hi向前移动m阶时间得到的该潜在影响话题流行度的滞后向量;
[0083]
x
i,m+1,a-m
表示潜在影响话题hi在第m+1个时间段内的m阶滞后项,即话题hi在第1个时间段内被用户使用的数量;
[0084]
以l=4为例,潜在影响话题hi向前移动l阶时间得到的该潜在影响话题流行度的滞后向量包括:
[0085]
x
i,a-1
=(x
i,2,a-1
,

,x
i,a,a-1
)
t
,i∈{1,

,d};
[0086]
x
i,a-2
=(x
i,3,a-1
,x
i,3,a-2
,

,x
i,a,a-1
,x
i,a,a-2
)
t
,i∈{1,

,d};
[0087]
x
i,a-3
=(x
i,4,a-1
,x
i,4,a-2
,x
i,4,a-3
,

,x
i,a,a-1
,x
i,a,a-2
,x
i,4,a-3
)
t
,i∈{1,

,d};
[0088]
汇集d个潜在影响话题流行度的滞后向量形成潜在影响话题时滞矩阵,表示为:
[0089]
x
i,a-m
=(x
1,a-1
,

,x
1,a-m
,

,x
d,a-1
,

,x
d,a-m
)∈r
(a-1)
×
(d
×
m)
[0090]
其中:r
(a-1)
×
(d
×
m)
表示x
i,a-m
为(a-1)行、(d
×
m)列矩阵。
[0091]
步骤六:基于目标话题流行度向量、潜在影响话题时滞矩阵预测目标话题在下一时间间隔t内的流行度,具体为:
[0092]
在建模目标话题h
tar
流行度时,将其流行度向量y
tar,q
=(y
tar,1
,

,y
tar,a
)
t
分解为两部分,即目标话题流行度的水平趋势部分μ
tar,q
和潜在竞争-合作话题集合中的d个潜在影响话题对目标话题流行度的影响部分x
i,a-m
βi,(i∈{1,

,d}),表示如下:
[0093]ytar,q
=μ
tar,q
+x
i,a-m
βi+ei,ei~n(0,r),i∈{1,

,d}
[0094]
其中:水平趋势部分μ
tar,q
=(μ
tar,1
,


tar,a
)
t
,刻画利用目标话题h
tar
的历史流行度估计得到的a时刻流行度,此部分利用目标话题h
tar
时间序列自身信息进行估计和预测;
[0095]
潜在竞争-合作话题集合中的d个潜在影响话题对目标话题h
tar
流行度的影响部分
x
i,a-m
βi,i∈{1,

,d},刻画了其他d个潜在影响话题时滞矩阵x
i,a-m
对目标话题h
tar
流行度的影响,影响大小由回归系数βi=(β
1,a-1
,


1,a-m
,


d,a-1
,


d,a-m
)
t
刻画;
[0096]ei
,ei~n(0,r)为服从均值为0,协方差为r正态分布的白噪声,r为对角矩阵;
[0097]
基于以上分析,目标话题在下一时间间隔t内的流行度表示为:基于以上分析,目标话题在下一时间间隔t内的流行度表示为:其中,μ
tar,a+1
为基于目标话题流行度向量估计得到的目标话题在a+1时刻的流行度向量,即水平趋势部分;x
i,a+1-m
βi为基于潜在影响话题时滞矩阵估计得到的目标话题在a+1时刻的流行度向量,即潜在影响话题对目标话题流行度的影响部分;
[0098]
以下分别详述水平趋势部分μ
tar,a+1
和影响部分x
i,a+1-m
βi计算方法:
[0099]
(6.1)水平趋势部分μ
tar,a+1
[0100]
依据目标话题的流行度向量y
tar,q
=(y
tar,1
,

,y
tar,a
)
t
,构建局部线性趋势模型,具体如下:
[0101][0102][0103]
其中,j=3、

、a、a+1,
[0104]
μ
tar,j
表示水平趋势部分μ
tar,a+1
第j个元素,即在第j个时间段时目标话题的水平趋势部分;
[0105]vtar,j-1
表示在j-1个时间段时目标话题水平趋势的斜率,决定着趋势线与x轴的夹角大小;
[0106]
ε
tar,j-1
,表示水平趋势的白噪声;
[0107]

tar,j-2
,表示水平趋势斜率的白噪声;
[0108]
当j≤a时,y
tar,j
作为μ
tar,j
的输入,对局部线性趋势模型运用极大似然估计与卡尔曼滤波算法,迭代获得v
tar,a-1
、模型参数(∈
tar,a-1
、ε
tar,a
)的估计值;
[0109]
基于模型参数、v
tar,a-1
,μ
tar,a
,利用如下公式(2’)、(3’)实现对a+1时刻水平趋势μ
tar,a+1
的预测;
[0110][0111][0112]
(6.2)影响部分x
i,a+1-m
βi[0113]
用表示潜在影响话题对目标话题h
tar
流行度的影响部分,即流行度的影响部分,即其中,回归系数βi=(β
1,a-1
,


1,a-m
,


d,a-m
,


d,a-m
)
t
[0114]
则的似然函数可以表示如下:
[0115][0116]
其中,,i∈{1,

,d};
[0117]
是指中的第j个元素,j∈{3,

,a},为第j时刻h
tar
流行度中去除水平趋
势的剩余部分(影响部分);
[0118]
x
i,j-1
是x
i,a-m
中第j-1行元素组成的向量;
[0119]
是对角矩阵r中第j行、第j列元素;
[0120]
假设回归系数βi服从钉板分布,即:
[0121]
p(βi,γ,r
β
)=p(βi|γ,r
β
)p(r
β
|γ)p(γ)
ꢀꢀ
(5)
[0122][0123]
式中:假设βi为服从均值为0,协方差矩阵为r
β
的正态分布;
[0124]
k为拟引入影响部分的非目标话题及其滞后项个数;
[0125]
πk为βi中第k项被引入模型的概率,且当βi中第k项βk≠0时,γk=1;当βk=0时,γk=0;
[0126]
通过使用mcmc(马尔科夫链蒙特卡洛方法)方法可以实现对式(4)(5)(6)中γk、βi、r
β
的估计;
[0127]
基于估计所得的参数以及a+1时刻潜在影响话题时滞矩阵
[0128]
x
i,a+1-m
=(x
1,a
,

,x
1,a+1-m
,

,x
d,a
,

,x
d,a+1-m
)∈ra×
(d
×
m)

[0129]
运用公式(4’),
[0130][0131]
预测获得a+1时间段影响部分x
i,a+1-m
βi;
[0132]
(6.3)融合水平趋势部分a+1时刻的预测值μ
tar,a+1
以及潜在影响话题对目标话题h
tar
流行度的影响部分x
i,a+1-m
βi,可得目标hashtag在a+1时刻的流行度预测值即
[0133][0134]
步骤七:识别目标话题的竞争话题与合作话题。
[0135]
当βi=(β
1,a-1
,


1,a-m
,


d,a-1
,


d,a-m
)
t
中的系数β
i,a-c
,i∈{1,

,d},c∈{1,

,m}为正且显著异于0时,说明话题hi的j阶滞后项对h
tar
的流行度存在着正向带动关系,即该潜在影响话题为目标话题的合作话题;
[0136]
当βi=(β
1,a-1
,


1,a-m
,


d,a-1
,


d,a-m
)
t
中的系数β
i,a-c
,i∈{1,

,d},c∈{1,

,m}为负且显著异于0时,则说明话题hi的j阶滞后项对h
tar
的流行度存在着负向削弱关系,即该潜在影响话题为目标话题的竞争话题。
[0137]
系数的大小表征了竞争与合作关系的强弱。
[0138]
实验结果:
[0139]
基于五个微博文档集合提取的5个话题集合,对比本专利提出的方法与时间序列预测中常用的ar方法、动态线性方法一步向前的预测结果发现,本专利提出的方法在累积绝对误差(cumulative absolute error,cae)指标上相较于对比方法至少提升了15.46%,均方误差根(root mean squared error,rmse)指标至少提升了16.97%,说明了本专利方法在短期预测中的有效性,其中,
[0140]
[0141][0142]
式中y
tar,j
为j时刻目标话题流行度的实际数值,为j时刻本专利提出的方法或对比方法对目标话题流行度的预测值。
[0143]
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

技术特征:
1.考虑竞争与合作关系的话题流行度短期预测方法,其特征在于,包括以下步骤:获取文档集合,提取话题,确定目标话题、非目标话题;取与目标话题相似度小于给定相似度阈值的非目标话题为潜在影响话题;针对文档集合,以时间t为时间间隔划分时间段,计算目标话题、每个潜在影响话题在每个时间段内出现的次数,形成话题的流行度向量;基于每个潜在影响话题的流行度向量,计算得每个潜在影响话题的流行度滞后向量;汇集全部潜在影响话题的流行度滞后向量形成潜在影响话题时滞矩阵;基于目标话题流行度向量、潜在影响话题时滞矩阵预测目标话题在下一时间间隔t内的流行度。2.如权利要求1所述的考虑竞争与合作关系的话题流行度短期预测方法,其特征在于,针对文档集合,以正则表达式提取话题。3.如权利要求1所述的考虑竞争与合作关系的话题流行度短期预测方法,其特征在于,计算非目标话题与目标话题相似度的方法,包括以下步骤:针对提取的每一个话题,遍历文档集合,获得包含该话题的文档集合;针对每一个话题,将文档集合中的文本以首尾相接的方式连接形成话题文本;对每一个话题文本分词,并去除停用词,得到每个话题的话题词语集合;以全部话题和话题词语集合作为输入,训练doc2vec模型;基于训练所得doc2vec模型,得到目标话题和每一个非目标话题的话题向量;针对每一个非目标话题,计算其话题向量与目标话题向量的欧氏距离,作为该非目标话题与目标话题的相似度。4.如权利要求1所述的考虑竞争与合作关系的话题流行度短期预测方法,其特征在于,对文档集合,以具有目标话题的时间点为起点,以文档集合的截止时间为终点,倒推划分时间段,其中,按时间顺序,第一个时间段的时间间隔≤t。5.如权利要求4所述的考虑竞争与合作关系的话题流行度短期预测方法,其特征在于,针对文档集合,划分为a个时间段,目标话题的流行度向量记为y
tar,q
=(y
tar,1
,...,y
tar,a
)
t
,其中,y
tar,a
表示目标话题在第a个时间段内出现的次数,t表示向量转置。6.如权利要求1所述的考虑竞争与合作关系的话题流行度短期预测方法,其特征在于,目标话题在下一时间间隔t内的流行度表示为:其中,μ
tar,a+1
为基于目标话题流行度向量估计得到的目标话题在a+1时刻的流行度;x
i.a+1-m
β
i
为基于潜在影响话题时滞矩阵估计得到的目标话题在a+1时刻的流行度,回归系数β
i
=(β
1,a-1
,...,β
1,a-m
,...,β
d,a-1
,...,β
d,a-m
)
t
。7.如权利要求1所述的考虑竞争与合作关系的话题流行度短期预测方法,其特征在于,依据y
tar,q
,构建局部线性趋势模型,具体如下:,构建局部线性趋势模型,具体如下:其中,μ
tar,j
表示在第j个时间段时目标话题的水平趋势部分;v
tar,j-1
表示在j-1个时间段时目标话题水平趋势的斜率;
表示水平趋势的白噪声;表示水平趋势斜率的白噪声;当j≤a时,y
tar,j
作为μ
tar,j
的输入,对局部线性趋势模型运用极大似然估计与卡尔曼滤波算法,迭代获得v
tar,a-1
、∈
tar,a-1
、ε
tar,a
的估计值,进一步迭代获得a+1时间段目标话题的水平趋势部分μ
tar,a+1
。8.如权利要求7所述的考虑竞争与合作关系的话题流行度短期预测方法,其特征在于,设定共有d个潜在影响话题,则第i个潜在影响话题的流行度向量记为y
i,q
=(y
i,1
,...,y
i,a
)
t
,i∈{1,...,d},其中,y
i,a
表示第i个潜在影响话题在第a个时间段内出现的次数;给定拟考虑的滞后阶数l,l<a,则第i个潜在影响话题的流行度滞后向量记为x
i,a-m
=(x
i,m+1,a-m
,...,x
i,a,a-m
)
t
,f∈{1,...,d},m∈{1,...,l-1},其中,x
i,m+1,a-m
表示第i个潜在影响话题在第m+1个时间段内的m阶滞后项。9.如权利要求8所述的考虑竞争与合作关系的话题流行度短期预测方法,其特征在于,用表示潜在影响话题对目标话题h
tar
流行度的影响部分,即流行度的影响部分,即则的似然函数可以表示如下:其中,i∈{1,...,d};是指中的第j个元素,j∈{3,...,a},为第j时刻的影响部分。x
i,j-1
是x
i,a-m
中第j-1行元素组成的向量;是对角矩阵r中第j行、第j列元素;假设回归系数β
i
服从钉板分布,得:p(β
i
,γ,r
β
)=p(β
i
|γ,r
β
)p(r
β
|γ)p(γ),其中,设定β
i
为服从均值为0,协方差矩阵为r
β
的正态分布;k为拟引入影响部分的非目标话题及其滞后项的个数;π
k
为β
i
中第k项被引入模型的概率,且当β
i
中第k项β
k
≠0时,γ
k
=1;当β
k
=0时,γ
k
=0;通过使用mcmc方法得到β
i
,基于估计所得的β
i
以及a+1时刻潜在影响话题时滞矩阵x
i,a+1-m
,运用如下公式:预测获得a+1时间段的影响部分x
i,a+1-m
β
i
。10.如权利要求9所述的考虑竞争与合作关系的话题流行度短期预测方法,其特征在于,当β
i
=(β
1,a-1
,...,β
1,a-m
,...,β
d,a-1
,...,β
d,a-m
)
t
中的系数β
i,a-c
,i∈{1,...,d},c∈{1,...,m}为正且显著异于0时,该潜在影响话题为目标话题的合作话题;当β
i
=(β
1,a-1
,...,β
1,a-m
,...,β
d,a-1
,...,β
d,a-m
)
t
中的系数β
i,a-c
,i∈{1,...,d},c∈{1,...,m}为负且显著异于0时,该潜在影响话题为目标话题的竞争话题。

技术总结
本发明公开了一种考虑竞争与合作关系的话题流行度短期预测方法,包括:获取文档集合,提取话题,确定目标话题、非目标话题;取与目标话题相似度小于给定相似度阈值的非目标话题为潜在影响话题;针对文档集合,以时间t为时间间隔划分时间段,计算目标话题、每个潜在影响话题在每个时间段内出现的次数,形成话题的流行度向量;基于每个潜在影响话题的流行度向量,计算得每个潜在影响话题的流行度滞后向量;汇集全部潜在影响话题的流行度滞后向量形成潜在影响话题时滞矩阵;基于目标话题流行度向量、潜在影响话题时滞矩阵预测目标话题在下一时间间隔t内的流行度。本发明具有利用竞争与合作关系提升流行度短期预测解释性和准确性的有益效果。性的有益效果。性的有益效果。


技术研发人员:解峥
受保护的技术使用者:国家计算机网络与信息安全管理中心
技术研发日:2022.05.11
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-8015.html

最新回复(0)