基于u-tgx的动态兴趣点推荐方法
技术领域
1.本发明涉及迁移学习、图嵌入、深度学习和推荐技术,属于计算机应用技术领域,尤其涉及一种基于u-tgx的动态兴趣点推荐方法。
背景技术:2.本发明以依托o2o(online to offline)平台的位置社交网络(location-based social networks,lbsns)为研究背景。随着无线传感器网络、gps设备、物联网通讯等基础设施的不断发展和完善,使得智能终端提供的位置定位功能越来越准确、便捷,促使位置社交网络风靡全球,例如foursquare、yelp、大众点评等,它在传统社交网络的基础上增加了基于位置的服务,使得线上虚拟的网络世界和线下真实的物理世界得到了有机结合。在依托o2o平台的位置社交网络中,用户以签到(check-in)的形式体验物理场所,可以随时随地以多种方式(e.g.,发表评论、上传图像等)与他人分享自己的签到体验;用户所签到的场所也被称为兴趣点(points-of-interest,poi),例如酒吧、酒店、机场、游乐场等。个性化poi推荐已成为lbsn最重要的服务之一。
3.本发明是面向个性化动态poi推荐方法的研究,解决时间兴趣漂移问题。用户签到行为的时间动态性带来的兴趣漂移问题。不同于电影、新闻等常规推荐,poi推荐任务的目标是为用户提供其喜欢的物理世界中的场所,这在很大程度上受到各种现实因素的影响。poi推荐区别于纯粹的在线交互(e.g.,电影推荐),其典型特征在于用户的签到行为具有时间动态性。例如,用户通常会在11:00~13:00签到餐馆,在19:00~21:00签到ktv等娱乐场所。
技术实现要素:4.为了进一步提高lbsn中个性化poi推荐的准确度,本发明提出了基于u-tgx的动态poi推荐方法,为基于时空大数据建立时间地理动态poi推荐模型提供一种新的思路和方法。
5.本发明采取的技术方案如下:
6.一种基于u-tgx的动态兴趣点推荐方法,包括如下步骤,
7.第一步:构建基于不均等时间段的动态poi推荐架构;根据用户签到行为的时间模式,将1天24小时划分为不均等的x个时间段,在每个时间段下建立一个poi推荐模型;计算时间段的签到相似度,获得当前时间段cur=1,2,
…
x的个最相似时间段利用最相似时间段的签到信息缓解当前时间段的数据稀疏问题;
8.第二步:构造x个不均等时间段的样本集已知某城市签到数据集中和分别表示用户、poi、poi类型集合;和分别表示在时间段上用户签到过的poi集合和poi类别集合;表示在时间段上用户签到过的类别为cat的poi集合;利用词频-逆向文档频率方法将用户签到次数转换为类别层面的poi偏好
值:
[0009][0010]
其中是在时间段上用户对poi的签到的次数,|
·
|表示集合的元素数量;
[0011]
以用户在时间段上的poi偏好向量为一个样本;的长度为的multi-hot编码向量,其非缺失元素由公式(1)计算获得,缺失元素在训练阶段设置为nan,在预测应用阶段设置为0值;以为一个样本,那么时间段的用户集合中所有用户的poi偏好向量组成样本集θ
cur
,cur=1,2,
…
x;
[0012]
第三步:在每个时间段上建立基于t-semidae的动态poi推荐模型;t-semidae由semidae的第一个隐藏层和输出层外接时间条件网络而形成的;时间条件网络接收用户在的个最相近时间段上的poi偏好向量
[0013]
第四步:训练每个时间段上的基于t-semidae的动态poi推荐模型;
[0014]
首先基于社交-协同-公众正则项的学习算法预训练t-semidae的编码器,其中技术实现上是在基于社交关系的正则化学习算法的基础上补充了协同用户偏好信息和公众偏好信息;
[0015]
然后,通过镜像对称的方式复制编码器获得预训练的解码器;
[0016]
最后,使用bp算法对经过预训练的t-semidae进行参数微调;
[0017]
第五步:预测应用时,根据当前时间或预签到时间匹配并切换到对应时间段下的t-semidae模型进行poi推荐。
[0018]
进一步的,第一步的生成x个不均等签到时间段,实现过程为:基于用户的签到时间,利用k-means聚类方法,在每日模式下聚类出x个不均等的时间段;x为经验值,根据实际数据量进行设置;当x值较大时,动态poi模型的时间动态性会随着x值的增大而增强;聚类方法自动识别x个不均等时间段的分界点;为实验中的new york数据集划分12个不均等时间段:2:12-5:19、5:20-7:16、7:17-8:54、8:55-10:44、10:45-12:31、12:32-14:22、14:23-16:19、16:20-18:05、18:06-19:47、19:48-21:40、21:41-23:44、23:45-2:11。
[0019]
本发明的有益效果:
[0020]
基于u-tgx的动态poi推荐方法的思想是:第一步:构建基于不均等时间段的动态poi推荐架构。第二步:构造x个不均等时间段的样本集第三步:在每个时间段集上建立基于t-semidae的动态poi推荐模型。第四步:训练每个时间段上的基于t-semidae的动态poi推荐模型。第五步:预测应用时,根据当前(或预签到)时间匹配并切换到对应时间段下的t-semidae模型进行poi推荐。基于u-tgx的动态poi推荐方法面向o2o服务的lbsn,以新颖且更合理的方式构建基于深度学习技术的时间地理动态型poi推荐模型。期望其进一步提高个性化poi推荐的准确度。
[0021]
本发明以提高个性化poi推荐准确度为目标,提出了基于u-tgx的动态poi推荐方法,其思想是:首先构建基于不均等时间段的动态poi推荐架构;其次,构造x个不均等时间
段的样本集然后,在每个样本集上建立并训练基于t-semidae的动态poi推荐模型。预测应用时,根据当前(或预签到)时间匹配并切换到对应时间段下的t-semidae模型进行poi推荐。实验结果表明所申请技术能够显著提高个性化poi推荐的准确度。
具体实施方式
[0022]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。下面对基于u-tgx的动态兴趣点推荐方法做进一步说明。
[0023]
本发明的具体实施方式如下:
[0024]
1、基于u-tgx的动态兴趣点(points of interest,poi)推荐方法,包括如下步骤,
[0025]
第一步:构建基于不均等(unequal)时间段的动态poi推荐架构。根据用户签到行为的时间模式,将1天24小时划分为不均等的x个时间段,在每个时间段下建立一个poi推荐模型。计算时间段的签到相似度,获得当前时间段cur=1,2,
…
x的个最相似时间段利用最相似时间段的签到信息缓解当前时间段的数据稀疏问题。
[0026]
第二步:构造x个不均等时间段的样本集已知某城市签到数据集中和分别表示用户、poi、poi类型集合。和分别表示在时间段上用户签到过的poi集合和poi类别集合;表示在时间段上用户签到过的类别为cat的poi集合。利用词频-逆向文档频率(tf-idf)技术将用户签到次数转换为类别层面的poi偏好值:
[0027][0028]
其中是在时间段上用户对poi的签到的次数,|
·
|表示集合的元素数量。
[0029]
以用户在时间段上的poi偏好向量为一个样本。的长度为的multi-hot编码向量,其非缺失元素由公式(1)计算获得,缺失元素在训练阶段设置为nan,在预测应用阶段设置为0值。以为一个样本,那么时间段的用户集合中所有用户的poi偏好向量组成样本集θ
cur
,cur=1,2,
…
x。
[0030]
第三步:在每个时间段上建立基于t-semidae的动态poi推荐模型。t-semidae的全称是带有时间条件网络(time conditional network)的semidae,其中semidae表示基于半受限玻尔兹曼机的深度编码器(deep autoencoder based on semi-restricted boltzmann machine)。t-semidae由semidae的第一个隐藏层和输出层外接时间条件网络而形成的。时间条件网络接收用户在的个最相近时间段上的poi偏好向量
[0031]
第四步:训练每个时间段上的基于t-semidae的动态poi推荐模型。首先基于社交-协同-公众正则项的学习算法预训练t-semidae的编码器,其中技术实现上是在基于社交关系的正则化学习算法的基础上补充了协同用户偏好信息和公众偏好信息。然后,通过镜像对称的方式复制编码器获得预训练的解码器。最后,使用bp算法对经过预训练的t-semidae进行参数微调。
[0032]
第五步:预测应用时,根据当前(或预签到)时间匹配并切换到对应时间段下的t-semidae模型进行poi推荐。
[0033]
进一步的,第一步的生成x个不均等签到时间段,实现过程为:基于用户的签到时间(例如,8:17,10:41),利用k-means聚类方法,在每日模式下聚类出x个不均等的时间段。x为经验值,主要根据实际数据量进行设置。当x值较大时,动态poi模型的时间动态性会随着x值的增大而增强。聚类方法能够自动识别x个不均等时间段的分界点,例如2:12。我们为实验中的new york数据集划分了12个不均等时间段:2:12-5:19、5:20-7:16、7:17-8:54、8:55-10:44、10:45-12:31、12:32-14:22、14:23-16:19、16:20-18:05、18:06-19:47、19:48-21:40、21:41-23:44、23:45-2:11。
[0034]
本节通过仿真实验,验证基于u-tgx的动态poi推荐方法作为一种新的思路和方法,在基于lbsn时空大数据建立时间地理动态poi推荐模型时的有效性。
[0035]
实验数据
[0036]
实验使用爬取自foursquare平台的new york数据集。new york数据集的基本信息请见表1。按时间顺序将new york数据集划分为训练集(前70%)、验证集(中间10%)和测试集(后20%)。new york数据集划分了12个不均等时间段:2:12-5:19、5:20-7:16、7:17-8:54、8:55-10:44、10:45-12:31、12:32-14:22、14:23-16:19、16:20-18:05、18:06-19:47、19:48-21:40、21:41-23:44、23:45-2:11。
[0037]
表1 new york数据集的基本统计信息
[0038] 用户poi签到次数poi类型社交好友协同用户数量473658011707072934196120562
[0039]
在推荐准确度度量方面,我们使用召回率(recall@k)和归一化折损累计增益(ndcg@k)两种常用指标。指标中选择的推荐列表长度为k=5,10,15,20。在度量pseudo-checkin模型的准确度时,我们先分别获得12个时间段下t-semidae模型的recall@k(和(ndcg@k),然后以平均值表示pseudo-checkin模型的整体准确度。
[0040]
u-tgx模型的参数设置如下:地理影响中的幂律分布参数ξ=-1.20021。基于经纬度坐标计算两个poi之间的距离d。将ξ,d值喂入公式计算两个poi之间的地理相似性。任意时间段的t-semidae模型,共5个隐藏层。输入单元和输出单元个数均为),隐藏层的单元个数依次为2000,1000,500,1000,2000。时间条件网络的层数无论是预训练还是参数微调,一个批量的训练样本大小都为256。微调过程中,t-semidae模型的学习率为0.001,训练轮次为75。
[0041]
我们对比了u-tgx模型和semi-cdae模型进行poi推荐时的准确度。semi-cdae是一
种基于semirbm和条件深度编码器的poi推荐方法。它使用semidae挖掘地理信息,以外接的条件网络表征社交影响,可实现地理和社交信息的有效融合。表2给出了u-tgx模型和semi-cdae模型poi推荐结果。相比于semi-cdae模型,u-tgx模型的召回率提升了28.8%~40.9%,归一化折损累计增益提升了25.5%~49.3%。实验结果表明,所申请的基于u-tgx的动态poi推荐方法能够显著提高个性化poi推荐准确度。
[0042]
表2 u-tgx模型和semi-cdae模型poi推荐结果
[0043][0044]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
技术特征:1.一种基于u-tgx的动态兴趣点推荐方法,其特征在于:包括如下步骤,第一步:构建基于不均等时间段的动态poi推荐架构;根据用户签到行为的时间模式,将1天24小时划分为不均等的x个时间段,在每个时间段下建立一个poi推荐模型;计算时间段的签到相似度,获得当前时间段的个最相似时间段利用最相似时间段的签到信息缓解当前时间段的数据稀疏问题;第二步:构造x个不均等时间段的样本集已知某城市签到数据集中和分别表示用户、poi、poi类型集合;和分别表示在时间段上用户签到过的poi集合和poi类别集合;表示在时间段上用户签到过的类别为的poi集合;利用词频-逆向文档频率方法将用户签到次数转换为类别层面的poi偏好值:其中是在时间段上用户u对poi l的签到的次数,|
·
|表示集合的元素数量;以用户在时间段上的poi偏好向量为一个样本;的长度为的multi-hot编码向量,其非缺失元素由公式(1)计算获得,缺失元素在训练阶段设置为nan,在预测应用阶段设置为0值;以为一个样本,那么时间段的用户集合中所有用户的poi偏好向量组成样本集θ
cur
,cur=1,2,
…
x;第三步:在每个时间段上建立基于t-semidae的动态poi推荐模型;t-semidae由semidae的第一个隐藏层和输出层外接时间条件网络而形成的;时间条件网络接收用户在的个最相近时间段上的poi偏好向量第四步:训练每个时间段上的基于t-semidae的动态poi推荐模型;首先基于社交-协同-公众正则项的学习算法预训练t-semidae的编码器,其中技术实现上是在基于社交关系的正则化学习算法的基础上补充了协同用户偏好信息和公众偏好信息;然后,通过镜像对称的方式复制编码器获得预训练的解码器;最后,使用bp算法对经过预训练的t-semidae进行参数微调;第五步:预测应用时,根据当前时间或预签到时间匹配并切换到对应时间段下的t-semidae模型进行poi推荐。2.根据权利要求1所述的基于u-tgx的动态兴趣点推荐方法,其特征在于:第一步的生成x个不均等签到时间段,实现过程为:基于用户的签到时间,利用k-means聚类方法,在每日模式下聚类出x个不均等的时间段;x为经验值,根据实际数据量进行设置;当x值较大时,动态poi模型的时间动态性会随着x值的增大而增强;聚类方法自动识别x个不均等时间段的分界点;为实验中的new york数据集划分12个不均等时间段:2:12-5:19、5:20-7:16、7:17-8:54、8:55-10:44、10:45-12:31、12:32-14:22、14:23-16:19、16:20-18:05、18:06-19:47、19:48-21:40、21:41-23:44、23:45-2:11。
技术总结本发明公开了基于U-TGx的动态兴趣点推荐方法,属于计算机应用技术领域。本发明包括,第一步:构建基于不均等(Unequal)时间段的动态POI推荐架构;第二步:构造x个不均等时间段的样本集第三步:在每个时间段上建立基于T-SemiDAE的动态POI推荐模型;第四步:训练每个时间段上的基于T-SemiDAE的动态POI推荐模型;第五步:预测应用时根据当前(或预签到)时间匹配并切换到对应时间段下的T-SemiDAE模型进行POI推荐。本发明依托O2O模式下的位置社交网络,以新颖且更合理的方式建立基于深度学习技术的具有时间地理(Time-Geographic)感知能力的动态POI推荐模型。实验结果表明所申请技术能够显著提高个性化POI推荐的准确度。性化POI推荐的准确度。
技术研发人员:王晓军 刘涛
受保护的技术使用者:东北财经大学
技术研发日:2022.07.22
技术公布日:2022/11/1