一种基于数据去偏的用户偏好预测方法

专利2025-06-07  71


本发明属于互联网用户偏好预测,具体涉及一种基于数据去偏的用户偏好预测方法。


背景技术:

1、推荐系统是一种决策支持系统,能够预测用户对特定物品的兴趣,并通过历史行为和偏好等信息来帮助用户选择感兴趣的内容。其中,点击率预测的目的是预测用户点击广告或项目的概率,其对于诸如在线广告和推荐系统的许多在线应用至关重要。然而现有的数据集通常是观察所得,根据历史的交互情况来分析用户的兴趣偏好,但是这种数据集中往往存在各种偏差,如用户对物品的选择偏差、系统对物品的曝光偏差以及物品的内容偏差等。使用有偏数据训练的模型无法捕捉用户的真实兴趣,因此减轻有偏数据的影响是提高缓存命中率的关键。

2、对于用户偏好预测,如何从有偏数据集中捕获用户真实兴趣偏好是个重要问题,该问题得到了广泛的研究,但仍然缺少一种对视频数据集中的时长偏差的处理方法。其中,通过绘制完备的因果图,再利用后门调整原则,去除混淆因素的影响已经被证明是一种有效的去偏方式。然而这种方法仍然有它的局限性,首先,通过因果图绘制出的混淆因素,更多的是对于可观察到的混淆因素的去除,而对于无法观测到的混淆因素,则没有一个较好的去除方式。


技术实现思路

1、针对现有技术存在的不足,本发明提出了一种基于数据去偏的用户偏好预测方法,该方法包括:获取视频数据和用户数据;将视频数据和用户数据输入到训练好的用户偏好预测模型中,得到用户偏好预测结果;

2、用户偏好预测模型的训练过程包括:

3、s1:获取用于训练的视频数据和用户数据;采用嵌入层对视频数据和用户数据进行处理,得到用户嵌入和视频嵌入;

4、s2:对用户嵌入和视频嵌入进行去偏处理,得到去偏用户嵌入和去偏视频嵌入;

5、s3:采用特征筛选层对用户嵌入、视频嵌入、去偏用户嵌入和去偏视频嵌入进行处理,得到用户特定特征重要权重和视频特定特征重要权重;

6、s4:采用因子分解机对用户特定特征重要权重和视频特定特征重要权重进行处理,得到用户兴趣表示向量;

7、s5:将用户兴趣表示向量输入到输出层进行处理,得到用户偏好预测结果;

8、s6:计算模型交叉熵损失并根据模型交叉熵损失调整模型参数,得到训练好的用户偏好预测模型。

9、优选的,对用户嵌入和视频嵌入进行去偏处理的过程包括:对嵌入层进行训练并计算成对排序损失;根据成对排序损失调整嵌入层参数,得到训练好的嵌入层;根据训练过程中得到的用户嵌入和视频嵌入对训练完成后嵌入层输出的用户嵌入和视频嵌入进行去偏处理,得到去偏用户嵌入和去偏视频嵌入。

10、进一步的,得到去偏用户嵌入和去偏视频嵌入的公式为:

11、

12、其中,表示视频i的去偏用户嵌入,qi表示视频i的视频嵌入,α1是第一控制参数,表示多次迭代中嵌入层得到的平均视频嵌入,表示用户u的去偏用户嵌入,pu表示用户u的用户嵌入,α2是第二控制参数,表示多次迭代中嵌入层得到的平均用户嵌入。

13、优选的,成对排序损失为:

14、

15、其中,lbpr表示成对排序损失,σ表示sigmoid激活,表示用户u和正样本视频i的匹配分数,表示用户u和负样本视频j的匹配分数,λθ表示学习率,θ表示嵌入层参数,ds表示三元组集合,(u,i,j)表示用户u、正样本视频i和负样本视频j的三元组。

16、优选的,得到用户特定特征重要权重和视频特定特征重要权重的过程包括:

17、采用基于mlp的门控网络分别对用户嵌入和视频嵌入进行处理,得到用户门控权重和视频门控权重;

18、拼接用户的所有去偏用户嵌入,得到拼接去偏用户嵌入;拼接视频的所有去偏视频嵌入,得到拼接去偏视频嵌入;

19、根据用户门控权重和拼接去偏用户嵌入计算得到用户特定特征重要权重;根据视频门控权重和拼接去偏视频嵌入计算得到视频特定特征重要权重。

20、进一步的,计算用户特定特征重要权重和视频特定特征重要权重的公式表示为:

21、h1=2σ(g1)⊙e

22、h2=2σ(g2)⊙f

23、其中,h1表示用户特定特征重要权重,g1表示用户门控权重,e表示拼接去偏用户嵌入,σ表示sigmoid激活函数,⊙表示对应位置元素相乘,h2表示视频特定特征重要权重,g2表示视频门控权重,f表示拼接去偏视频嵌入。

24、优选的,因子分解机对用户特定特征重要权重和视频特定特征重要权重进行处理的公式为:

25、

26、zi=h1,i+h2,i

27、其中,表示用户兴趣表示向量,θ0表示常数,θi为线性网络参数,zi表示第i个拼接特征,zj表示第j个拼接特征,k表示特征种类数量,<θi,θj>为交叉模型参数,h1,i表示用户特定特征重要权重的第i个特征表示,h2,i表示视频特定特征重要权重的第i个特征表示。

28、优选的,输出层对用户兴趣表示向量的处理过程包括:采用sigmoid函数对用户兴趣表示向量进行处理,得到用户偏好预测结果。

29、优选的,交叉熵损失为:

30、

31、其中,loss表示交叉熵损失,n表示训练样本数,表示第j个样本的预测点击概率,yj表示第j个样本的的用户实际点击标签。

32、本发明的有益效果为:本发明通过类别特征与数值特征的分类嵌入表示、原始数据去偏后再嵌入的方式,有效增加了嵌入向量对用户及视频内容的表示精确性,解决了推荐模型过于依赖初始数据造成预测不准确或推荐内容单一的问题,同时采用特定于流的特征选择来扩大两个流之间的差异,从而产生差异化的特征输入的方式选择特征,更加高效的利用了特征组合的信息,避免了无效特征的交叉导致神经网络的学习过程中导致的低效甚至无效的问题,最后引入因子分解机对低阶和高阶特征交叉的充分学习,实现了通过特征交叉组合准确有效的进行用户偏好预测,提高了用户偏好预测的准确性。



技术特征:

1.一种基于数据去偏的用户偏好预测方法,其特征在于,包括:获取视频数据和用户数据;将视频数据和用户数据输入到训练好的用户偏好预测模型中,得到用户偏好预测结果;

2.根据权利要求1所述的一种基于数据去偏的用户偏好预测方法,其特征在于,对用户嵌入和视频嵌入进行去偏处理的过程包括:对嵌入层进行训练并计算成对排序损失;根据成对排序损失调整嵌入层参数,得到训练好的嵌入层;根据训练过程中得到的用户嵌入和视频嵌入对训练完成后嵌入层输出的用户嵌入和视频嵌入进行去偏处理,得到去偏用户嵌入和去偏视频嵌入。

3.根据权利要求2所述的一种基于数据去偏的用户偏好预测方法,其特征在于,得到去偏用户嵌入和去偏视频嵌入的公式为:

4.根据权利要求1所述的一种基于数据去偏的用户偏好预测方法,其特征在于,成对排序损失为:

5.根据权利要求1所述的一种基于数据去偏的用户偏好预测方法,其特征在于,得到用户特定特征重要权重和视频特定特征重要权重的过程包括:

6.根据权利要求5所述的一种基于数据去偏的用户偏好预测方法,其特征在于,计算用户特定特征重要权重和视频特定特征重要权重的公式表示为:

7.根据权利要求1所述的一种基于数据去偏的用户偏好预测方法,其特征在于,因子分解机对用户特定特征重要权重和视频特定特征重要权重进行处理的公式为:

8.根据权利要求1所述的一种基于数据去偏的用户偏好预测方法,其特征在于,输出层对用户兴趣表示向量的处理过程包括:采用sigmoid函数对用户兴趣表示向量进行处理,得到用户偏好预测结果。

9.根据权利要求1所述的一种基于数据去偏的用户偏好预测方法,其特征在于,交叉熵损失为:


技术总结
本发明属于互联网用户偏好预测技术领域,具体涉及一种基于数据去偏的用户偏好预测方法;该方法包括:获取视频数据和用户数据;采用嵌入层对视频数据和用户数据进行处理,得到用户嵌入和视频嵌入;对用户嵌入和视频嵌入进行去偏处理,得到去偏用户嵌入和去偏视频嵌入;采用特征筛选层对用户嵌入、视频嵌入、去偏用户嵌入和去偏视频嵌入进行处理,得到用户特定特征重要权重和视频特定特征重要权重;采用因子分解机对用户特定特征重要权重和视频特定特征重要权重进行处理,得到用户兴趣表示向量;将用户兴趣表示向量输入到输出层进行处理,得到用户偏好预测结果;本发明可准确有效的进行用户偏好预测,提高了用户偏好预测的准确性。

技术研发人员:李职杜,周庆,吴佳雯,王巨震,邓明亮,薛青
受保护的技术使用者:重庆邮电大学
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-14766.html

最新回复(0)