一种直播智能识别刷流量的方法与流程

专利2023-07-12  80



1.本发明涉及信息技术领域,尤其涉及一种直播智能识别刷流量的方法。


背景技术:

2.随着网络通信技术的进步和时代的发展,直播的发展越来越快,应用也越来越广泛。在现有直播体系中,人气是用于直播平台各个直播间排名的重要指标,一般而言人气越高,排名越靠前,主播越有可能被推荐给用户观看,从而获益更多。而一些主播为了提高人气,会通过非法手段模拟观看直播间,伪造直播间的在线观看人数,即通过刷量提高人气排名。因而,如何精确判断直播间是否存在刷量情况,是维护直播平台生态稳定的重要手段。目前是通过判断直播间总人数是否会出现陡增或抖动的方式来确定直播间是否刷量,判断方法单一,难免会出现错误,因而需要丰富判断是否刷量方法。另一方面,确定直播间的刷量情况不能解决直播平台的刷量问题,还需要去确定刷量观众的账户,这样才能避免被重复使用为刷量账户。因此,如何更精准判断直播间刷量情况及如何确定刷量观众是一个需要解决的问题。


技术实现要素:

3.本发明提供了一种直播智能识别刷流量的方法,主要包括:获取目标直播平台的用户年龄分布信息,并计算用户年龄分布比例;根据初始直播间的分布变化幅度确定刷量直播间;基于分布变化幅度与观众偏好特征确定刷量直播间;对内容不合理的观众进行验证码验证;计算目标直播间的观众相似度;对相似度超过预设相似度阈值的观众进行验证码验证;根据目标直播间的观众类型及验证结果确定刷量观众;进一步可选地,所述获取目标直播平台的用户年龄分布信息,并计算用户年龄分布比例包括:采集目标直播平台所有直播间的账号信息,提取用户年龄信息;筛选所述用户年龄信息中的有效信息,生成有序向量;根据所生成的向量计算目标直播平台的用户年龄分布比例。
4.进一步可选地,所述根据初始直播间的分布变化幅度确定刷量直播间包括:对在线人数超过预设人数阈值的初始直播间进行确定是否刷量,建议预设人数阈值为1000,可根据实际情况调整;实时采集初始直播间观众的账号信息,得到初始直播间的观众年龄分布比例;根据所述观众年龄分布比例和用户年龄分布比例和计算初始直播间的分布变化幅度;如果所述分布变化幅度大于预设分布变化幅度阈值,确定该初始直播间为刷量直播间;包括:计算初始直播间的观众分布比例;计算初始直播间分布变化幅度,确认刷量直播间;所述计算初始直播间的观众分布比例,具体包括:初始直播间为在线人数超过预设人数阈值的直播间。实时采集初始直播间观众的
账号信息,提取初始直播间的观众年龄信息;筛选所述观众年龄信息中的有效信息,生成向量;所述有效信息是指含有年龄且符合真实年龄区间(如0-100岁)的观众年龄信息;根据所生成的向量计算初始直播间的观众年龄分布比例。
5.所述计算初始直播间分布变化幅度,确认刷量直播间,具体包括:计算初始直播间观众年龄分布比例x相比目标直播平台用户年龄分布比例x0的变化幅度y:=|x-x0|;按照观众年龄分布比例加权得到分布变化幅度z:=y*x'*100;如果初始直播间的分布变化幅度大于预设阈值,则该目标直播间确定为刷量直播间;所述预设分布变化幅度阈值确定方法有:根据目标直播平台正常直播间的观众分布比例计算分布变化幅度,得到一组幅度百分比,求算数平均值。
6.进一步可选地,所述基于分布变化幅度与观众偏好特征确定刷量直播间包括:当初始直播间的分布变化幅度未超过预设分布变化幅度阈值时,需进一步根据观众的用户偏好特征来确定刷量直播间;具体方法为计算初始直播间中观众的用户偏好特征与直播内容特征之间的关联度;若所述关联度超过预设阈值,确定该初始直播间不存在刷量情况;若所述关联度未超过预设阈值,确定该初始直播间为刷量直播间;包括:基于直播间的直播内容构建直播内容特征表示;计算初始直播间的观众偏好特征与直播内容特征之间的关联度;根据分布变化幅度与关联度确定刷量直播间;所述基于直播间的直播内容构建直播内容特征表示,具体包括:创建直播内容标签表;采集直播间的直播内容,提取直播内容特征。将所述直播内容特征根据直播类型标签进行one-hot编码,得到一个n维向量,n为所述直播内容标签表的维数。
7.所述计算初始直播间的观众偏好特征与直播内容特征之间的关联度,具体包括:采集初始直播间观众的用户信息,提取用户操作行为信息;用户操作行为信息具体包括:进入直播或点击视频进行观看、切换或退出直播间、评论、打赏、收藏、分享、切换清晰度、切换流量或wifi观看、观看直播而引导的行为(如被主播引导购买商品);根据用户操作行为信息对直播内容标签进行加权评分,得到观众偏好特征向量;利用余弦相似度计算观众偏好特征与直播内容特征之间的关联度。
8.所述根据分布变化幅度与关联度确定刷量直播间,具体包括:当初始直播间的分布变化幅度未超过预设分布变化幅度阈值时,不能确定初始直播间刷量情况;若初始直播间的观众偏好特征与直播内容特征之间的关联度超过预设阈值,确定该初始直播间不存在刷量情况;若初始直播间的观众偏好特征与直播内容特征之间的关联度未超过预设阈值,确定该初始直播间为刷量直播间。
9.进一步可选地,所述对内容不合理的观众进行验证码验证包括:在未确定刷量观众之前,将目标直播间的观众分为正常观众、内容不合理的观众、相似度超过预设阈值的观众;根据计算得到的观众偏好特征与目标直播间直播内容特征之间的关联度,确定内容不合理的观众;对内容不合理的观众在线终端发送验证码。
10.进一步可选地,所述计算目标直播间的观众相似度包括:实时采集目标直播间观众的用户信息,提取判别信息;判别信息包括观看目标刷量直播间音量的选择、与主播互动信息(如弹幕)、点赞、刷礼物、进入或退出直播;定义观众相似度为直播间在线观众与刷量观众之间的jaccard相似性系数;单个观众的相似度具体
计算方式是将该目标观众和刷量观众的判别信息分别转化为布尔值向量,计算两个向量之间的jaccard相似性系数,得到该目标观众的相似度;目标直播间所有单个观众的相似度组成目标直播间的观众相似度。
11.进一步可选地,所述对相似度超过预设相似度阈值的观众进行验证码验证包括:根据目标直播间的观众相似度,确定相似度超过预设阈值的观众;对所述相似度超过预设阈值的观众在线终端进行验证码验证。
12.一种直播智能识别刷流量的方法其特征在于,所述系统包括:验证结果来源于两个途径:对所述内容不合理的观众在线终端进行验证码验证、对所述相似度超过预设阈值的观众在线终端进行验证码验证;创建刷量观众账号信息列表;当目标直播间的观众同时属于内容不合理的观众和相似度超过预设阈值的观众两种类型时,确定所述目标直播间的观众为刷量观众,并将该刷量观众账号信息存入所述刷量观众账号信息列表;若对内容不合理的观众在线终端验证失败,确定所述内容不合理的观众为刷量观众,并将该刷量观众账号信息存入所述刷量观众账号信息列表;若对相似度超过预设阈值的观众在线终端验证失败,确定所述相似度超过预设阈值的观众为刷量观众,并将该刷量观众账号信息存入所述刷量观众账号信息列表;删除所述刷量观众账号信息列表的重复元素并生成新的刷量观众账号信息列表。
13.本发明实施例提供的技术方案可以包括以下有益效果:本发明通过对目标直播间预测观看者分布比例,并计算目标直播间的分布变化幅度来确定直播间是否刷量;在确定刷量直播间的基础上,提出一种对观众进行多层验证,确定刷量观众的方法。本发明丰富了确定直播间刷量的方法并且有效的提高了识别准确率,为直播平台网络监管方提供了确定刷量观众账号信息的方法,避免刷量账户再次被主播非法使用,维护了直播平台生态稳定。
14.【附图说明】图1为本发明的一种直播智能识别刷流量的方法的流程图。
15.图2为本发明的根据目标直播间的观众类型及验证结果确定刷量观众的结构图。
16.【具体实施方式】为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
17.图1为本发明的一种直播智能识别刷流量的方法流程图。如图1所示,本实施例一种直播智能识别刷流量的方法具体可以包括:步骤101,获取目标直播平台的用户年龄分布信息,并计算用户年龄分布比例。
18.采集目标直播平台所有直播间的账号信息,提取用户年龄信息;筛选所述用户年龄信息中的有效信息,生成有序向量;根据所生成的向量计算目标直播平台的用户年龄分布比例。目标直播平台是指需要判断刷量的直播间所在直播平台,例如虎牙直播、斗鱼、抖音;用户进入直播间需要首先在直播平台注册账号信息,包括昵称、年龄、职业等信息,但不是所有用户都会注册年龄,并且不全是真实年龄,因此所述有效信息是指含有年龄且符合真实年龄区间(如0-100岁)的用户年龄信息。用户年龄分布比例具体是通过一定年龄段的用户数除以所有用户数所得到的比值组成。例如,某直播平台的用户年龄分布比例为:18岁以下:20.1%,19-21岁:33.4%,..。
19.步骤102,根据初始直播间的分布变化幅度确定刷量直播间。
20.对在线人数超过预设人数阈值的初始直播间进行确定是否刷量,建议预设人数阈值为1000,可根据实际情况调整。实时采集初始直播间观众的账号信息,得到初始直播间的观众年龄分布比例;根据所述观众年龄分布比例和用户年龄分布比例和计算初始直播间的分布变化幅度;如果所述分布变化幅度大于预设分布变化幅度阈值,确定该初始直播间为刷量直播间。
21.计算初始直播间的观众分布比例。
22.初始直播间为在线人数超过预设人数阈值的直播间。实时采集初始直播间观众的账号信息,提取初始直播间的观众年龄信息;筛选所述观众年龄信息中的有效信息,生成向量;所述有效信息是指含有年龄且符合真实年龄区间(如0-100岁)的观众年龄信息;根据所生成的向量计算初始直播间的观众年龄分布比例。本技术主要对在线人数超过预设人数阈值的直播间确定刷量观众,如直播间只有10个人不可能为刷量直播间,建议预设人数阈值为1000,可根据实际调整。多项研究表明,观看人数较多的直播间观众分布会趋于同直播平台的用户分布,刷量直播间的虚拟观众年龄存在无规律、与直播内容不匹配等特点,因此可借助整个直播平台用户分布情况及实际观众分布情况来判断该直播间是否存在刷量情况。例如,某直播间的观众年龄分布比例为:18岁以下:19.3%,19-21岁:35.8%,...。
23.计算初始直播间分布变化幅度,确认刷量直播间。
24.计算初始直播间观众年龄分布比例x相比目标直播平台用户年龄分布比例x0的变化幅度y:=|x-x0|;按照观众年龄分布比例加权得到分布变化幅度z:=y*x'*100;如果初始直播间的分布变化幅度大于预设阈值,则该目标直播间确定为刷量直播间;所述预设分布变化幅度阈值确定方法有:根据目标直播平台正常直播间的观众分布比例计算分布变化幅度,得到一组幅度百分比,求算数平均值。例如,某初始直播间的观众年龄分布比例为:18岁以下:23.3%,19-24岁:15.8%,25-35岁:7.2%,35-45岁:20.7%,45-60岁:17.3%,60岁以上:15.7%,该直播间所在直播平台用户年龄分布比例为:18岁以下:17.2%,19-24岁:27.2%,25-35岁:28.1%,35-45岁:14.9%,45-60岁:8.0%,60岁以上:4.6%,如果设定分布变化幅度阈值为8.3%,所述直播间的分布变化幅度为9.3%,超过预设阈值,则可确定该直播间为刷量直播间。
25.步骤103,基于分布变化幅度与观众偏好特征确定刷量直播间。
26.当初始直播间的分布变化幅度未超过预设分布变化幅度阈值时,需进一步根据观众的用户偏好特征来确定刷量直播间。具体方法为计算初始直播间中观众的用户偏好特征与直播内容特征之间的关联度;若所述关联度超过预设阈值,确定该初始直播间不存在刷量情况;若所述关联度未超过预设阈值,确定该初始直播间为刷量直播间。若只考虑单个用户,用户偏好特征具体是指根据用户信息提取用户操作行为信息并进行特征表示所得到的多维向量。
27.基于直播间的直播内容构建直播内容特征表示。
28.创建直播内容标签表;采集直播间的直播内容,提取直播内容特征。将所述直播内容特征根据直播类型标签进行one-hot编码,得到一个n维向量,n为所述直播内容标签表的维数。所述直播内容标签为:音乐、生活、科技、运动、校园等体现直播间内容的标签,创建方法可以通过人工标注,也可以通过直播平台数据库获取,本技术对创建方法不做限定。所述
直播内容包括直播时间、直播简介、弹幕或评论、语言等具体信息;所述直播内容特征是指能够集中体现该直播内容的关键词。例如某直播间的主要内容是直播牙刷带货,语言是汉语,出现的弹幕信息有“这是正品吗”等,那么这个直播间的直播内容特征为:牙刷、带货、汉语、正品,根据直播内容标签表可将该直播内容特征进行one-hot编码:将牙刷、带货、汉语、正品对应标签标记为1,其余标签标记为0,形成一个多维向量。
29.计算初始直播间的观众偏好特征与直播内容特征之间的关联度。
30.采集初始直播间观众的用户信息,提取用户操作行为信息;用户操作行为信息具体包括:进入直播或点击视频进行观看、切换或退出直播间、评论、打赏、收藏、分享、切换清晰度、切换流量或wifi观看、观看直播而引导的行为(如被主播引导购买商品);根据用户操作行为信息对直播内容标签进行加权评分,得到观众偏好特征向量;利用余弦相似度计算观众偏好特征与直播内容特征之间的关联度。所述关联度定义为将观众偏好特征与直播内容特征转化为向量后的相似度;计算所述关联度的目的是为了与预设阈值相比较,对不合理观众进行验证码调控。余弦相似度计算公式为:采集初始直播间观众的用户信息,提取用户操作行为信息;用户操作行为信息具体包括:进入直播或点击视频进行观看、切换或退出直播间、评论、打赏、收藏、分享、切换清晰度、切换流量或wifi观看、观看直播而引导的行为(如被主播引导购买商品);根据用户操作行为信息对直播内容标签进行加权评分,得到观众偏好特征向量;利用余弦相似度计算观众偏好特征与直播内容特征之间的关联度。所述关联度定义为将观众偏好特征与直播内容特征转化为向量后的相似度;计算所述关联度的目的是为了与预设阈值相比较,对不合理观众进行验证码调控。余弦相似度计算公式为:{pic}cos.png{/pic},其中a,b分别表示观众偏好特征向量和直播内容特征向量。
31.根据分布变化幅度与关联度确定刷量直播间。
32.当初始直播间的分布变化幅度未超过预设分布变化幅度阈值时,不能确定初始直播间刷量情况;若初始直播间的观众偏好特征与直播内容特征之间的关联度超过预设阈值,确定该初始直播间不存在刷量情况;若初始直播间的观众偏好特征与直播内容特征之间的关联度未超过预设阈值,确定该初始直播间为刷量直播间。仅通过观众年龄分布比例和用户年龄分布比例来确定直播间是否存在刷量还不够精确,为了进一步提升判断直播间是否存在刷量的精度,还可以进一步地结合目标初始直播间的直播内容来确定目标初始直播间是否存在刷量的情况。预设关联度阈值可通过大量观众的偏好特征与喜爱视频或直播内容特征之间的关联度加权平均获得,这里不再赘述。
33.步骤104,对内容不合理的观众进行验证码验证。
34.在未确定刷量观众之前,将目标直播间的观众分为正常观众、内容不合理的观众、相似度超过预设阈值的观众。根据计算得到的观众偏好特征与目标直播间直播内容特征之间的关联度,确定内容不合理的观众;对内容不合理的观众在线终端发送验证码。所述正常观众指目标直播间除所述内容不合理的观众及所述相似度超过预设阈值的观众以外的所有观众,所述目标直播间为已确定刷量情况的初始直播间,所述内容不合理的观众具体是其观众偏好特征与直播内容特征之间的关联度超过预设关联度阈值的观众群体,所述相似度超过预设阈值的观众是指直播间中与刷量观众相似度超过预设阈值的观众群体。在确定直播间刷量的基础上,需要进一步确认刷量观众,而内容不合理的观众并不一定都是刷量
观众,因此需要对所述内容不合理观众的在线终端(android、ios、web)发送验证码进行验证,根据验证结果判断是否属于真人操作,即可确定是否为刷量观众。验证码具有一定的规则,即每个直播平台账号跟手机号是一一对应的,因此每个终端进行验证时验证码只能发送到一个手机号上,一个验证码在有效时间内只能验证一个在线终端,且短时间内不能重新发送验证码,这种验证码规则可确定观众是否为刷量观众。
35.步骤105,计算目标直播间的观众相似度。
36.实时采集目标直播间观众的用户信息,提取判别信息。判别信息包括观看目标刷量直播间音量的选择、与主播互动信息(如弹幕)、点赞、刷礼物、进入或退出直播。定义观众相似度为直播间在线观众与刷量观众之间的jaccard相似性系数。单个观众的相似度具体计算方式是将该目标观众和刷量观众的判别信息分别转化为布尔值向量,计算两个向量之间的jaccard相似性系数,得到该目标观众的相似度。目标直播间所有单个观众的相似度组成目标直播间的观众相似度。多项研究表明,刷量直播间中的观众很少部分是真实的观众,大部分为虚拟刷量观众,而虚拟刷量观众在观看直播时具有不控制直播间音量、不互动、不点赞、不刷礼物、进出直播间频率低等特点。因此可利用jaccard相似性系数计算目标观众与虚拟刷量观众之间的相似度,具体计算公式为:实时采集目标直播间观众的用户信息,提取判别信息。判别信息包括观看目标刷量直播间音量的选择、与主播互动信息(如弹幕)、点赞、刷礼物、进入或退出直播。定义观众相似度为直播间在线观众与刷量观众之间的jaccard相似性系数。单个观众的相似度具体计算方式是将该目标观众和刷量观众的判别信息分别转化为布尔值向量,计算两个向量之间的jaccard相似性系数,得到该目标观众的相似度。目标直播间所有单个观众的相似度组成目标直播间的观众相似度。多项研究表明,刷量直播间中的观众很少部分是真实的观众,大部分为虚拟刷量观众,而虚拟刷量观众在观看直播时具有不控制直播间音量、不互动、不点赞、不刷礼物、进出直播间频率低等特点。因此可利用jaccard相似性系数计算目标观众与虚拟刷量观众之间的相似度,具体计算公式为:{pic}jaccard.png{/pic},其中a和b分别表示两个观众的判别信息向量。可根据所述相似度对目标观众在线终端进行验证码验证。
37.步骤106,对相似度超过预设相似度阈值的观众进行验证码验证。
38.根据目标直播间的观众相似度,确定相似度超过预设阈值的观众;对所述相似度超过预设阈值的观众在线终端进行验证码验证。相似度预设阈值可根据实际正常直播间的观众相似度统计计算,可根据实际情况进行调整。在确定直播间刷量的基础上,需要进一步确认刷量观众,而所述相似度超过预设阈值的目标观众并不一定都是刷量观众,很多观众在直播间也不互动、不点赞、不刷礼物等,因此需要对所述相似度超过预设阈值的目标观众的在线终端(android、ios、web)发送验证码进行验证,根据验证结果判断是否属于真人操作,即可确定是否为刷量观众。验证码具有一定的规则,即每个直播平台账号跟手机号是一一对应的,因此每个终端进行验证时验证码只能发送到一个手机号上,一个验证码在有效时间内只能验证一个在线终端,且短时间内不能重新发送验证码,这种验证码规则可确定目标观众是否为刷量观众。
39.步骤107,根据目标直播间的观众类型及验证结果确定刷量观众。
40.验证结果来源于两个途径:对所述内容不合理的观众在线终端进行验证码验证、对所述相似度超过预设阈值的观众在线终端进行验证码验证。创建刷量观众账号信息列
表;当目标直播间的观众同时属于内容不合理的观众和相似度超过预设阈值的观众两种类型时,确定所述目标直播间的观众为刷量观众,并将该刷量观众账号信息存入所述刷量观众账号信息列表。若对内容不合理的观众在线终端验证失败,确定所述内容不合理的观众为刷量观众,并将该刷量观众账号信息存入所述刷量观众账号信息列表;若对相似度超过预设阈值的观众在线终端验证失败,确定所述相似度超过预设阈值的观众为刷量观众,并将该刷量观众账号信息存入所述刷量观众账号信息列表;删除所述刷量观众账号信息列表的重复元素并生成新的刷量观众账号信息列表。目标直播间的观众在线终端验证结果只有成功和失败两种情况,则验证失败的对应观众可确定为刷量观众;如果观众处于内容不合理观众和相似度超过预设阈值观众两者的交叉集合,则不需要验证即可确定所述观众为刷量观众。获得刷量观众账号信息列表可以进一步对刷量观众进行封号、冻结等操作,避免造成多次刷量,净化网络直播的环境。

技术特征:
1.一种直播智能识别刷流量的方法,其特征在于,所述方法包括:获取目标直播平台的用户年龄分布信息,并计算用户年龄分布比例;根据初始直播间的分布变化幅度确定刷量直播间,所述根据初始直播间的分布变化幅度确定刷量直播间,具体包括:计算初始直播间的观众分布比例,计算初始直播间分布变化幅度,确认刷量直播间;基于分布变化幅度与观众偏好特征确定刷量直播间,所述基于分布变化幅度与观众偏好特征确定刷量直播间,具体包括:基于直播间的直播内容构建直播内容特征表示,计算初始直播间的观众偏好特征与直播内容特征之间的关联度,根据分布变化幅度与关联度确定刷量直播间;对内容不合理的观众进行验证码验证;计算目标直播间的观众相似度;对相似度超过预设相似度阈值的观众进行验证码验证;根据目标直播间的观众类型及验证结果确定刷量观众。2.根据权利要求1所述的方法,其中,所述获取目标直播平台的用户年龄分布信息,并计算用户年龄分布比例,包括:采集目标直播平台所有直播间的账号信息,提取用户年龄信息;筛选所述用户年龄信息中的有效信息,生成有序向量;根据所生成的向量计算目标直播平台的用户年龄分布比例。3.根据权利要求1所述的方法,其中,所述根据初始直播间的分布变化幅度确定刷量直播间,包括:对在线人数超过预设人数阈值的初始直播间进行确定是否刷量,建议预设人数阈值为1000,可根据实际情况调整;实时采集初始直播间观众的账号信息,得到初始直播间的观众年龄分布比例;根据所述观众年龄分布比例和用户年龄分布比例和计算初始直播间的分布变化幅度;如果所述分布变化幅度大于预设分布变化幅度阈值,确定该初始直播间为刷量直播间;包括:计算初始直播间的观众分布比例;计算初始直播间分布变化幅度,确认刷量直播间;所述计算初始直播间的观众分布比例,具体包括:初始直播间为在线人数超过预设人数阈值的直播间;实时采集初始直播间观众的账号信息,提取初始直播间的观众年龄信息;筛选所述观众年龄信息中的有效信息,生成向量;所述有效信息是指含有年龄且符合真实年龄区间(如0-100岁)的观众年龄信息;根据所生成的向量计算初始直播间的观众年龄分布比例;所述计算初始直播间分布变化幅度,确认刷量直播间,具体包括:计算初始直播间观众年龄分布比例x相比目标直播平台用户年龄分布比例x0的变化幅度y:=|x-x0|;按照观众年龄分布比例加权得到分布变化幅度z:=y*x'*100;如果初始直播间的分布变化幅度大于预设阈值,则该目标直播间确定为刷量直播间;所述预设分布变化幅度阈值确定方法有:根据目标直播平台正常直播间的观众分布比例计算分布变化幅度,得到一组幅度百分比,求算数平均值。4.根据权利要求1所述的方法,其中,所述基于分布变化幅度与观众偏好特征确定刷量直播间,包括:当初始直播间的分布变化幅度未超过预设分布变化幅度阈值时,需进一步根据观众的用户偏好特征来确定刷量直播间;具体方法为计算初始直播间中观众的用户偏好特征与直播内容特征之间的关联度;若所述关联度超过预设阈值,确定该初始直播间不存在刷量情
况;若所述关联度未超过预设阈值,确定该初始直播间为刷量直播间;包括:基于直播间的直播内容构建直播内容特征表示;计算初始直播间的观众偏好特征与直播内容特征之间的关联度;根据分布变化幅度与关联度确定刷量直播间;所述基于直播间的直播内容构建直播内容特征表示,具体包括:创建直播内容标签表;采集直播间的直播内容,提取直播内容特征;将所述直播内容特征根据直播类型标签进行one-hot编码,得到一个n维向量,n为所述直播内容标签表的维数;所述计算初始直播间的观众偏好特征与直播内容特征之间的关联度,具体包括:采集初始直播间观众的用户信息,提取用户操作行为信息;用户操作行为信息具体包括:进入直播或点击视频进行观看、切换或退出直播间、评论、打赏、收藏、分享、切换清晰度、切换流量或wifi观看、观看直播而引导的行为(如被主播引导购买商品);根据用户操作行为信息对直播内容标签进行加权评分,得到观众偏好特征向量;利用余弦相似度计算观众偏好特征与直播内容特征之间的关联度;所述根据分布变化幅度与关联度确定刷量直播间,具体包括:当初始直播间的分布变化幅度未超过预设分布变化幅度阈值时,不能确定初始直播间刷量情况;若初始直播间的观众偏好特征与直播内容特征之间的关联度超过预设阈值,确定该初始直播间不存在刷量情况;若初始直播间的观众偏好特征与直播内容特征之间的关联度未超过预设阈值,确定该初始直播间为刷量直播间。5.根据权利要求1所述的方法,其中,所述对内容不合理的观众进行验证码验证,包括:在未确定刷量观众之前,将目标直播间的观众分为正常观众、内容不合理的观众、相似度超过预设阈值的观众;根据计算得到的观众偏好特征与目标直播间直播内容特征之间的关联度,确定内容不合理的观众;对内容不合理的观众在线终端发送验证码。6.根据权利要求1所述的方法,其中,所述计算目标直播间的观众相似度,包括:实时采集目标直播间观众的用户信息,提取判别信息;判别信息包括观看目标刷量直播间音量的选择、与主播互动信息(如弹幕)、点赞、刷礼物、进入或退出直播;定义观众相似度为直播间在线观众与刷量观众之间的jaccard相似性系数;单个观众的相似度具体计算方式是将该目标观众和刷量观众的判别信息分别转化为布尔值向量,计算两个向量之间的jaccard相似性系数,得到该目标观众的相似度;目标直播间所有单个观众的相似度组成目标直播间的观众相似度。7.根据权利要求1所述的方法,其中,所述对相似度超过预设相似度阈值的观众进行验证码验证,包括:根据目标直播间的观众相似度,确定相似度超过预设阈值的观众;对所述相似度超过预设阈值的观众在线终端进行验证码验证。8.根据权利要求1所述的方法,其中,所述根据目标直播间的观众类型及验证结果确定刷量观众,包括:验证结果来源于两个途径:对所述内容不合理的观众在线终端进行验证码验证、对所述相似度超过预设阈值的观众在线终端进行验证码验证;创建刷量观众账号信息列表;当目标直播间的观众同时属于内容不合理的观众和相似度超过预设阈值的观众两种类型时,确定所述目标直播间的观众为刷量观众,并将该刷量观众账号信息存入所述刷量观众账号
信息列表;若对内容不合理的观众在线终端验证失败,确定所述内容不合理的观众为刷量观众,并将该刷量观众账号信息存入所述刷量观众账号信息列表;若对相似度超过预设阈值的观众在线终端验证失败,确定所述相似度超过预设阈值的观众为刷量观众,并将该刷量观众账号信息存入所述刷量观众账号信息列表;删除所述刷量观众账号信息列表的重复元素并生成新的刷量观众账号信息列表。

技术总结
本申请提供一种直播智能识别刷流量的方法,包括:获取目标直播平台的用户年龄分布信息,并计算用户年龄分布比例;根据初始直播间的分布变化幅度确定刷量直播间,具体包括:计算初始直播间的观众分布比例,计算初始直播间分布变化幅度,确认刷量直播间;基于分布变化幅度与观众偏好特征确定刷量直播间,具体包括:基于直播间的直播内容构建直播内容特征表示,计算初始直播间的观众偏好特征与直播内容特征之间的关联度,根据分布变化幅度与关联度确定刷量直播间;对内容不合理的观众进行验证码验证;计算目标直播间的观众相似度;对相似度超过预设相似度阈值的观众进行验证码验证;根据目标直播间的观众类型及验证结果确定刷量观众。量观众。量观众。


技术研发人员:刘玲玲 彭飞凌
受保护的技术使用者:数效(深圳)科技有限公司
技术研发日:2022.07.25
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-3856.html

最新回复(0)