一种基于大数据模型的玩家反馈关键词提取方法

专利2025-11-10  28


本发明属于关键词提取领域,尤其是涉及一种基于大数据模型的玩家反馈关键词提取方法。


背景技术:

1、在当今的游戏行业中,玩家反馈的理解与分析成为了核心竞争力之一。游戏开发者和运营商不断寻求通过分析玩家在论坛、社交媒体和评论平台上的讨论来优化游戏体验和提升用户满意度。为此,基于大数据模型的玩家反馈关键词提取系统显得尤为重要。这样的系统不仅能够帮助游戏公司实时获取和分析玩家反馈,还能在此基础上生成针对性的改进措施,从而快速响应市场变化和玩家需求。关键词提取是通过分析玩家语言中的频繁出现及关键性词汇来识别玩家关注的重点领域和问题。通过识别关键词,开发团队可以迅速定位问题,并据此调整或优化游戏设计和服务器配置,以提升玩家的游戏体验。

2、现有的关键词提取方法,如公开号为cn114020876a的文本的关键词提取方法、装置、设备及存储介质,通过初始关键词的歧义先验概率以及预设歧义先验模型,确定待分析文本中的目标关键词,使获取到的待分析文本中的目标关键词精确度得到提高。再如公开号为cn106709054a的玩家发布内容处理方法和装置,通过爬虫获取玩家在游戏信息发布平台中发布的内容,提取关键词匹配对应的游戏跟进人员,在平台中及时答疑或反馈技术人员处理,进而为提高游戏体验提供可能。

3、但是上述现有的关键词提取方法并不涉及用户在游戏本体及游戏官方平台之外的反馈,现在玩家的官方反馈通道主要是官方游戏论坛或问卷,而另一部分与游戏内容有高相关性且带有实时性的评论和意见,分散发布在其他社交平台和综合性论坛中,这一部分内容作为玩家的直接反馈是游戏用以提高用户体验的重要信息,另外,上述现有的关键词提取方法并不涉及获取多平台信息后,针对游戏内容的有效关键信息提取,针对现有方法中无法及时跟进游戏外玩家反馈,且获取各平台庞杂信息后如何提取有效的游戏关键信息的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本发明提供了一种基于大数据模型的玩家反馈关键词提取方法,可以提高多平台数据的关键词提取的准确性,并生成建议和迭代方案,从而帮助开发者快速定位玩家反馈的问题并优化游戏设计。

2、一种基于大数据模型的玩家反馈关键词提取方法,包括以下步骤:

3、(1)使用python爬虫论坛和社交媒体,对游戏相关的玩家反馈和帖子数据进行收集并预处理;

4、(2)基于预处理的数据,训练游戏相关的相似度衡量标准,建立对应任务窗口;

5、(3)使用bert模型和textrank算法对不同任务窗口内的文本数据进行关键词的提取;

6、(4)整合mtl框架,基于步骤(3)提取的关键词进行多任务优化,包括情感分析、领域相关性分析和行为导向分析,输出最终关键词;

7、(5)将输出的最终关键词反馈给多任务学习mtl模型,动态调整提取关键词的判断阈值;

8、(6)根据持续得到的关键词数据,将关键词数据纳入分析模型,反馈生成最优的游戏迭代方案,对游戏内容进行更新和优化。

9、步骤(1)的具体过程为:

10、(1-1)定义spider,设置起始url、解析函数来抓取、解析论坛和社交媒体的数据;

11、(1-2)运行爬虫并收集数据;

12、(1-3)对收集的文本数据进行清洗提纯、去重、统一数据格式,同时对数据进行初步分析,对异常值进行修正或删除;

13、(1-4)将抓取的数据存储在数据库中,便于后续分析。

14、步骤(2)的具体过程为:

15、(2-1)基于预处理的数据,根据游戏的不同内容区域定义多个任务窗口,包括系统性能反馈、玩家互动体验、游戏内容反馈;

16、(2-2)为每个任务窗口定制处理规则,包括特定术语的识别和分类,确保数据与任务高度相关;

17、(2-3)使用游戏专用的预训练bert模型为每个任务窗口提取语义嵌入向量;

18、(2-4)针对每个任务窗口训练相似度计算模型,根据不同的窗口特征采用不同的机器学习算法和参数设置,确保模型精确捕捉特定窗口的内容特性;

19、(2-5)根据每个任务窗口的特点和反馈动态调整相似度阈值,以优化关键词提取和内容分析的准确性;

20、(2-6)集成多任务学习mtl框架,反馈循环各任务窗口的输出和用户反馈,对处理流程进行调整。

21、步骤(3)的具体过程为:

22、(3-1)利用bert,将预处理后的文本词汇进行深层次语义嵌入,生成高维的向量表示,这些嵌入向量捕获了每个词在其语境中的语义信息;

23、(3-2)利用bert生成的嵌入向量,计算文本中词语之间的相似性,通过词向量之间的余弦相似度进行衡量,基于这些相似性分数构建一个语义相似性图,其中节点代表词汇,边的权重反映了词汇之间的语义相似度;

24、(3-3)在构建的语义相似性图上应用textrank算法,通过迭代计算每个节点的得分,直到收敛;根据textrank得分排序词汇,选取得分满足条件的词汇作为关键词。

25、步骤(3-1)中,将预处理后的文本词汇进行深层次语义嵌入,生成高维的向量表示,具体过程为:

26、(3-1-1)使用bert的分词器,将文本分解为单词或子词单元;

27、(3-1-2)分词后的文本转化为模型理解的输入格式,包括词的id、分段标记和注意力遮罩;

28、(3-1-3)将步骤(3-1-2)处理后的文本输入到bert模型中,bert模型通过其多层的transformer网络处理输入,每一层transformer都包含自注意力机制和前馈网络,使得每个词的表示能够综合周围词的信息;

29、(3-1-4)bert模型输出每个词的嵌入向量,这些向量是高维的,能够丰富地表示每个词的语义特征。

30、步骤(3-2)的具体过程为:

31、(3-2-1)使用bert模型为文本中的每个词生成嵌入向量;

32、(3-2-2)计算两个向量的点积与它们模的乘积的比值来定义余弦相似度,公式为:

33、

34、其中,v1和v2是两个词的嵌入向量,点积v1·v2表示向量间的点积,而||v1||和||v2||分别是这两个向量的欧几里得范数;

35、(3-2-3)初始设置阈值为0.7,如果余弦相似度大于等于该阈值,则认为这两个词向量在内容上是相似的,否则,则判定为不相似;

36、(3-2-4)当相似度超过阈值时,才在两个节点之间建立边,最终得到的一个语义相似性图;

37、机器学习模型根据实际反馈中的关键词提取效果对阈值的取值区间进行调整,预测和使用最优阈值。

38、步骤(3-3)的具体过程为:

39、(3-3-1)应用textrank算法来迭代计算每个节点的得分,textrank的核心公式如下:

40、

41、其中,tr(vi)是节点vi的得分;d是阻尼因子,设置为0.8;vj是指向vi的节点集合in(vi)中的节点;ωji是从节点vj到vi的边的权重;ωjk是从节点vj出发的所有边的权重之和;该公式基于每个节点接收到的支持量来迭代更新每个节点的重要性得分;

42、(3-3-2)计算完成后,根据得分对所有节点进行排序,得到按从低到高排序的得分列表,并选取所有词汇中第80个百分位的取值词汇及之后排序的词汇为关键词。

43、步骤(4)中,整合mtl框架,共享bert的底层表示,在运行bert和textrank任务的同时,保持情感分析、领域相关性和行为导向词任务的运行,优化关键词提取效果。

44、步骤(4)中,情感分析、领域相关性分析和行为导向分析的具体过程为:

45、(4-1)定义情感载体词汇,分析关键词的情感倾向;

46、(4-2)定义关键词领域相关性,尤其是特定于游戏领域的词汇;

47、(4-3)定义行为导向词汇,包括可能引发玩家行动或请求的词汇;

48、(4-4)分析关键词特征,改善数据驱动的决策,提高系统理解文本的准确性和处理精度。

49、步骤(6)的具体过程为:

50、(6-1)调取得到的关键词数据,将关键词进行分类和权重评估,识别出哪些关键词与玩家的满意度、游戏的批评和特定需求最相关;

51、(6-2)利用提取的关键词和玩家行为数据、玩家反馈数据、玩家交互数据、系统性能日志数据、错误报告数据构建分析预测模型,预测特定关键词对应的内容或问题对玩家留存和满意度的影响,使用机器学习算法来分析关键内容对玩家行为的影响;

52、(6-3)根据模型的分析结果,生成改进游戏的策略文本和迭代方案,包括服务器延迟、角色定制需求和团队副本难度调整;

53、(6-4)持续监控关键词和用户反馈,不断调整分析模型和游戏内容,系统通过持续的数据分析,动态调整策略,以响应新的玩家需求。

54、与现有技术相比,本发明具有以下有益效果:

55、1、本发明从关键词特征角度入手,通过领域相关性、情感分析和行为导向分析分类关键词,同时通过bert+textrank的方法捕捉词汇的深层语义关系和上下文信息,既考虑词频也考虑词义,从而提取出真正意义上重要的关键词。

56、2、本发明整合关键词输出,支持分析结果反馈来动态调整提取关键词的判断阈值,包括判断关键词的权重以及语义相似性图的余弦相似度的阈值,以提高系统识别和处理关键词的准确性。

57、3、本发明通过补充提取其他平台的游戏高相关性反馈数据,后台数据库可以实时更新信息,针对分析结果生成报告和发送诊断建议,以帮助开发者快速定位问题及优化游戏设计。


技术特征:

1.一种基于大数据模型的玩家反馈关键词提取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大数据模型的玩家反馈关键词提取方法,其特征在于,步骤(1)的具体过程为:

3.根据权利要求1所述的基于大数据模型的玩家反馈关键词提取方法,其特征在于,步骤(2)的具体过程为:

4.根据权利要求1所述的基于大数据模型的玩家反馈关键词提取方法,其特征在于,步骤(3)的具体过程为:

5.根据权利要求4所述的基于大数据模型的玩家反馈关键词提取方法,其特征在于,步骤(3-1)中,将预处理后的文本词汇进行深层次语义嵌入,生成高维的向量表示,具体过程为:

6.根据权利要求4所述的基于大数据模型的玩家反馈关键词提取方法,其特征在于,步骤(3-2)的具体过程为:

7.根据权利要求4所述的基于大数据模型的玩家反馈关键词提取方法,其特征在于,步骤(3-3)的具体过程为:

8.根据权利要求4所述的基于大数据模型的玩家反馈关键词提取方法,其特征在于,步骤(4)中,整合mtl框架,共享bert的底层表示,在运行bert和textrank任务的同时,保持情感分析、领域相关性和行为导向词任务的运行,优化关键词提取效果。

9.根据权利要求1所述的基于大数据模型的玩家反馈关键词提取方法,其特征在于,步骤(4)中,情感分析、领域相关性分析和行为导向分析的具体过程为:

10.根据权利要求1所述的基于大数据模型的玩家反馈关键词提取方法,其特征在于,步骤(6)的具体过程为:


技术总结
本发明公开了一种基于大数据模型的玩家反馈关键词提取方法,包括:使用Python爬虫得到游戏相关的数据并预处理;训练游戏相关的相似度衡量标准,建立对应任务窗口;使用BERT和TextRank对不同任务窗口内的文本数据进行关键词的提取;整合MTL框架,基于提取的关键词进行多任务优化,包括情感分析、领域相关性分析和行为导向分析,输出最终关键词;将输出的最终关键词反馈给多任务学习MTL模型,动态调整提取关键词的判断阈值;将得到的关键词数据纳入分析模型,反馈生成最优的游戏迭代方案,对游戏进行更新优化。利用本发明,可以及时跟进游戏外玩家反馈,提高多平台信息的有效关键词提取的准确性,从而帮助开发者快速定位玩家反馈的问题并优化游戏设计。

技术研发人员:彭韧,王梦静,李萍,洪翊宸
受保护的技术使用者:浙江大学
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-17428.html

最新回复(0)