本发明属于互联网,具体为一种中文资讯热点事件生成系统。
背景技术:
1、当前各大资讯类的产品都在显著的版面上展示和推荐热点相关内容,针对热点内容的推荐和呈现也变得非常多元化,热门话题生成的需求目标则是通过对当前最新新闻的快速分析,获取当前世界范围内比较热门的、与金融相关的话题,话题内容包括但不限于公司金融事件、国内外政治军事事件等,用户可以通过该功能模块快速感知当前全球的热点话题,为其在做投资决策时提供舆情情报。
2、资讯热点事件生成的现有技术包括事件抽取、图学习等等,其中事件抽取是从一个无结构化的文本中自动抽取出来结构化的知识,缺点是需要先定义事件类型,人工很难覆盖到所有事件,而图学习热点算法在许多场景中都非常有用,但它们也存在一些缺点:
3、1、计算复杂性:许多图分析算法,特别是热点检测,可能在大规模图上具有较高的计算复杂性;这可能导致慢速的运行时间和计算资源的高消耗;
4、2、数据稀疏性问题:对于稀疏图,热点检测可能会受到影响,数据稀疏性可能导致节点之间的连接不明确或不准确,从而降低热点检测的有效性;
5、3、结果解释与验证:在某些情况下,图热点算法的输出可能难以解释,因为它可能涉及抽象的节点和关系,或者无法直接对应现实世界的实体,此外,验证热点检测结果的准确性也可能面临挑战;
6、4、噪声和异常值:热点检测可能受到数据中噪声和异常值的影响,这些因素可能导致误报热点,降低算法的可靠性,因此需要对其进行改进。
技术实现思路
1、本发明的目的在于提供一种中文资讯热点事件生成系统,以解决上述背景技术中提出的问题。
2、为了实现上述目的,本发明提供如下技术方案:一种中文资讯热点事件生成系统,具体步骤如下:
3、步骤一:
4、取近三天汽车网站所产生的资讯物料;
5、步骤二:
6、使用资讯物料的标题分别输入判定模型,判定模型输出cls向量,cls向量经过softmax判定资讯是否是热点;
7、步骤三:使用属于热点的资讯标题进行聚类,具体为逐个资讯标题使用相似度模型在scann做召回,所召回资讯标题则在图中新建节点与其对应边的阈值;
8、步骤四:
9、使用多个聚类t it l e输入至模型中,并使用多个t it l e的向量相加经过t5模型生成topi c。
10、优选地,步骤一中所述在获取汽车网站资讯物料时需要确保拥有稳定的数据采集技术或工具,如爬虫、api接口等,可以通过选择稳定、高效的数据采集技术或工具,如专业的网络爬虫、数据接口等。
11、优选地,步骤二中所述模型在输出cls向量时,需要考虑到模型的预训练方式、架构设计以及输入数据的特性,以确保其能够准确地反映文本的语义内容。
12、优选地,步骤二中所述需要根据实际情况,合理设定softmax输出的阈值,以准确区分热点资讯和非热点资讯。
13、优选地,步骤三中所述使用相似度模型在scann进行资讯标题的召回和聚类过程中,需要合理的配置scann的参数,如向量维度、搜索半径等,以优化召回效果和计算效率。
14、优选地,步骤三中所述随着新资讯的不断加入,图需要动态更新,以保持聚类的时效性和准确性。
15、优选地,步骤三中所述阈值在设定时需要根据实际情况灵活调整阈值。
16、优选地,步骤四中所述多个t it l e的向量相加时,需要对向量进行归一化或加权处理。
17、优选地,步骤四中所述当其中部分t it l e可能比其他t it l e更具代表性或重要性,因此可以通过赋予不同权重来进行反映。
18、本发明的有益效果如下:
19、本方案提供了一种中文热点事件自动生成方法,首先通过独创的热点判定模型判定热点,再次本方案融合汽车领域专业知识,使用垂类相似度模型进行召回结合图进行聚类,最后使用多个资讯标题文本向量相加求平均并经过t5模型生成其top ic,综上所述,采用本方案提出的中文热点事件自动生成方法,能更好地对中文领域资讯进行热点生成,相比于传统的事件抽取与图学习,本方法更适合中文汽车资讯领域。
1.一种中文资讯热点事件生成系统,其特征在于,具体步骤如下:
2.根据权利要求1所述的一种中文资讯热点事件生成系统,其特征在于:步骤一中所述在获取汽车网站资讯物料时需要确保拥有稳定的数据采集技术或工具,如爬虫、api接口等,可以通过选择稳定、高效的数据采集技术或工具,如专业的网络爬虫、数据接口等。
3.根据权利要求1所述的一种中文资讯热点事件生成系统,其特征在于:步骤二中所述模型在输出cls向量时,需要考虑到模型的预训练方式、架构设计以及输入数据的特性,以确保其能够准确地反映文本的语义内容。
4.根据权利要求1所述的一种中文资讯热点事件生成系统,其特征在于:步骤二中所述需要根据实际情况,合理设定softmax输出的阈值,以准确区分热点资讯和非热点资讯。
5.根据权利要求1所述的一种中文资讯热点事件生成系统,其特征在于:步骤三中所述使用相似度模型在scann进行资讯标题的召回和聚类过程中,需要合理的配置scann的参数,如向量维度、搜索半径等,以优化召回效果和计算效率。
6.根据权利要求1所述的一种中文资讯热点事件生成系统,其特征在于:步骤三中所述随着新资讯的不断加入,图需要动态更新,以保持聚类的时效性和准确性。
7.根据权利要求1所述的一种中文资讯热点事件生成系统,其特征在于:步骤三中所述阈值在设定时需要根据实际情况灵活调整阈值。
8.根据权利要求1所述的一种中文资讯热点事件生成系统,其特征在于:步骤四中所述多个title的向量相加时,需要对向量进行归一化或加权处理。
9.根据权利要求1所述的一种中文资讯热点事件生成系统,其特征在于:步骤四中所述当其中部分title可能比其他title更具代表性或重要性,因此可以通过赋予不同权重来进行反映。
