一种基于分词与linearsvc算法对招标信息分类的方法及系统
技术领域
1.本发明涉及分词技术领域,并且更具体地,涉及一种基于分词与linearsvc算法对招标信息分类的方法及系统。
背景技术:2.各地的政府采购网每天都会发布大量的招标采购信息,如果能及时发现其中和运营商相关的项目,就会变成一个可靠的商机来源。
3.目前通过人工查阅的方式费时费力,且稳定性差(除非指定专人每日从事该工作),而通过模型可以达到每日自动化识别招标项目的目的,及时获取相关商机。
技术实现要素:4.针对上述问题,本发明提出了一种基于分词与linearsvc算法对招标信息分类的方法,包括:
5.随机获取招标信息作为目标招标信息,为所述目标招标信息中的每条数据打标,并将所述打标后的招标信息作为正负样本;
6.对正负样本中的每条数据进行分词,并对每条分词后的数据进行预处理以获取分词结果;
7.合并分词结果以获取分词集,根据所述分词集获取训练模型的输入特征,并将所述输入特征输入至所述训练模型进行训练以获取分类模型;
8.获取待分类的招标信息的输入特征,将所述待分类的招标信息的输入特征输入至分类模型中进行计算,以获取招标信息的分类结果。
9.可选的,预处理具体为:剔除对每条分词后的数据中停用词以及热门词。
10.可选的,获取分类模型,具体为:计算分词集的tf-idf值以确定正负样本的topk分词以及topn分词,将所述topk分词以及topn分词作为分类模型的输入特征,并将所述输入特征输入至所述训练模型进行训练以获取分类模型。
11.可选的,分类模型基于linearsvc算法构建。
12.可选的,停用词以及热门词通过热门词库进行存储。
13.本发明一种基于分词与linearsvc算法对招标信息分类的系统,包括:
14.样本获取单元,随机获取招标信息作为目标招标信息,为所述目标招标信息中的每条数据打标,并将所述打标后的招标信息作为正负样本;
15.分词单元,对正负样本中的每条数据进行分词,并对每条分词后的数据进行预处理以获取分词结果;
16.模型训练单元,合并分词结果以获取分词集,根据所述分词集获取训练模型的输入特征,并将所述输入特征输入至所述训练模型进行训练以获取分类模型;
17.分类单元,获取待分类的招标信息的输入特征,将所述待分类的招标信息的输入
特征输入至分类模型中进行计算,以获取招标信息的分类结果。
18.可选的,预处理具体为:剔除对每条分词后的数据中停用词以及热门词。
19.可选的,获取分类模型,具体为:计算分词集的tf-idf值以确定正负样本的topk分词以及topn分词,将所述topk分词以及topn分词作为分类模型的输入特征,并将所述输入特征输入至所述训练模型进行训练以获取分类模型。
20.可选的,分类模型基于linearsvc算法构建。
21.可选的,停用词以及热门词通过热门词库进行存储。
22.本发明使用了机器学习算法代替了传统的人工筛选的方式。
附图说明
23.图1为本发明的方法流程图;
24.图2为本发明的系统结构图。
具体实施方式
25.现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
26.除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
27.本发明提出了一种基于分词与linearsvc算法对招标信息分类的方法,如图1所示,包括:
28.随机获取招标信息作为目标招标信息,为所述目标招标信息中的每条数据打标,并将所述打标后的招标信息作为正负样本;
29.对正负样本中的每条数据进行分词,并对每条分词后的数据进行预处理以获取分词结果;
30.合并分词结果以获取分词集,根据所述分词集获取训练模型的输入特征,并将所述输入特征输入至所述训练模型进行训练以获取分类模型;
31.获取待分类的招标信息的输入特征,将所述待分类的招标信息的输入特征输入至分类模型中进行计算,以获取招标信息的分类结果。
32.其中,预处理具体为:剔除对每条分词后的数据中停用词以及热门词。
33.其中,获取分类模型,具体为:计算分词集的tf-idf值以确定正负样本的topk分词以及topn分词,将所述topk分词以及topn分词作为分类模型的输入特征,并将所述输入特征输入至所述训练模型进行训练以获取分类模型。
34.其中,分类模型基于linearsvc算法构建。
35.其中,停用词以及热门词通过热门词库进行存储。
36.本发明一种基于分词与linearsvc算法对招标信息分类的系统200,如图2所示,包
括:
37.样本获取单元201,随机获取招标信息作为目标招标信息,为所述目标招标信息中的每条数据打标,并将所述打标后的招标信息作为正负样本;
38.分词单元202,对正负样本中的每条数据进行分词,并对每条分词后的数据进行预处理以获取分词结果;
39.模型训练单元203,合并分词结果以获取分词集,根据所述分词集获取训练模型的输入特征,并将所述输入特征输入至所述训练模型进行训练以获取分类模型;
40.分类单元204,获取待分类的招标信息的输入特征,将所述待分类的招标信息的输入特征输入至分类模型中进行计算,以获取招标信息的分类结果。
41.其中,预处理具体为:剔除对每条分词后的数据中停用词以及热门词。
42.其中,获取分类模型,具体为:计算分词集的tf-idf值以确定正负样本的topk分词以及topn分词,将所述topk分词以及topn分词作为分类模型的输入特征,并将所述输入特征输入至所述训练模型进行训练以获取分类模型。
43.其中,分类模型基于linearsvc算法构建。
44.其中,停用词以及热门词通过热门词库进行存储。
45.本发明使用了机器学习算法代替了传统的人工筛选的方式。
46.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言java和直译式脚本语言javascript等。
47.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
48.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
49.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
50.尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
51.显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
技术特征:1.一种基于分词与linearsvc算法对招标信息分类的方法,所述方法包括:随机获取招标信息作为目标招标信息,为所述目标招标信息中的每条数据打标,并将所述打标后的招标信息作为正负样本;对正负样本中的每条数据进行分词,并对每条分词后的数据进行预处理以获取分词结果;合并分词结果以获取分词集,根据所述分词集获取训练模型的输入特征,并将所述输入特征输入至所述训练模型进行训练以获取分类模型;获取待分类的招标信息的输入特征,将所述待分类的招标信息的输入特征输入至分类模型中进行计算,以获取招标信息的分类结果。2.根据权利要求1所述的方法,所述预处理具体为:剔除对每条分词后的数据中停用词以及热门词。3.根据权利要求1所述的方法,所述获取分类模型,具体为:计算分词集的tf-idf值以确定正负样本的topk分词以及topn分词,将所述topk分词以及topn分词作为分类模型的输入特征,并将所述输入特征输入至所述训练模型进行训练以获取分类模型。4.根据权利要求1所述的方法,所述分类模型基于linearsvc算法构建。5.根据权利要求2所述的方法,所述停用词以及热门词通过热门词库进行存储。6.一种基于分词与linearsvc算法对招标信息分类的系统,所述系统包括:样本获取单元,随机获取招标信息作为目标招标信息,为所述目标招标信息中的每条数据打标,并将所述打标后的招标信息作为正负样本;分词单元,对正负样本中的每条数据进行分词,并对每条分词后的数据进行预处理以获取分词结果;模型训练单元,合并分词结果以获取分词集,根据所述分词集获取训练模型的输入特征,并将所述输入特征输入至所述训练模型进行训练以获取分类模型;分类单元,获取待分类的招标信息的输入特征,将所述待分类的招标信息的输入特征输入至分类模型中进行计算,以获取招标信息的分类结果。7.根据权利要求6所述的系统,所述预处理具体为:剔除对每条分词后的数据中停用词以及热门词。8.根据权利要求6所述的系统,所述获取分类模型,具体为:计算分词集的tf-idf值以确定正负样本的topk分词以及topn分词,将所述topk分词以及topn分词作为分类模型的输入特征,并将所述输入特征输入至所述训练模型进行训练以获取分类模型。9.根据权利要求6所述的系统,所述分类模型基于linearsvc算法构建。10.根据权利要求7所述的系统,所述停用词以及热门词通过热门词库进行存储。
技术总结本发明公开了一种基于分词与linearSVC算法对招标信息分类的方法及系统,属于分词技术领域。本发明方法,包括:随机获取招标信息作为目标招标信息,为所述目标招标信息中的每条数据打标,并将所述打标后的招标信息作为正负样本;对正负样本中的每条数据进行分词,并对每条分词后的数据进行预处理以获取分词结果;合并分词结果以获取分词集,根据所述分词集获取训练模型的输入特征,并将所述输入特征输入至所述训练模型进行训练以获取分类模型;获取待分类的招标信息的输入特征,将所述待分类的招标信息的输入特征输入至分类模型中进行计算,以获取招标信息的分类结果。本发明使用了机器学习算法代替了传统的人工筛选的方式。学习算法代替了传统的人工筛选的方式。学习算法代替了传统的人工筛选的方式。
技术研发人员:孙亮
受保护的技术使用者:北京思特奇信息技术股份有限公司
技术研发日:2022.06.27
技术公布日:2022/11/1