本公开涉及信息处理领域,进一步涉及自然语言数据处理领域,具体涉及文本分类方法,尤其涉及一种基于主题预分类和知识图谱的多维文本分类方法、系统、电子设备和可读存储介质。
背景技术:
1、随着计算机信息处理技术的发展,越来越多的行业和部门采用自动信息处理来替代原始的人工信息处理方式。信息处理,尤其是文本信息的处理在优化社会职能部门的管理中发挥越来越重要的作用。好的文本信息处理结果能帮助实现社会职能管理部门的精细化准确管理,有利于减轻人工处理负担,提高管理效率。
2、目前,人们在日常生活中遇到一些社会问题时,通常会选择市政热线作为渠道,以电话、短信等多种方式提交这些社会问题的问题信息,这里称为热线案件。这些热线案件最终都被记录成文本数据信息,称热线文本。热线案件处理的一个关键点就是正确地分派热线案件到相应的职能部门/机构。如果不能够准确快速地进行分配,则会直接导致问题处理的效率低下,影响一些需要及时响应处理的热线案件的处理进度。
3、现阶段,社会职能部门管理的数据庞多而复杂,信息分析的需求千变万化,用于优化社会职能部门管理的数据信息分析的解决方案还非常不完备,因此,急需优秀的方案来处理这些海量的数据信息。
4、并且,当下热线业务日益繁重,海量的热线案件信息亟待及时处理,仅依靠手工分类派发完全无法满足处理需求。而现有的一些文本信息处理方法又无法适于这些庞乱复杂热线案件的业务需求。
5、因此,对这些特殊文本数据进行针对性研究,探索新的文本分类方法,以便及时有效地准确分类处理如此庞杂的热点问题,实现社会职能管理部门向准确地精细化管理转型,成为亟待解决的技术问题。
技术实现思路
1、本公开要解决的技术问题是,探索新的文本分类方法对所述热线案件文本数据信息进行处理,将所述热线案件文本数据信息所涉及的热点问题及时有效地准确分配给对应的社会职能管理部门。
2、为达到上述发明目的,更好地对这些特殊文本数据进行快速、高效、精确地分类,实现向社会职能管理部门进行准确地精细化分配,本公开对这些特殊文本数据本身、管理部门职能划分以及数据流向等特点进行研究,总结出如下特点和难点:
3、1、诉求文本质量差异大:
4、(1)文本长度差异非常大,短的仅一两句话,文本字数长的可达800字或以上;
5、(2)文本数据中存在大量专有名称/专业术语,对于热线文本来说,则是很多地域性名词,存在同址异名的情况,主要是音同字不同;此外还有例如因为历史原因,同一个地方,有的称为小区,有的称为村等;
6、(3)文本数据的口语化表达明显,还有的书写不规范,存在语法问题、错别字等;
7、(4)文本数据来源复杂,因此在叙述上,有的人描述能力差、不确切,呈现出模糊化倾向。
8、2、职能单元的层级不确定
9、以某地市政热线派发为例,相关的政府部门/机构较多,有的层级深度可达到7层;结构严重不均衡,有的部门较大,下属部门非常多,而有的部门确没有下属部分,总体层级只有两级。图1为某地市政热线派发涉及到的政府部门/机构图,从图中可以明显看到上述特征。
10、3、通常的文本分类方式难以胜任
11、对于上述复杂文本的分类问题,通常的文本分类方法,在正/负案例足够多的情况下效果可以保证,但现实情况往往是,某些地方的案例非常有限,有些部门的案例也较少,因此,直接采用一般分类方法的效果有限。
12、另外,有些热线案件文本数据信息,还需要两个或两个以上职级部门分工协作处理,因此,需要将此热线案件文本数据信息同时或按先后顺序分别派发至相应职级部门。这对分类方法提出了更严峻的挑战。
13、针对上述问题的特殊性以及处理难点,为达到本公开发明目的,本公开提出一种借助中间信息“文本主题”进行分类的方法,基于主题预分类和知识图谱进行多维文本分类。针对不同的主题,构建相应的“分析模式(schema)”,根据模式提取关键词,附加到文本向量中,由bert网络训练出合适模型。其中,模型训练流程图如图2所示,预测流程图如图3所示。
14、具体地,为了解决上述技术问题,本公开提供了一种基于主题预分类和知识图谱的多维文本分类方法、系统、电子设备及存储介质。
15、根据本公开的一个方面,本公开提供了一种基于主题预分类和知识图谱的多维文本分类方法,包括如下步骤:
16、(1)数据采集:采集第一热线文本数据,进行文本分词,提取出第一关键词;
17、(2)词分类:对所述第一关键词进行词分类,将所述第一关键词分出地域性词/非地域性词,如果是地域性词,则直接获得上、下位关系;
18、(3)主题预分类:预定义多个事件大类,针对第一关键词对事件文本语义的作用进行初始化并附以对应的权重,得到预定义规则;根据所述预定义规则进行主题预分类,如果是地域性词,则直接生成编码职能信息;
19、(4)命名实体识别:采用构建同义词林的方式进行命名实体识别;
20、(5)构建知识图谱:采用三元组<实体a,关系r,实体b>的形式以所述预定义规则来描述知识图谱,对于非地域性词,查询所述预定义规则,构造实体关系,得到知识图谱;
21、(6)构建部门矩阵与虚拟职能部门:将涉及的职能部门或机构作为地域信息和职能信息的映射,并根据所述第一热线文本与所述职能部门或机构的相关度建立具体的映射关系;
22、(7)模型训练:将处理后的诉求文本、抽取的实体关系编码后,作为输入,将编码后的虚拟职能部门信息作为输出,由bert网络来训练模型,得到可用模型;
23、(8)模型输出:输出所述可用模型。
24、优选地,还包括如下步骤:
25、使用时,采集第二热线文本数据,进行文本分词,提取出第二关键词;
26、对所述第二关键词进行词分类,将所述第二关键词分出地域性词/非地域性词,如果是地域性词,则直接获得上、下位关系;
27、根据预定义规则进行主题预分类,根据主题预分类得到的主题查询知识图谱;
28、将处理后的诉求文本、抽取的实体关系编码后,输入所述可用模型,得到职能部门信息。
29、优选地,实时调整所述映射关系:各职能部门对分配到的热线文本进行处理,对于不属于本部门的热线文本进行标记,将被标记的热线文本返回并重新分配,直到所述热线文本被另一职能部门所接收;建立所述热线文本与所述最终接收的职能部门的映射关系,同时解除前面不匹配的映射关系,并实时更新映射关系矩阵。
30、优选地,所述第一热线文本和第二热线文本数据采用一个24维的向量来标识,编码形式采用独热码。
31、优选地,存储在知识图谱中的实体关系,按照“[关系类型编号,实体a,关系r,实体b,属性]”的顺序提交到bert网络输入中。
32、优选地,采用独热码方式编码热线文本对应的虚拟职能部门信息,对输入序列进行多标签分类,pi为输出中第i位被预测为第i个虚拟职能部门的概率值,表示如下:
33、pi=σ(w x+b)
34、其中w为训练权重,x为编码后的输入序列,b为偏置项,σ为映射。
35、优选地,使用如下的目标损失函数loss:
36、
37、其中n为输入序列的长度;yi为已知的正确分类标签,pi为输出中第i位被预测为第i个虚拟职能部门的概率值。
38、优选地,采用精准率p、召回率r和综合指标f1值作为评判模型性能的指标;从样本总体中选择合适的测试集合进行指标测试;三种评价指标的分值越高,则表示模型的精准率、召回率和综合性能越好;评价指标的计算公式如下所示:
39、
40、
41、其中nr为预测正确的样本数;nc为预测出的样本总数;n为测试集合中的样本总数;综合指标f1由p、r计算得到。
42、根据本公开的另一个方面,本公开提供了一种基于基于主题预分类和知识图谱的多维文本分类系统,包括:
43、(1)数据采集单元:采集第一热线文本数据,进行文本分词,提取出第一关键词;
44、(2)词分类单元:对所述第一关键词进行词分类,将所述第一关键词分出地域性词/非地域性词,如果是地域性词,则直接获得上、下位关系;
45、(3)主题预分类单元:预定义多个事件大类,针对第一关键词对事件文本语义的作用进行初始化并附以对应的权重,得到预定义规则;根据所述预定义规则进行主题预分类,如果是地域性词,则直接生成编码职能信息;
46、(4)命名实体识别单元:采用构建同义词林的方式进行命名实体识别;
47、(5)构建知识图谱单元:采用三元组<实体a,关系r,实体b>的形式以所述预定义规则来描述知识图谱,对于非地域性词,查询所述预定义规则,构造实体关系,得到知识图谱;
48、(6)构建部门矩阵与虚拟职能部门单元:将涉及的职能部门或机构作为地域信息和职能信息的映射,并根据所述第一热线文本与所述职能部门或机构的相关度建立具体的映射关系;
49、(7)模型训练单元:将处理后的诉求文本、抽取的实体关系编码后,作为输入,将编码后的虚拟职能部门信息作为输出,由bert网络来训练模型,得到可用模型;
50、(8)模型输出单元:输出所述可用模型。
51、根据本公开的再一个方面,本公开提供了一种电子设备,包括:
52、存储器,所述存储器存储执行指令;以及
53、处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述方法。
54、根据本公开的又一个方面,本公开提供了一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述方法。
55、本公开并不限于仅对日常生活中的热点问题进行分类,与之类似的问题,还有产品咨询、顾客投诉等,均可使用本公开的分类方法进行有效分类。例如:某些商家的产品矩阵很大、细分类很多,相关诉求问题就需要非常了解产品特性的人员来解答;然而,人工派发诉求问题的方法难以胜任,因此需要根据这些诉求文本,自动派发给相应的企业职能单元或相应的技术人员。
56、本公开的有益效果:
57、1、常见业务场景,大多具有各类别间数据量不均衡的特点,本公开提出的方法能够有效进行分类。
58、2、主题相近似的文本,进一步抽取关键词、隐含模式,可以提高细分类准确率。
59、3、可以有效提升热线案件处理效率,减轻工作人员重复劳动。
60、4、可以用于某些大商家的产品售后服务流程,提高部门与问题的匹配度,改善工作流程,提高服务质量。
1.一种基于主题预分类和知识图谱的多维文本分类方法,其特征在于,
2.根据权利要求1所述的一种基于主题预分类和知识图谱的多维文本分类方法,其特征在于,
3.根据权利要求1所述的一种基于主题预分类和知识图谱的多维文本分类方法,其特征在于,
4.根据权利要求1或2所述的一种基于主题预分类和知识图谱的多维文本分类方法,其特征在于,
5.根据权利要求1所述的一种基于主题预分类和知识图谱的多维文本分类方法,其特征在于,
6.根据权利要求1所述的一种基于主题预分类和知识图谱的多维文本分类方法,其特征在于,
7.根据权利要求1所述的一种基于主题预分类和知识图谱的多维文本分类方法,其特征在于,
8.一种基于主题预分类和知识图谱的多维文本分类系统,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。

