1.本技术涉及文本分析技术领域,特别是涉及一种基于聚类的文本监督检查方法、装置和计算机设备。
背景技术:2.目前监督检查档案文本分析仍然采用人工录入、归纳、整理的方式,效率低、主观性高,当档案文本数量爆炸式增长时,如何合理地挖掘分析文本数据,提升对新收录档案的管理效能,成为一个亟待解决的问题。为了减少同类被检查单位类似问题发生的概率,充分利用现有监督检查历史数据,分析问题发生的特点,探索各类问题之间存在的潜在规律,对监督检查管理者实施针对性的管理措施有重要意义。
3.为提高历史档案数据的分析效率和准确性,已有业务流程信息化、数据采集电子化、文本数据格式化规范化等方面的努力,但是在文本分析方面,目前流行的自然语言处理等机器学习方法并不适用于某些历史标注数据不足的领域,且对于计算硬件需求很高。因此迫切需要一个轻量级的满足文本问题智能归类需求的方法。
技术实现要素:4.基于此,有必要针对上述技术问题,提供一种基于聚类的文本监督检查方法、装置和计算机设备。
5.一种基于聚类的文本监督检查方法方法,所述方法包括:
6.获取监督检查的问题清单;所述问题清单中包括多个被检查单位以及每个被检查单位对应的多个问题描述文本;
7.对所述各个所述被检查单位的多个问题描述文本分别进行特征词提取,得到各个所述问题描述文本的特征词集,计算特征词集中各特征词在当前问题描述文中的词频、在所有问题描述文本中的第一逆向文件频率以及在所有被检查单位中的第二逆向文件频率,根据所述词频、所述第一逆向文件频率以及所述第二逆向文件频率得到各个问题描述文本的特征词权重集;
8.根据所述特征词权重集对多个问题描述文本进行聚类计算,得到多个问题描述文本簇以及对应的多个初始高关联度特征词集;
9.计算初始高关联度特征词集中各特征词与问题描述文本簇的卡方统计量,根据所述卡方统计量得到各问题描述文本簇的精确高关联度特征词集。
10.在一个实施例中,所述对所述多个问题描述文本分别进行特征词提取,得到各个所述问题描述文本的特征词集,包括:
11.根据预先设置的监督检查分词表,对所述多个问题描述文本进行分词处理得到各个问题描述文本的初始特征词集;
12.根据预先设置的过滤词表剔除各第一特征词集中的停用词和错误分词,得到经过处理的特征词集。
13.在一个实施例中,所述计算特征词集中各特征词在当前问题描述文中的词频、在所有问题描述文本中的第一逆向文件频率以及在所有被检查单位中的第二逆向文件频率,包括:
14.对于每一个被检查单位,计算特征词集中各特征词在当前问题描述文本中的词频:
[0015][0016]
其中,tf(m,n)为第n个特征词在第m篇问题描述文本中的词频,f(m,n)表示在第m篇文本中第n个特征词出现的次数,km表示第m篇文本中的总词数;
[0017]
计算特征词集中各特征词在所有问题描述文本中的第一逆向文件频率:
[0018][0019]
其中,idfm(n)表示第n个特征词的第一逆向文件频率,mn表示问题描述文本的总数量,mn表示包含第n个特征词的问题描述文本的数量,为避免出现log函数分母为零的情况,所以在mn之后加上1的修正项;
[0020]
计算特征词集中各特征词在所有被检查单位中的第二逆向文件频率:
[0021][0022]
其中,idf
p
(n)表示第n个特征词的第二逆向文件频率,pn表示被检查单位总数量,pn表示包含第n个特征词的被检查单位数量,同样在pn之后加上1的修正项。
[0023]
在一个实施例中,根据所述词频、所述第一逆向文件频率以及所述第二逆向文件频率得到各个问题描述文本的特征词权重集,包括:
[0024]
根据特征词集中各特征词的词频、第一逆向文件频率以及第二逆向频率得到各个被检查单位问题描述文本的初始特征词权重集:
[0025][0026]
其中,w
pn
为第p个被检查单位中第n个特征项的权重,第p个被检查单位文本的初始特征词权重集为
[0027]
对初始特征词权重集的各个特征词权重进行归一化处理得到各个被检查单位问题描述文本的特征词权重集:
[0028][0029]
在一个实施例中,所述特征词权重集对多个问题描述文本进行聚类计算,得到多个问题描述文本簇以及对应的多个初始高关联度特征词集,包括:
[0030]
随机选择k个问题描述文本作为初始聚类质心,使用文本相似度计算方法计算每个问题描述文本与k个初始聚类质心之间的距离,选择距离最短的质心作为各个问题描述
文本的质心;
[0031]
依次计算具有同一个质心的问题描述文本到其他质心的距离,选择距离最短的质心作为该问题描述文本文本新的质心;
[0032]
循环执行上述最后两个步骤,直到质心不再变化,确定最终的多个问题描述文本簇以及对应的初始高关联度特征词集。在一个实施例中,所述计算初始高关联度特征词集中各特征词与问题描述文本簇的卡方统计量,根据所述卡方统计值得到各问题描述文本簇的精确高关联度特征词集,包括:
[0033][0034]
其中,χ2(tn,hk)为特征词tn与问题描述文本簇hk间的卡方统计量,hk为第k类问题描述文本簇,a是包含特征词tn且属于问题描述文本簇hk的文本数量,b是包含特征词tn但不属于问题描述文本簇hk的文本数量,c是不包含特征词tn但属于问题描述文本簇hk的文本数量,d是不包含特征词tn且不属于问题描述文本簇hk的文本数量,m=a+b+c+d是监督检查的问题描述文本总数。
[0035]
分别对各个问题描述文本簇的初始高关联度特征词集中的特征词的卡方统计量进行排列,对每个类别和特征词的χ2值进行降序排列,选择每个类别前10个特征词描述该类别。结合业务逻辑,根据每一类高关联度的特征词,对类别进行划分定义,得到最终的高关联度特征词集。
[0036]
一种基于聚类的文本监督检查装置,所述装置包括:
[0037]
获取模块,用于获取监督检查的问题清单;所述问题清单中包括多个被检查单位以及对应的多个问题描述文本;
[0038]
权重计算模块,用于对所述多个问题描述文本分别进行特征词提取,得到各个问题描述文本的特征词集,计算特征词集中各特征词在当前问题描述文中的词频、在所有问题描述文本中的第一逆向文件频率以及在所有被检查单位中的第二逆向文件频率,根据所述词频、所述第一逆向文件频率以及所述第二逆向文件频率得到各个问题描述文本的特征词权重集;
[0039]
聚类模块,用于根据所述特征词权重集对多个问题描述文本进行聚类计算,得到多个问题描述文本簇以及对应的多个初始高关联度特征词集;
[0040]
选择模块,用于计算初始高关联度特征词集中各特征词与问题描述文本簇的卡方统计量,根据所述卡方统计量得到各问题描述文本簇的精确高关联度特征词集。
[0041]
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0042]
获取监督检查的问题清单;所述问题清单中包括多个被检查单位以及对应的多个问题描述文本;
[0043]
对所述多个问题描述文本分别进行特征词提取,得到各个问题描述文本的特征词集,计算特征词集中各特征词在当前问题描述文中的词频、在所有问题描述文本中的第一逆向文件频率以及在所有被检查单位中的第二逆向文件频率,根据所述词频、所述第一逆向文件频率以及所述第二逆向文件频率得到各个问题描述文本的特征词权重集;
[0044]
根据所述特征词权重集对多个问题描述文本进行聚类计算,得到多个问题描述文
本簇以及对应的多个初始高关联度特征词集;
[0045]
计算初始高关联度特征词集中各特征词与问题描述文本簇的卡方统计量,根据所述卡方统计量得到各问题描述文本簇的精确高关联度特征词集。
[0046]
上述基于聚类的文本监督检查方法、装置和计算机设备,通过对问题清单中的多个问题描述文本分别进行特征词提取,得到对应的特征词集,分别计算各个特征词集中每个特征词在本问题描述文本中的词频,在所有问题描述文本中的第一逆向文件频率以及在所有被检查单位中第二逆向文件频率,以此得到各个问题描述文本的特征词权重集,由于问题清单中的被检查单位和问题描述文本为一对多的关系,在此综合考虑特征词在所有问题描述文本中的第一逆向文件频率和所有被检查单位中的第二逆向文件频率,使得特征词权重更为准确,为问题描述文本的聚类计算提供了准确的输入数据,得到多个问题描述文本簇以及对应的多个初始高关联度特征词集,最后根据卡方统计量优化初始高关联度特征词集得到精确高关联度特征词集,本方法通过改造特征词权重计算公式、采用聚类算法初步聚类、卡方统计优化聚类结果的两步计算法,节省计算资源的同时保证了结果的准确性。
[0047]
针对现有监督检查档案文本分析的信息化改造整理过程中,历史数据积累不足,智能化计算软硬件条件缺失,文本分析高度依赖人工识别判读和归纳整理的现状,本方法以对文本中问题描述的特征词智能归类为核心,设计实现了结构化文档构架、聚类分析和优化分类的全流程解决方案,为监督检查管理人员基于过往经验提供问题文本分析整理的智能助手,逐步引导非电子化向电子化智能化管理转型升级。本方法与现有技术相比,其显著优点:(1)可直接从离线电子化表格甚至纸质档案开始处理数据,可脱离信息系统独立运转。(2)对计算机软硬件环境配置要求不高,算法具有应用的普适性。(3)无论文本数据的积累情况是少还是多,都可以计算得到可解释的结果。(4)针对监督检查问题中被检查单位与问题文本一对多的情况,改造常规的tf-idf权重计算方程,综合考虑特征词在单一文本及在被检查单位文本簇中的词频,使特征词权重更为准确。(5)问题的分类先通过聚类算法初步分类,再通过卡方统计优化分类,两步走的处理既节约计算资源,又能保证结果的精确性。
附图说明
[0048]
图1为一个实施例中基于聚类的文本监督检查方法的流程示意图;
[0049]
图2为一个实施例中特征词权重集的计算流程示意图;
[0050]
图3为一个实施例中聚类计算的流程示意图;
[0051]
图4为一个实施例中选择计算的流程示意图;
[0052]
图5为一个实施例中基于聚类的文本监督检查装置的结构框图;
[0053]
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
[0054]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0055]
在一个实施例中,如图1所示,提供了一种基于聚类的文本监督检查方法,包括以
下步骤:
[0056]
步骤102,获取监督检查的问题清单。
[0057]
问题清单中包括多个被检查单位以及每个被检查单位对应的多个问题描述文本。
[0058]
问题清单可通过导入excel表格得到,该表格中包括监督检查发现的问题清单中的检查时间、被检查单位、检查项目、问题性质和具体表现(含原因分析)。本实施例中获取的问题清单可以通过表格形式呈现,将问题性质和具体表现的内容归于一列,命名为问题描述文本,被检查单位为另一列,每一行包括不同的被检查单位以及对应的问题描述文本,被检查单位和问题描述文本为一对多的关系。
[0059]
步骤104,对各个被检查单位的多个问题描述文本分别进行特征词提取,得到各个问题描述文本的特征词集,计算特征词集中各特征词在当前问题描述文中的词频、在所有问题描述文本中的第一逆向文件频率以及在所有检查项目中的第二逆向文件频率,根据词频、第一逆向文件频率以及第二逆向文件频率得到各个问题描述文本的特征词权重集。
[0060]
根据预先设置的监督检查分词表,对多个问题描述文本进行分词处理得到各个问题描述文本的初始特征词集,根据预先设置的过滤词表剔除各初始特征词集中的停用词和错误分词,得到处理后的特征词集。
[0061]
根据词频、第一逆向文件频率以及第二逆向文件频率得到各个被检查单位问题描述文本的特征词权重集。特征词在所有问题描述文本中的第一逆向文件频率反映了该特征词在问题描述文本中的重要程度,同理,特征词在所有被检查单位中的第二逆向文件频率反映了该特征词在被检查单位中的重要程度。
[0062]
由于问题清单中的被检查单位和问题描述文本为一对多的关系,在此综合考虑特征词在所有问题描述文本中的第一逆向文件频率和所有被检查单位中的第二逆向文件频率,使得特征词权重更为准确,为后续问题描述文本的聚类计算提供了准确的输入数据。
[0063]
步骤106,根据特征词权重集对多个被检查单位问题描述文本进行聚类计算,得到多个问题描述文本簇以及对应的多个初始高关联度特征词集。
[0064]
根据问题描述文本自身的特点,合适的目标聚类数为3~10个,每个簇的初始高关联度特征词集中的特征词数量不超过20个,判定聚类是否结果迭代的根据是是否符合具体监督检查业务的需要。
[0065]
步骤108,计算初始高关联度特征词集中各特征词与问题描述文本簇的卡方统计量,根据卡方统计量得到各问题描述文本簇的精确高关联度特征词集。
[0066]
对每个簇和特征词的卡方统计量进行排列,根据排名选择预设数量的特征词对对应的簇进行描述,结合业务逻辑,根据每一簇的高关联度特征词集对问题描述文本簇进行划分定义,得到检查问题描述文本簇的精确高关联度特征词集。
[0067]
上述基于聚类的文本监督检查方法,通过对问题清单中的多个问题描述文本分别进行特征词提取,得到对应的特征词集,分别计算各个特征词集中每个特征词在本问题描述文本中的词频,在所有问题描述文本中的第一逆向文件频率以及在所有被检查单位中第二逆向文件频率,以此得到各个问题描述文本的特征词权重集,由于问题清单中的被检查单位和问题描述文本为一对多的关系,在此综合考虑特征词在所有问题描述文本中的第一逆向文件频率和所有被检查单位中的第二逆向文件频率,使得特征词权重更为准确,为问题描述文本的聚类计算提供了准确的输入数据,得到多个问题描述文本簇以及对应的多个
初始高关联度特征词集,最后根据卡方统计量优化初始高关联度特征词集得到精确高关联度特征词集,本方法通过改造特征词权重计算公式、采用聚类算法初步聚类、卡方统计优化聚类结果的两步计算法,节省计算资源的同时保证了结果的准确性。
[0068]
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0069]
在一个实施例中,如图2所示,提供了特征词权重集的计算流程,包括以下步骤:
[0070]
步骤202,计算特征词集中各特征词在当前问题描述文中的词频、在所有问题描述文本中的第一逆向文件频率以及在所有被检查单位中的第二逆向文件频率。
[0071]
对于每一个被检查单位,计算特征词集中各特征词在当前问题描述文本中的词频:
[0072][0073]
其中,tf(m,n)为第n个特征词在第m篇问题描述文本中的词频,f(m,n)表示在第m篇文本中第n个特征词出现的次数,km表示第m篇问题描述文本中的总词数。
[0074]
考虑到文本越长,某一特征词在其对应的问题描述文本的特征词集的词频越大,为了降低长短文本的词频计算的不平衡,即为了减少对长文本的偏向,本方法将问题描述文本的总词数作为分母。
[0075]
计算特征词集中各特征词在所有问题描述文本中的第一逆向文件频率:
[0076][0077]
其中,idfm(n)表示第n个特征词的第一逆向文件频率,mn表示问题描述文本的总数量,mn表示包含第n个特征词的问题描述文本的数量,为避免出现log函数分母为零的情况,所以在mn之后加上1的修正项;
[0078]
计算特征词集中各特征词在所有被检查单位中的第二逆向文件频率:
[0079][0080]
其中,idf
p
(n)表示第n个特征词的第二逆向文件频率,pn表示被检查单位总数量,pn表示包含第n个特征词的被检查单位数量,同样在pn之后加上1的修正项。
[0081]
步骤204,根据特征词集中各特征词的词频、第一逆向文件频率以及第二逆向频率得到各个描述文本的初始特征词权重集:
[0082][0083]
其中,w
pn
为第p个被检查单位中第n个特征项的权重,第p个被检查单位文本的初始
特征词权重集为
[0084]
步骤206,对初始特征词权重集的各个特征词权重进行归一化处理得到各个被检查单位问题描述文本的特征词权重集:
[0085][0086]
在一个实施例中,如图3所示,提供聚类计算的流程示意图。特征词权重集对多个问题描述文本进行聚类计算,得到多个问题描述文本簇以及对应的多个初始高关联度特征词集,包括:
[0087]
步骤302,使用skip-gram词向量模型对分词后得到的高关联度特征词集语料库进行训练,得到每个特征词的词向量。
[0088]
步骤304,对每个文本进行特征词词频、位置和词距信息的计算。
[0089]
步骤306,随机选择k个文本作为初始聚类质心,合适的目标聚类数为3~10个,每个簇的初始高关联度特征词集中的特征词数量不超过20个,使用文本相似度计算方法计算每个文本与这k个聚类质心之间的距离,选择距离最短的质心作为自己的质心。
[0090]
步骤308,依次计算具有同一个质心的文本到其他质心的距离,选择距离最短的质心作为该文本新的质心。
[0091]
步骤310,循环执行上述最后两个步骤,直到质心不再变化,最终确定最终的多个问题描述文本簇以及对应的初始高关联度特征词集。
[0092]
在一个实施例中,如图4所示,提供选择计算的流程示意图。计算初始高关联度特征词集中各特征词与问题描述文本簇的卡方统计量,根据所述卡方统计值得到各问题描述文本簇的精确高关联度特征词集,包括:
[0093]
步骤402,计算初始高关联度特征词集中各特征词与问题描述文本簇的卡方统计量。
[0094][0095]
其中,χ2(tn,hk)为特征词tn与问题描述文本簇hk间的卡方统计量,hk为第k类问题描述文本簇,a是包含特征词tn且属于问题描述文本簇hk的文本数量,b是包含特征词tn但不属于问题描述文本簇hk的文本数量,c是不包含特征词tn但属于问题描述文本簇hk的文本数量,d是不包含特征词tn且不属于问题描述文本簇hk的文本数量,m=a+b+c+d是监督检查的问题描述文本总数。
[0096]
步骤404,分别对各个问题描述文本簇的初始高关联度特征词集中的特征词的卡方统计量进行排列,对每个类别和特征词的χ2值进行降序排列,选择每个类别前10个特征词描述该类别。
[0097]
步骤406,结合业务逻辑,根据每一类高关联度的特征词,对类别进行划分定义,得到最终的高关联度特征词集。
[0098]
在一个实施例中,如图5所示,提供了一种基于聚类的文本监督检查装置,包括获取模块、权重计算模块、聚类模块和选择模块,其中:
[0099]
获取模块,用于获取监督检查的问题清单;问题清单中包括多个被检查单位以及对应的多个问题描述文本;
[0100]
权重计算模块,用于对多个问题描述文本分别进行特征词提取,得到各个问题描述文本的特征词集,计算特征词集中各特征词在当前问题描述文中的词频、在所有问题描述文本中的第一逆向文件频率以及在所有被检查单位中的第二逆向文件频率,根据词频、第一逆向文件频率以及第二逆向文件频率得到各个问题描述文本的特征词权重集;
[0101]
聚类模块,用于根据特征词权重集对多个问题描述文本进行聚类计算,得到多个问题描述文本簇以及对应的多个初始高关联度特征词集;
[0102]
选择模块,用于计算初始高关联度特征词集中各特征词与问题描述文本簇的卡方统计量,根据卡方统计量得到各问题描述文本簇的精确高关联度特征词集。
[0103]
关于基于聚类的文本监督检查装置的具体限定可以参见上文中对于基于聚类的文本监督检查方法的限定,在此不再赘述。上述基于聚类的文本监督检查装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0104]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储问题清单数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于聚类的文本监督检查方法。
[0105]
本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0106]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0107]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
技术特征:1.一种基于聚类的文本监督检查方法,其特征在于,所述方法包括:获取监督检查的问题清单;所述问题清单中包括多个被检查单位以及每个被检查单位对应的多个问题描述文本;对各个所述被检查单位的多个问题描述文本分别进行特征词提取,得到各个所述问题描述文本的特征词集,计算特征词集中各特征词在当前问题描述文中的词频、在所有问题描述文本中的第一逆向文件频率以及在所有被检查单位中的第二逆向文件频率,根据所述词频、所述第一逆向文件频率以及所述第二逆向文件频率得到各个问题描述文本的特征词权重集;根据所述特征词权重集对多个问题描述文本进行聚类计算,得到多个问题描述文本簇以及对应的多个初始高关联度特征词集;计算初始高关联度特征词集中各特征词与问题描述文本簇的卡方统计量,根据所述卡方统计量得到检查问题描述文本簇的精确高关联度特征词集。2.根据权利要求1所述的方法,其特征在于,对多个问题描述文本分别进行特征词提取,得到各个所述描述文本的特征词集,包括:根据预先设置的监督检查分词表,对所述多个问题描述文本进行分词处理得到各个问题描述文本的初始特征词集;根据预先设置的过滤词表剔除各第一特征词集中的停用词和错误分词,得到经过处理的特征词集。3.根据权利要求1所述的方法,其特征在于,所述计算特征词集中各特征词在当前问题描述文中的词频、在所有问题描述文本中的第一逆向文件频率以及在所有被检查单位中的第二逆向文件频率,包括:对于每一个被检查单位,计算特征词集中各特征词在当前问题描述文本中的词频:其中,tf(m,n)为第n个特征词在第m篇问题描述文本中的词频,f(m,n)表示在第m篇文本中第n个特征词出现的次数,k
m
表示第m篇问题描述文本中的总词数;计算特征词集中各特征词在所有问题描述文本中的第一逆向文件频率:其中,idf
m
(n)表示第n个特征词的第一逆向文件频率,m
n
表示问题描述文本的总数量,m
n
表示包含第n个特征词的问题描述文本的数量,为避免出现log函数分母为零的情况,在m
n
之后加上1的修正项;计算特征词集中各特征词在所有被检查单位中的第二逆向文件频率:其中,idf
p
(n)表示第n个特征词的第二逆向文件频率,p
n
表示被检查单位总数量,p
n
表示包含第n个特征词的被检查单位数量,在p
n
之后加上1的修正项。4.根据权利要求3所述的方法,其特征在于,根据所述词频、所述第一逆向文件频率以
及所述第二逆向文件频率得到各个问题描述文本的特征词权重集,包括:根据特征词集中各特征词的词频、第一逆向文件频率以及第二逆向频率得到各个被检查单位问题描述文本的初始特征词权重集:其中,w
pn
为第p个被检查单位中第n个特征项的权重,第p个被检查单位文本的初始特征词权重集为对所述初始特征词权重集的各个特征词权重进行归一化处理得到各个被检查单位问题描述文本的特征词权重集:。5.根据权利要求1所述的方法,其特征在于,根据所述特征词权重集对多个问题描述文本进行聚类计算,得到多个问题描述文本簇以及对应的多个初始高关联度特征词集,包括:随机选择k个问题描述文本作为初始聚类质心,使用文本相似度计算方法计算每个问题描述文本与k个初始聚类质心之间的距离,选择距离最短的质心作为各个问题描述文本的质心;依次计算具有同一个质心的问题描述文本到其他质心的距离,选择距离最短的质心作为该问题描述文本文本新的质心;循环执行上述最后两个步骤,直到质心不再变化,确定最终的多个问题描述文本簇以及对应的初始高关联度特征词集。6.根据权利要求5所述的方法,其特征在于,所述计算初始高关联度特征词集中各特征词与问题描述文本簇的卡方统计量,根据所述卡方统计值得到各问题描述文本簇的精确高关联度特征词集,包括:其中,χ2(t
n
,h
k
)为特征词t
n
与问题描述文本簇h
k
间的卡方统计量,h
k
为第k类问题描述文本簇,a是包含特征词t
n
且属于问题描述文本簇h
k
的文本数量,b是包含特征词t
n
但不属于问题描述文本簇h
k
的文本数量,c是不包含特征词t
n
但属于问题描述文本簇h
k
的文本数量,d是不包含特征词t
n
且不属于问题描述文本簇h
k
的文本数量,m=a+b+c+d是监督检查的问题描述文本总数。分别对各个问题描述文本簇的初始高关联度特征词集中的特征词的卡方统计量进行排列,对每个类别和特征词的χ2值进行降序排列,选择每个类别前p个特征词描述该类别。结合业务逻辑,根据每一类高关联度的特征词,对类别进行划分定义,得到最终的高关联度特征词集。7.一种基于聚类的文本监督检查装置,其特征在于,所述装置包括:获取模块,用于获取监督检查的问题清单;所述问题清单中包括多个被检查单位以及
对应的多个问题描述文本;权重计算模块,用于对各个所述被检查单位的多个问题描述文本分别进行特征词提取,得到各个所述问题描述文本的特征词集,计算特征词集中各特征词在当前问题描述文中的词频、在所有问题描述文本中的第一逆向文件频率以及在所有被检查单位中的第二逆向文件频率,根据所述词频、所述第一逆向文件频率以及所述第二逆向文件频率得到各个问题描述文本的特征词权重集;聚类模块,用于根据所述特征词权重集对多个问题描述文本进行聚类计算,得到多个问题描述文本簇以及对应的多个初始高关联度特征词集;选择模块,用于计算初始高关联度特征词集中各特征词与问题描述文本簇的卡方统计量,根据所述卡方统计量得到各问题描述文本簇的精确高关联度特征词集。8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
技术总结本申请涉及一种基于聚类的文本监督检查方法、装置和计算机设备,通过对问题清单中的多个问题描述文本分别进行特征词提取得到对应的特征词集,分别计算各个特征词集中每个特征词在本问题描述文本中的词频,在所有问题描述文本中的第一逆向文件频率以及在所有被检查单位中第二逆向文件频率,得到各个被检查单位问题描述文本的特征词权重集,通过聚类得到多个问题描述文本簇以及对应的多个初始高关联度特征词集,最后根据卡方统计量优化初始高关联度特征词集得到精确高关联度特征词集,本方法通过优化特征词权重计算、采用聚类算法初步聚类、卡方统计优化聚类结果,节省计算资源的同时保证了结果的准确性。的同时保证了结果的准确性。的同时保证了结果的准确性。
技术研发人员:戴超凡 张勇 徐珂
受保护的技术使用者:中国人民解放军国防科技大学
技术研发日:2022.07.21
技术公布日:2022/11/1