1.本发明实施例涉及应用文字识别技术领域,尤其涉及一种文件处理方法、装置、电子设备及存储介质。
背景技术:2.企业在日常运营过程中会产生大量的归档公文文件,这些文件是企业的宝贵资源,但由于归档公文文件基本上都是图片或pdf格式,不方便查阅,从而导致这些资源不能被高效的利用和分析。
3.由于近些年ocr文字识别技术日益完善,已经可以很方便的对图片和pdf文件进行提取,解决了公文信息的高效检索和便利查阅的问题。但针对如何进一步提取公文关键词和对关键词进行自动聚合分类分析的问题是本领域技术人员亟待解决的技术问题。
技术实现要素:4.本发明实施例提供了一种文件处理方法、装置、电子设备及存储介质,提高了文件处理与定向查询应用的效率。
5.第一方面,本发明实施例提供了一种文件处理方法,包括:
6.获取待处理文件,并将所述待处理文件进行解析确定所述待处理文件的属性信息;其中,所述属性信息包括待处理文件的标题、正文以及段落;
7.获取所述待处理文件正文的关键词,并将所述关键词进行定义、维护以及更新;
8.依据关键词相似度确定所述关键词所属主题词,并将所述关键词自动分类;其中,所述主题词包括至少两个关键词。
9.第二方面,本发明实施例还提供了一种文件处理装置,包括:
10.文件获取模块,用于获取待处理文件,并将所述待处理文件进行解析确定所述待处理文件的属性信息;其中,所述属性信息包括待处理文件的标题、正文以及段落;
11.关键词提取模块,用于获取所述待处理文件正文的关键词,并将所述关键词进行定义、维护以及更新;
12.关键词分类模块,用于依据关键词相似度确定所述关键词所属主题词,并将所述关键词自动分类;其中,所述主题词包括至少两个关键词。
13.第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
14.一个或多个处理器;
15.存储装置,用于存储一个或多个程序;
16.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的文件处理方法。
17.第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的文件处理方法。
18.本发明实施例提供了一种文件处理方法、装置、电子设备和存储介质,通过获取待
处理文件,并将所述待处理文件进行解析确定所述待处理文件的属性信息;其中,所述属性信息包括待处理文件的标题、正文以及段落;获取所述待处理文件正文的关键词,并将所述关键词进行定义、维护以及更新;依据关键词相似度确定所述关键词所属主题词,并将所述关键词自动分类;其中,所述主题词包括至少两个关键词。采用本发明实施例的技术方案,提取文件关键词并对所述关键词进行分类,依据关键词对文件进行处理以及检索,提高了文件处理与定向查询应用效率。
附图说明
19.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
20.图1是本发明实施例一提供的一种文件处理方法的流程图;
21.图2a为本发明实施例二提供的一种文件处理方法的流程图;
22.图2b是本发明实施例提供的一种基于ocr技术的文件处理方法及应用的结构示意图;
23.图3是本发明实施例三提供的一种文件处理装置的结构示意图;
24.图4是本技术实施例四提供的一种电子设备的结构示意图。
具体实施方式
25.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
26.在更加详细地讨论示例性实施例之前,应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作(或步骤)可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
27.实施例一
28.图1是本发明实施例一提供的一种文件处理方法的流程图,本实施例可适用于对文件进行处理的情况,本实施例的方法可以由文件处理装置来执行,该装置可以采用硬件和/或软件的方式来实现。该装置可以配置于文件处理的服务器中。该方法具体包括如下步骤:
29.s110、获取待处理文件,并将所述待处理文件进行解析确定所述待处理文件的属性信息。
30.其中,所述待处理文件包括但不限于公文文件、论文以及其他文件。将所述待处理文件进行解析并获取所述待处理文件的属性信息;其中,所述属性信息包括但不限于待处理文件的标题、正文以及段落。
31.可选的,所述获取待处理文件,并将所述待处理文件进行解析确定所述待处理文件的属性信息,包括:
32.通过文件源数据接口获取待处理文件,并将所述待处理文件保存至文件待解析库;
33.实时获取增量文件,并将所述增量文件保存至文件待解析库。
34.可选的,所述获取待处理文件,并将所述待处理文件进行解析确定所述待处理文件的属性信息,还包括:
35.对所述待处理文件进行预处理;所述预处理包括灰度化、二值化、降噪、字符切分以及归一化;
36.将预处理后的待处理文件进行文字检测以及特征提取,确定所述待处理文件的属性信息。
37.其中,对接文件源数据接口,通过数据接口将全量或增量数据同步至待解析库。采用光学字符识别(optical character recognition,ocr)技术对待处理文件进行解析,先对待处理文件进行预处理,通过灰度化、二值化、降噪(例如,经过8邻域降噪以及连通域降噪算法进行双重降噪)、字符切分以及归一化等处理,确保待处理文件内容的规整;然后进行文字检测以及特征提取,并基于分类器训练结果集进行文本识别,其中识别过程主要采用crnn ocr技术,通过卷积层cnn、循环层rnn以及转录层ctc三层网络结构提取所述带处理文件的属性信息。
38.在本发明实施例的一种可选方案中,通过封装的ocr识别能力对各类待处理文件进行结构化识别,并获取所述待处理文件的标题、正文、页眉、页脚、页码和脚注等信息。
39.s120、获取所述待处理文件正文的关键词,并将所述关键词进行定义、维护以及更新。
40.其中,关键词可以是指待处理文件正文的关键词,通过自然语言技术提取所述待处理文件的关键词,并将所述待处理文件的关键词进行定义、维护以及更新。其中,所述自然语言技术可以是指将所述待处理文件正文内容拆解为至少两个词语,获取所述至少两个词语在正文中出现的次数;若第一词语在正文中出现的次数大于预设阈值,则将所述第一词语作为关键词;若第二词语在正文中出现的次数小于预设阈值,则所述第二词语将不作为关键词,其中,所述至少两个关键词包括但不限于第一词语以及第二词语。
41.可以理解的是,第一词语可以是一种代指,是为了区分实施例中前后出现执行对应逻辑的不同词语,从词语中选取的任意词语,以便从选取的词语阐述执行逻辑,因此将在本文中首次出现的词语称为第一词语,将后续出现的区别于第一词语的其他词语称为第二词语,后面不再赘述。
42.将所述关键词进行定义,在查看文件时点击所述关键词可显示所述关键词相关解释,以便工作人员查阅以及理解所述待处理文件。将所述关键词进行维护以及更新,及时更新关键词的相关解释信息以及对新增的关键词进行定义。对所述关键词进行定义、维护以及更新便于基于待处理文件涉事领域和方向建立分类标签。
43.s130、依据关键词相似度确定所述关键词所属主题词,并将所述关键词自动分类。
44.其中,主题词可以是指在标引和检索中用以表达文献主题的人工语言,具有概念化和规范化的特征;例如,在对文件进行检索时,输入能够概括文件中心的词语,以搜索相关文件。所述主题词包括至少两个关键词,例如主题词可以是文件检索,关键词包括但不限于标题、作者以及文件名称。
45.依据关键词与主题词内各关键词的相似度,确定所述关键词与主题词间的相似度,并将所述关键词进行自动分类。例如通过v=(∑vi1
×
0.2+∑vi2
×
0.5+∑vi3
×
1)确定所述关键词与所述主题词间的目标相似度;其中,所述v表征所述关键词与主题词间的目标相似度值,vi1表征相似度值小于第一预设阈值的相似度值,vi2表征相似度值大于第一预设阈值且小于第二预设阈值的相似度值,vi3表征相似度值大于第二预设阈值的相似度值;所述第二阈值大于第一阈值。若所述目标相似度值大于预设目标相似度阈值,则将所述关键词归类于所述主题词,例如,经过计算所述目标相似度值为0.7,所述目标相似度值大于预设目标相似度阈值(例如0.5),则将所述关键词归属为所述主题词。
46.其中,本技术技术方案中对文件信息的获取、存储、使用以及处理等均符合国家法律法规的相关规定。
47.本发明实施例提供了一种文件处理方法、装置、电子设备和存储介质,通过获取待处理文件,并将所述待处理文件进行解析确定所述待处理文件的属性信息;其中,所述属性信息包括待处理文件的标题、正文以及段落;获取所述待处理文件正文的关键词,并将所述关键词进行定义、维护以及更新;依据关键词相似度确定所述关键词所属主题词,并将所述关键词自动分类;其中,所述主题词包括至少两个关键词。采用本发明实施例的技术方案,采用光学字符识别技术对待处理文件进行解析,获取所述待处理文件的属性信息;通过自然语言技术提取所述待处理文件的关键词,并将所述待处理文件的关键词进行定义、维护以及更新,便于基于待处理文件涉事领域和方向建立分类标签;依据关键词相似度,对所述关键词进行分类,并将所述关键词自动确定所述主题词,提高了文件处理的速度。
48.实施例二
49.图2a为本发明实施例二提供的一种文件处理方法的流程图。本发明实施例在上述实施例的基础上对前述实施例进行进一步优化,本发明实施例可以与上述一个或者多个实施例中各个可选方案结合。如图2a所示,本发明实施例中提供的文件处理方法,可包括以下步骤:
50.s210、获取待处理文件,并将所述待处理文件进行解析确定所述待处理文件的属性信息。
51.图2b是本发明实施例提供的一种基于ocr技术的文件处理方法及应用的结构示意图,参见图2b,通过文件源数据接口获取待处理文件,并将所述待处理文件保存至文件待解析库;对所述待处理文件进行解析并对所述结构化数据进行提取,其中,所述属性信息包括结构化数据,例如标题、正文、页眉、页脚、页码和脚注等结构化数据。
52.s220、获取所述待处理文件正文的关键词,并将所述关键词进行定义、维护以及更新。
53.其中,对所述待处理文件的正文进行关键词提取并建立检索索引,所述检索索引可以是指通过点击关键词显示关键词相关解释信息。
54.可选的,所述获取所述待处理文件的关键词,并将所述关键词进行定义、维护以及更新,包括:
55.对所述待处理文件的正文进行关键词提取,并建立文件关键词库;
56.对所述关键词进行分类,并将所述关键词进行定义、维护与更新;其中,所述更新包括将增量文件所提取的关键词更新至文件关键词库;关键词类型包括字符识别自动提取
类、业务通用类以及黑名单类。
57.基于自然语言技术,实现对待处理文件文本内容关键词提取,建立待处理文件关键词库,便于基于文件涉事领域和方向建立分类标签。汇聚管理文件所有关键词,实现关键词定义、维护与更新。关键词类型包括但不限于字符识别自动提取类、业务通用类以及黑名单类,完美覆盖待处理文件各类业务场景。
58.s230、依据关键词相似度确定所述关键词所属主题词,并将所述关键词自动分类。
59.其中,基于自动归类主题词模型,实现同义和同类关键聚类,便于同类待处理文件聚类展示和研判分析;一个主题词可以关联多个关键词,相当于一个关键词的分组,并且一个关键词只会归类到一个主题词。系统初始建立有一个基础的主题词-关键词关联库,针对系统增量待处理文件的关键词,系统支持自动归类到所属主题词,并支持手动修改。
60.可选的,所述依据关键词相似度确定所述关键词所属主题词,并将所述关键词自动分类,包括:
61.将所述关键词分别与主题词内各关键词进行相似度计算,确定所述关键词与主题词内各关键词的相似度值;
62.依据所述关键词与主题词内各关键词的相似度值,确定所述关键词与主题词间的目标相似度,并将所述关键词自动归类至所属主题词。
63.可选的,所述依据所述关键词与主题词内各关键词的相似度值,确定所述关键词与主题词间的目标相似度,并将所述关键词自动归类至所属主题词,包括:
64.依据所述关键词与主题词内各关键词的相似度值,采用v=(∑vi1
×
0.2+∑vi2
×
0.5+∑vi3
×
1)确定所述关键词与所述主题词间的目标相似度;其中,所述v表征所述关键词与主题词间的目标相似度值,vi1表征相似度值小于第一预设阈值的相似度值,vi2表征相似度值大于第一预设阈值且小于第二预设阈值的相似度值,vi3表征相似度值大于第二预设阈值的相似度值;所述第二阈值大于第一阈值;
65.若所述目标相似度值大于预设目标相似度阈值,则将所述关键词归类于所述主题词。
66.其中,自动归类模型为:将关键词与主题词-关键词关联库中的数据进行比对,例如在分组1中有5个关键词,分别进行相似度计算(例如,采用jarowinkler算法和同义词基础库进行综合计算),相似度值分别为0.9、0.2、0、0以及0,在分组2中有7个关键词,相似度值分别为0.7、0.6、0.3、0、0、0以及0,这时候,我们将相似度值小于0.6的相似度值作为vi1,大于等于0.6小于0.9的相似度值作为vi2,大于等于0.9的相似度值作为vi3,目标相似度为v,则根据(∑vi1*0.2+∑vi2*0.5+∑vi3*1)进行计算,则分组1的计算结果是0.9*1+(0.2+0+0+0)*0.2)=0.94,分组2的计算结果是(0.7+0.6)*0.5+(0.3+0+0+0+0)*0.2=0.71,0.94大于0.71并且大于预设目标相似度阈值0.5,则归类到分组1。
67.若经过计算,所有组的目标相似度值都小于0.5,则不自动关联到主题词,需要手动进行管理;例如,关键词与分组1的相似度值分别为0.9、0.2、0、0以及0,与分组2的相似度值分别为0.7、0.6、0.3、0、0、0以及0,经过计算,所述关键词与分组1以及分组2的目标相似度值都小于预设目标相似度阈值0.5,则确定所述关键词与分组内相似度值最高的分组,即分组1中与关键词相似度值最高的为0.9,则将所述关键词手动添加至分组1中。
68.s240、对所述待处理文件进行多维度检索确定检索文件,并显示检索结果。
69.其中,所述多维度检索包括依据待处理文件的标题、关键词以及主题词进行多维度检索;所述检索文件按匹配度从高到低显示。
70.在本发明实施例的一种可选方案中,通过ocr技术,实现对各种格式的公文文件的识别解析并返回结构化数据,满足单位对公文存档、辅助办文和检索需求。提供公文标题、正文以及关键词等多维度检索条件,检索结果按照匹配度从高到低展示。
71.在本发明实施例的一种可选方案中,通过构建整合公文基础数据资源,形成以人、事以及地等要素的业务数据专题库,在解析结果页面,展示程序自动提取的关键词,同时支持手动选定词汇关联查询,实现公文关联信息查询、研判分析以及辅助决策。
72.在本发明实施例的一种可选方案中,基于解析结果和结构化数据,支持自动和手动设置公文数据收录方案,系统将自动收录相关公文。同时基于ocr进行文本分析,建立对应专题分析库,为各部门提供指定专题分析提供辅助支撑。
73.本发明提供了一种文件处理方法,通过获取待处理文件存量和增量数据,基于ocr技术对待处理文件进行文本解析;根据待处理文件内容规范,建立结构化数据提取模型;基于自然语言处理技术和数据提取模型,实现待处理文件信息关键字解析及标签化处理;将解析结果与提取信息存储入库并建立检索索引,实现全文检索与相关内容推荐;基于结构化数据与标签化处理,构建文件专题并实现研判分析应用;本发明基于ocr技术实现内部结构化数据和非结构化数据的融合汇聚,为业务部门在提供智能检索、研判分析以及辅助决策等功能,提高了文件处理与定向查询应用的效率。
74.实施例三
75.图3是本发明实施例三提供的一种文件处理装置的结构示意图,该装置包括:文件获取模块310、关键词提取模块320以及关键词分类模块330。其中:
76.文件获取模块310,用于获取待处理文件,并将所述待处理文件进行解析确定所述待处理文件的属性信息;其中,所述属性信息包括待处理文件的标题、正文以及段落;
77.关键词提取模块320,用于获取所述待处理文件正文的关键词,并将所述关键词进行定义、维护以及更新;
78.关键词分类模块330,用于依据关键词相似度确定所述关键词所属主题词,并将所述关键词自动分类;其中,所述主题词包括至少两个关键词。
79.在上述实施例的基础上,可选的,所述文件获取模块,包括:
80.通过文件源数据接口获取待处理文件,并将所述待处理文件保存至文件待解析库;
81.实时获取增量文件,并将所述增量文件保存至文件待解析库。
82.在上述实施例的基础上,可选的,所述文件获取模块,还包括:
83.对所述待处理文件进行预处理;所述预处理包括灰度化、二值化、降噪、字符切分以及归一化;
84.将预处理后的待处理文件进行文字检测以及特征提取,确定所述待处理文件的属性信息。
85.在上述实施例的基础上,可选的,所述关键词提取模块,包括:
86.对所述待处理文件的正文进行关键词提取,并建立文件关键词库;
87.对所述关键词进行分类,并将所述关键词进行定义、维护与更新;其中,所述更新
包括将增量文件所提取的关键词更新至文件关键词库;关键词类型包括字符识别自动提取类、业务通用类以及黑名单类。
88.在上述实施例的基础上,可选的,所述关键词分类模块,包括:
89.将所述关键词分别与主题词内各关键词进行相似度计算,确定所述关键词与主题词内各关键词的相似度值;
90.依据所述关键词与主题词内各关键词的相似度值,确定所述关键词与主题词间的目标相似度,并将所述关键词自动归类至所属主题词。
91.在上述实施例的基础上,可选的,所述关键词分类模块,还包括:
92.依据所述关键词与主题词内各关键词的相似度值,采用v=(∑vi1
×
0.2+∑vi2
×
0.5+∑vi3
×
1)确定所述关键词与所述主题词间的目标相似度;其中,所述v表征所述关键词与主题词间的目标相似度值,vi1表征相似度值小于第一预设阈值的相似度值,vi2表征相似度值大于第一预设阈值且小于第二预设阈值的相似度值,vi3表征相似度值大于第二预设阈值的相似度值;所述第二阈值大于第一阈值;
93.若所述目标相似度值大于预设目标相似度阈值,则将所述关键词归类于所述主题词。
94.在上述实施例的基础上,可选的,所述方法还包括:
95.文件检索模块,用于对所述待处理文件进行多维度检索确定检索文件,并显示检索结果;其中,所述多维度检索包括依据待处理文件的标题、关键词以及主题词进行多维度检索;所述检索文件按匹配度从高到低显示。
96.上述装置可执行本发明任意实施例所提供的文件处理方法,具备执行该文件处理方法相应的功能模块和有益效果。
97.实施例四
98.图4是本技术实施例四提供的一种电子设备的结构示意图。本技术实施例提供了一种电子设备,该电子设备中可集成本技术实施例提供的文件处理的互动装置。如图4所示,本实施例提供了一种电子设备400,其包括:一个或多个处理器420;存储装置410,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器420执行,使得所述一个或多个处理器420实现本技术实施例所提供的文件处理方法,该方法包括:
99.获取待处理文件,并将所述待处理文件进行解析确定所述待处理文件的属性信息;其中,所述属性信息包括待处理文件的标题、正文以及段落;
100.获取所述待处理文件正文的关键词,并将所述关键词进行定义、维护以及更新;
101.依据关键词相似度确定所述关键词所属主题词,并将所述关键词自动分类;其中,所述主题词包括至少两个关键词。
102.当然,本领域技术人员可以理解,处理器420还实现本技术任意实施例所提供的文件处理方法的技术方案。
103.图4显示的电子设备400仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
104.如图4所示,该电子设备400包括处理器420、存储装置410、输入装置430和输出装置440;电子设备中处理器420的数量可以是一个或多个,图4中以一个处理器420为例;电子设备中的处理器420、存储装置410、输入装置430和输出装置440可以通过总线或其他方式
连接,图4中以通过总线450连接为例。
105.存储装置410作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块单元,如本技术实施例中的文件处理方法对应的程序指令。
106.存储装置410可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置410可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置410可进一步包括相对于处理器420远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
107.输入装置430可用于接收输入的数字、字符信息或语音信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏、扬声器等电子设备。
108.本技术实施例提供的电子设备,可以达到有效解决文件处理难题,并提高文件处理与定向查询应用效率的技术效果。
109.实施例五
110.本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种文件处理方法,该方法包括:
111.获取待处理文件,并将所述待处理文件进行解析确定所述待处理文件的属性信息;其中,所述属性信息包括待处理文件的标题、正文以及段落;
112.获取所述待处理文件正文的关键词,并将所述关键词进行定义、维护以及更新;
113.依据关键词相似度确定所述关键词所属主题词,并将所述关键词自动分类;其中,所述主题词包括至少两个关键词。
114.本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(random access memory,ram)、只读存储器(read only memory,rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式cd-rom、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
115.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
116.计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、无线电频率(radiofrequency,rf)等等,或者上述的任意合适的组合。
117.可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机
程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
118.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
119.注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
技术特征:1.一种文件处理方法,其特征在于,所述方法包括:获取待处理文件,并将所述待处理文件进行解析确定所述待处理文件的属性信息;其中,所述属性信息包括待处理文件的标题、正文以及段落;获取所述待处理文件正文的关键词,并将所述关键词进行定义、维护以及更新;依据关键词相似度确定所述关键词所属主题词,并将所述关键词自动分类;其中,所述主题词包括至少两个关键词。2.根据权利要求1所述的方法,其特征在于,所述获取待处理文件,并将所述待处理文件进行解析确定所述待处理文件的属性信息,包括:通过文件源数据接口获取待处理文件,并将所述待处理文件保存至文件待解析库;实时获取增量文件,并将所述增量文件保存至文件待解析库。3.根据权利要求1所述的方法,其特征在于,所述获取待处理文件,并将所述待处理文件进行解析确定所述待处理文件的属性信息,还包括:对所述待处理文件进行预处理;所述预处理包括灰度化、二值化、降噪、字符切分以及归一化;将预处理后的待处理文件进行文字检测以及特征提取,确定所述待处理文件的属性信息。4.根据权利要求1所述的方法,其特征在于,所述获取所述待处理文件的关键词,并将所述关键词进行定义、维护以及更新,包括:对所述待处理文件的正文进行关键词提取,并建立文件关键词库;对所述关键词进行分类,并将所述关键词进行定义、维护与更新;其中,所述更新包括将增量文件所提取的关键词更新至文件关键词库;关键词类型包括字符识别自动提取类、业务通用类以及黑名单类。5.根据权利要求1所述的方法,其特征在于,所述依据关键词相似度确定所述关键词所属主题词,并将所述关键词自动分类,包括:将所述关键词分别与主题词内各关键词进行相似度计算,确定所述关键词与主题词内各关键词的相似度值;依据所述关键词与主题词内各关键词的相似度值,确定所述关键词与主题词间的目标相似度,并将所述关键词自动归类至所属主题词。6.根据权利要求5所述的方法,其特征在于,所述依据所述关键词与主题词内各关键词的相似度值,确定所述关键词与主题词间的目标相似度,并将所述关键词自动归类至所属主题词,包括:依据所述关键词与主题词内各关键词的相似度值,采用v=(∑vi1
×
0.2+∑vi2
×
0.5+∑vi3
×
1)确定所述关键词与所述主题词间的目标相似度;其中,所述v表征所述关键词与主题词间的目标相似度值,vi1表征相似度值小于第一预设阈值的相似度值,vi2表征相似度值大于第一预设阈值且小于第二预设阈值的相似度值,vi3表征相似度值大于第二预设阈值的相似度值;所述第二阈值大于第一阈值;若所述目标相似度值大于预设目标相似度阈值,则将所述关键词归类于所述主题词。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述待处理文件进行多维度检索确定检索文件,并显示检索结果;其中,所述多维度
检索包括依据待处理文件的标题、关键词以及主题词进行多维度检索;所述检索文件按匹配度从高到低显示。8.一种文件处理装置,其特征在于,所述装置包括:文件获取模块,用于获取待处理文件,并将所述待处理文件进行解析确定所述待处理文件的属性信息;其中,所述属性信息包括待处理文件的标题、正文以及段落;关键词提取模块,用于获取所述待处理文件正文的关键词,并将所述关键词进行定义、维护以及更新;关键词分类模块,用于依据关键词相似度确定所述关键词所属主题词,并将所述关键词自动分类;其中,所述主题词包括至少两个关键词。9.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1-7中任一所述的文件处理方法。10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的文件处理方法。
技术总结本发明实施例公开了一种文件处理方法、装置、电子设备及存储介质。该方法包括:获取待处理文件,并将所述待处理文件进行解析确定所述待处理文件的属性信息;其中,所述属性信息包括待处理文件的标题、正文以及段落;获取所述待处理文件正文的关键词,并将所述关键词进行定义、维护以及更新;依据关键词相似度确定所述关键词所属主题词,并将所述关键词自动分类;其中,所述主题词包括至少两个关键词。采用本发明实施例的技术方案,提取文件关键词并对所述关键词进行分类,依据关键词对文件进行处理以及检索,提高了文件处理与定向查询应用效率。率。率。
技术研发人员:颜煦阳
受保护的技术使用者:广东省综治信息中心
技术研发日:2022.05.31
技术公布日:2022/11/1