一种文本处理方法、装置、设备及存储介质与流程

专利2023-02-23  112



1.本发明涉及语言处理技术领域,尤其涉及一种文本处理方法、装置、设备及存储介质。


背景技术:

2.随着机器学习的崛起,自然语言处理(nlp,natural language processing)得到了广泛的应用。但在应用效果上中文与英文存在一定的差距,这类差距是由各类语言信息熵的高低所引起。信息熵越低的语言在nlp中的应用效果就越好,中文文本的信息熵跟英文比处于一个较高的水平,即中文文本的复杂度通常较高,而高复杂度的文本则又必然会增加nlp处理的复杂度与准确度。
3.当前处理文本内容时,虽在特征提取前会对文本进行简单的预处理,但这些预处理通常仅是对文本内容中一些无用内容进行剔除,或对文本内容进行降噪,未能在特征提取前有效降低文本内容的信息熵,自然也无法降低nlp处理的复杂度与准确度。


技术实现要素:

4.本发明提供了一种文本处理方法、装置、设备及存储介质,以降低待处理文本的信息熵。
5.根据本发明的一方面,提供了一种文本处理方法,包括:
6.对待处理文本的原始语句进行分词,得到至少一个词语集合;
7.根据词语集合的归类类型和/或集合内容,确定所述词语集合的代表词语;
8.根据各词语集合的代表词语,对相应词语集合中词语进行替换,得到所述待处理文本的代表语句;
9.根据各代表词语所关联的映射字符,对所述代表词语进行替换,得到所述待处理文本的字符语句。
10.根据本发明的另一方面,提供了一种文本处理装置,包括:
11.词语集合生成模块,用于对待处理文本的原始语句进行分词,得到至少一个词语集合;
12.代表词语确定模块,用于根据词语集合的归类类型和/或集合内容,确定所述词语集合的代表词语;
13.代表语句生成模块,用于根据各词语集合的代表词语,对相应词语集合中词语进行替换,得到所述待处理文本的代表语句;
14.字符语句生成模块,用于根据各代表词语所关联的映射字符,对所述代表词语进行替换,得到所述待处理文本的字符语句。
15.根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
16.至少一个处理器;以及
17.与所述至少一个处理器通信连接的存储器;其中,
18.所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的文本处理方法。
19.根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的文本处理方法。
20.本发明实施例通过对待处理文本进行归类和字符映射,将待处理文本的原始语句替换为字符文本,相对于原始文本,有效降低了待处理文本的信息熵和语义复杂度。
21.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
22.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1是根据本发明一实施例提供的一种文本处理方法的流程图;
24.图2是根据本发明又一实施例提供的一种文本处理方法的流程图;
25.图3是根据本发明又一实施例提供的一种文本处理装置的结构示意图;
26.图4是实现本发明实施例的电子设备的结构示意图。
具体实施方式
27.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
28.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.图1为本发明一实施例提供的一种文本处理方法的流程图,本实施例可适用于通过在对文本内容进行特征提取前,通过以归类和字符映射为主的预处理,来降低文本信息熵的情况,该方法可以由文本处理装置来执行,该装置可以采用硬件和/或软件的形式实现,该装置可配置于具备相应数据处理能力的电子设备中。如图1所示,该方法包括:
30.s110、对待处理文本的原始语句进行分词,得到至少一个词语集合。
31.其中,词语集合根据词语的词性或词语归类得到,各词语集合均由词性或词义相近的词语组成。
32.具体的,对待处理文本的原始语句进行分词,得到组成该原始语句的多个原始词语。根据词性和词义来对这些原始词语进行归类,相同(相似)词性或语义的词语会被归类到同一个词语集合。
33.s120、根据词语集合的归类类型和/或集合内容,确定所述词语集合的代表词语。
34.s130、根据各词语集合的代表词语,对相应词语集合中词语进行替换,得到所述待处理文本的代表语句。
35.其中,集合内容为该集合中词语的语义,归类类型为该集合在归类时的词性。
36.具体的,同一词语集合中词语在词性或词义上相近甚至一致,在这一基础上,若词语集合在词性上归类得到,则可以直接根据该集合对应的词性来确定集合的代表词语;若词语集合在词义上归类得到,则需要进一步根据集合中各词语具体词义来确定该词语集合的代表词。在确定各词语集合的代表词后,可以将原始语句中词语逐一替换为该词语所属词语集合的代表词,原始语句中原始词语均被相应代表词语所替换,从而得到由代表词语组成的代表语句。此外,对汉藏语系中的多音节词可使用单音节符来替代,实现与代表词语相似的降低文本复杂度或信息熵效果,例如:孩子

孩,老虎

虎。
37.s140、根据各代表词语所关联的映射字符,对所述代表词语进行替换,得到所述待处理文本的字符语句。
38.其中,代表语句的信息熵相对原始语句虽有所下降,但由于仍由词语组成,语义复杂度依旧保持一个相对较高的水平。为代表语句中每一个代表词语确定与关联的映射字符,可以将代表语句中代表词语逐一替换为该词语所关联的映射字符,代表语句中代表词语均被相应映射字符所替换,从而得到由映射字符组成的字符语句。映射字符对代表词语的替换从根本上解决了使用词语表达意思带来的高信息熵问题,有效降低了待处理文本的信息熵和文本复杂度。
39.本发明实施例通过对待处理文本进行归类和字符映射,将待处理文本的原始语句替换为字符文本,相对于原始文本,有效降低了待处理文本的信息熵和语义复杂度。
40.图2为本发明又一实施例提供的一种文本处理方法的流程图,本实施例在上述实施例的基础上进行了优化改进。如图2所示,该方法包括:
41.s210、对待处理文本的原始语句进行分词,并根据分词结果分别确定所述待处理文本中停用词、生僻词和近同义词;将所述原始语句中停用词归类为停用词集合;将所述原始语句中生僻词归类为生僻词集合;将所述原始语句中近同义词归类为至少一个近同义词集合。
42.其中,停用词为无实际词义的词语,可由根据相应的停用词数据库或停用词算法确定。
43.具体的,可根据预先设计的归类表对原始词语进行归类。归类表主要设计为三类,一是归类停用词,将这些词归类为停用词集合;二是归类极少用的生僻词到生僻词集合。如《现代汉语常用词表》里收录了56008个常用词语,可将汉语文本中不存在于《现代汉语常用词表》里的动词归类到生僻词集合。三是归类近同义词,将语义相近或相似的原始词语归类到同一个近同义词集合。同义词、近义词的判断通过可以借助同义词字典来实现,还可以通
过相应算法实现。
44.s220、若词语集合的归类类型为停用词集合,则将确定该词语集合的代表词语确定为空;若词语集合的归类类型为生僻词集合,则将该词语集合的代表词语确定为空或生僻标记词;若所述词语集合的归类类型为近同义词集合;则根据该词语集合的集合内容确定代表词语。
45.具体的,对于停用词集合,可根据停用词的词性确定停用词集合的代表词语确定为空,即在将原始语句转换为代表语句时,可直接将原始语句中存在的停用词删除;对于生僻词集合,根据生僻词集合的词性,确定将其代表词确定为空或生僻标记词。例如,可以将汉语文本中不存在于《现代汉语常用词表》里的生僻动词集合的生僻词的生僻标记词确定为“彳亍”;对于近同义词集合,则需确定近同义词集合中各个词语的候选语义,并根据从至少两个候选语义选择目标语义对应的词语作为该近同义词集合的代表词。
46.可选的,所述根据该词语集合的集合内容确定代表词语包括:
47.确定所述词语集合中至少两个候选近同义词;根据各候选近同义词的词义,从所述候选近同义词中选取目标近同义词作为代表词语。
48.具体的,近/同义词集合中存在至少两个原始词语时,将原始词语作为候选近/同义词,从所述候选近同义词中选取目标近同义词作为代表词语。即近同义词集合的代表词实际为该集合中某一原始词语。
49.示例性的,通过归类,我们可以得到了一个map结构的归类表,如:的(原始词语)

_(代表词语),着(原始词语)

_(代表词语),平静(原始词语)

平静(代表词语),宁静(原始词语)

平静(代表词语),安静(原始词语)

平静(代表词语);学校(原始词语)

学校(代表词语),学堂(原始词语)

学校(代表词语),校园(原始词语)

学校(代表词语)等。其中“的、着”属于停用词集合;“宁静、平静、安静”属于第一近/同义词集合,其代表词语为“平静”;“学校、校园、学堂”属于第二近/同义词集合,其代表词语为“学校”。若原始文本为“我在平静的学校里安静的看着书”,根据上述归类表,可确定其代表语句为“我在平静_学校里平静_看_书”。
50.s230、根据各词语集合的代表词语,对相应词语集合中词语进行替换,得到所述待处理文本的代表语句。
51.s240、在字符映射表查找各代表词语所关联的映射字符;将所述代表语句中代表词语替换为该代表词语所关联的映射字符,得到待处理文本语句的代表字符。
52.具体的,为归类表中各代表词语建立相关联的字符映射,从而得到字符映射表,字符映射表中记载了各代表词语所关联的映射字符。在一些实施例中,对于原始语句中原始词语,也可以不使用代表词语替代,而是直接为这些原始词语也建立关联的映射字符,但这种方案需要为汉语中全部词语均建立关联的映射字符,相对于仅对代表词语建立关联映射字符的方案,数据处理量太大。
53.可选的,所述映射字符包括虚拟字符或汉字字符。
54.具体的,字符集的设计可以选用现有的汉字字符集,同时也可以设计虚拟字符集,相应的映射字符则为虚拟字符或汉字字符。汉字字符集可以是gb2312信息交换用汉字编码字符集,虚拟字符集可以十进制来设计,容量暂定为2^16,那么它的每个数字都表示为一个字符,这样我们就得到了一个2^16容量的虚拟字符集。
55.示例性的,使用归类表及映射表对文本进行字符转换。所以这个转换是通过二步来实现。
56.第一步:使用归类表处理输入文本,如原始语句“我在平静的学校里安静的看着书”被替换为代表语句“我在平静_学校里平静_看_书”。在这里,句子里的平静与安静都变成了代表词语“平静”,同时句子里的停用词“的、着”都使用空来代替。
57.第二步:使用映射表处理第一步输出的文本,如代表文本“我在平静学校里平静看书”转换为虚拟字符形式的字符文本“000001 000002 000003 000004 000003 000005 000006”,使用的是虚拟字符集映射表来处理时虽得到了一长串无意义的数字,不过这些虚拟字符对于nlp处理来说完全不是问题。如果想从人类可读的角度去上去处理,我们可以使用gb2312字符集映射表,这个处理结果我们当然更好理解,具体如下:代表文本“我在平静学校里平静看书”转换为汉字字符形式的字符文本“我在静校里静看书”。至此,我们得到了包含原语意的较低信息熵的字符文本。
58.可选的,若所述待处理文本为问题文本或答案文本,则所述得到所述待处理文本的字符语句包括:
59.得到至少一个问题文本的问题字符语句,或得到至少一个答案文本的答案字符语句;相应的,所述得到所述待处理文本的字符语句之后,还包括:基于问题字符语句和答案字符语句对问题文本和答案文本进行相似度匹配,并将匹配成功的问题文本和答案文本确定为关联问答。
60.具体的,待处理文本可以是问题文本或答案文本,根据本发明实施例提供的文本处理方案,可对问题文本的原始语句进行处理得到低信息熵的问题字符语句,可对答案文本的原始语句进行处理得到低信息熵的答案字符语句和答案文本的问题字符语句。此时,问题文本和答案文本的语义复杂度均有效降低。此后,基于问题字符语句和答案字符语句,再通过自然语言处理对问题文本和答案文本进行相似度匹配,并将匹配成功的问题文本和答案文本确定为关联问答。相对以往基于原始文本的问答匹配,本发明中基于低语义复杂度字符文本的问答匹配,匹配的效率和准确性均有所提高。
61.本发明实施例中通过问题文本的问题字符语句和答案文本的答复字符语句进行问答匹配,提高了匹配的效率和准确性。
62.图3为本发明又一实施例提供的一种文本处理装置的结构示意图。如图3所示,该装置包括:
63.词语集合生成模块310,用于对待处理文本的原始语句进行分词,得到至少一个词语集合;
64.代表词语确定模块320,用于根据词语集合的归类类型和/或集合内容,确定所述词语集合的代表词语;
65.代表语句生成模块330,用于根据各词语集合的代表词语,对相应词语集合中词语进行替换,得到所述待处理文本的代表语句;
66.字符语句生成模块340,用于根据各代表词语所关联的映射字符,对所述代表词语进行替换,得到所述待处理文本的字符语句。
67.本发明实施例所提供的文本处理装置可执行本发明任意实施例所提供的文本处理方法,具备执行方法相应的功能模块和有益效果
68.可选的,词语集合生成模块310包括:
69.原始语句分词单元,用于对待处理文本的原始语句进行分词,并根据分词结果分别确定所述待处理文本中停用词、生僻词和近同义词;
70.第一词语归类单元,用于将所述原始语句中停用词归类为停用词集合;
71.第二词语归类单元,用于将所述原始语句中生僻词归类为生僻词集合;
72.第三词语归类单元,用于将所述原始语句中近同义词归类为至少一个近同义词集合。
73.可选的,所述代表词语确定模块320包括:
74.第一代表词确定单元,用于若词语集合的归类类型为停用词集合,则将确定该词语集合的代表词语确定为空;
75.第二代表词确定单元,用于若词语集合的归类类型为生僻词集合,则将该词语集合的代表词语确定为空或生僻标记词;
76.第三代表词确定单元,用于若所述词语集合的归类类型为近同义词集合;则根据该词语集合的集合内容确定代表词语。
77.可选的,所述第三代表词确定单元具体用于确定所述词语集合中至少两个候选近同义词;根据各候选近同义词的词义,从所述候选近同义词中选取目标近同义词作为代表词语。
78.具体的,字符语句生成模块340包括:
79.映射字符查找单元,用于在字符映射表查找各代表词语所关联的映射字符;
80.字符语句生成单元,用于将所述代表语句中代表词语替换为该代表词语所关联的映射字符,得到待处理文本语句的代表字符。
81.可选的,所述映射字符包括虚拟字符或汉字字符。
82.可选的,所述若所述待处理文本为问题文本或答案文本,则所述字符语句生成模块340包括:
83.问题字符语句生成单元,用于得到至少一个问题文本的问题字符语句;或答案字符语句生成单元,用于得到至少一个答案文本的答案字符语句;相应的,所述装置还包括:
84.关联问答匹配模块,用于基于问题字符语句和答案字符语句对问题文本和答案文本进行相似度匹配,并将匹配成功的问题文本和答案文本确定为关联问答。
85.进一步说明的文本处理装置也可执行本发明任意实施例所提供的文本处理方法,具备执行方法相应的功能模块和有益效果。
86.图4示出了可以用来实施本发明的实施例的电子设备40的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
87.如图4所示,电子设备40包括至少一个处理器41,以及与至少一个处理器41通信连接的存储器,如只读存储器(rom)42、随机访问存储器(ram)43等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器41可以根据存储在只读存储器(rom)42中的计
算机程序或者从存储单元48加载到随机访问存储器(ram)43中的计算机程序,来执行各种适当的动作和处理。在ram 43中,还可存储电子设备40操作所需的各种程序和数据。处理器41、rom 42以及ram 43通过总线44彼此相连。输入/输出(i/o)接口45也连接至总线44。
88.电子设备40中的多个部件连接至i/o接口45,包括:输入单元46,例如键盘、鼠标等;输出单元47,例如各种类型的显示器、扬声器等;存储单元48,例如磁盘、光盘等;以及通信单元49,例如网卡、调制解调器、无线通信收发机等。通信单元49允许电子设备40通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
89.处理器41可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器41的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器41执行上文所描述的各个方法和处理,例如文本处理方法。
90.在一些实施例中,文本处理方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元48。在一些实施例中,计算机程序的部分或者全部可以经由rom 42和/或通信单元49而被载入和/或安装到电子设备40上。当计算机程序加载到ram 43并由处理器41执行时,可以执行上文描述的文本处理方法的一个或多个步骤。备选地,在其他实施例中,处理器41可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本处理方法。
91.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
92.用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
93.在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
94.为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
95.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
96.计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。
97.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
98.上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

技术特征:
1.一种文本处理方法,其特征在于,包括:对待处理文本的原始语句进行分词,得到至少一个词语集合;根据词语集合的归类类型和/或集合内容,确定所述词语集合的代表词语;根据各词语集合的代表词语,对相应词语集合中词语进行替换,得到所述待处理文本的代表语句;根据各代表词语所关联的映射字符,对所述代表词语进行替换,得到所述待处理文本的字符语句。2.根据权利要求1所述的方法,其特征在于,所述对待处理文本的原始语句进行分词,得到至少一个词语集合包括:对待处理文本的原始语句进行分词,并根据分词结果分别确定所述待处理文本中停用词、生僻词和近同义词;将所述原始语句中停用词归类为停用词集合;将所述原始语句中生僻词归类为生僻词集合;将所述原始语句中近同义词归类为至少一个近同义词集合。3.根据权利要求1所述的方法,其特征在于,所述根据词语集合的归类类型和/或集合内容,确定各词语集合的代表词语包括:若词语集合的归类类型为停用词集合,则将确定该词语集合的代表词语确定为空;若词语集合的归类类型为生僻词集合,则将该词语集合的代表词语确定为空或生僻标记词;若所述词语集合的归类类型为近同义词集合;则根据该词语集合的集合内容确定代表词语。4.根据权利要求3所述的方法,其特征在于,所述根据该词语集合的集合内容确定代表词语包括:确定所述词语集合中至少两个候选近同义词;根据各候选近同义词的词义,从所述候选近同义词中选取目标近同义词作为代表词语。5.根据权利要求1所述的方法,其特征在于,所述根据各代表词语所关联的映射字符,对所述代表词语进行替换,得到所述待处理文本的字符语句包括:在字符映射表查找各代表词语所关联的映射字符;将所述代表语句中代表词语替换为该代表词语所关联的映射字符,得到待处理文本语句的代表字符。6.根据权利要求1-5任一项所述的方法,其特征在于,所述映射字符包括虚拟字符或汉字字符。7.根据权利要求1所述的方法,其特征在于,若所述待处理文本为问题文本或答案文本,则所述得到所述待处理文本的字符语句包括:得到至少一个问题文本的问题字符语句,或得到至少一个答案文本的答案字符语句;相应的,所述得到所述待处理文本的字符语句之后,还包括:基于问题字符语句和答案字符语句对问题文本和答案文本进行相似度匹配,并将匹配成功的问题文本和答案文本确定为关联问答。
8.一种文本处理装置,其特征在于,包括:词语集合生成模块,用于对待处理文本的原始语句进行分词,得到至少一个词语集合;代表词语确定模块,用于根据词语集合的归类类型和/或集合内容,确定所述词语集合的代表词语;代表语句生成模块,用于根据各词语集合的代表词语,对相应词语集合中词语进行替换,得到所述待处理文本的代表语句;字符语句生成模块,用于根据各代表词语所关联的映射字符,对所述代表词语进行替换,得到所述待处理文本的字符语句。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的文本处理方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的文本处理方法。

技术总结
本发明公开了一种文本处理方法、装置、设备及存储介质。该方法包括:对待处理文本的原始语句进行分词,得到至少一个词语集合;根据词语集合的归类类型和/或集合内容,确定所述词语集合的代表词语;根据各词语集合的代表词语,对相应词语集合中词语进行替换,得到所述待处理文本的代表语句;根据各代表词语所关联的映射字符,对所述代表词语进行替换,得到所述待处理文本的字符语句。本发明实施例可以降低待处理文本的信息熵。低待处理文本的信息熵。低待处理文本的信息熵。


技术研发人员:姜友华
受保护的技术使用者:北京思明启创科技有限公司
技术研发日:2022.07.14
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-1250.html

最新回复(0)