文本后处理方法、系统、电子设备和存储介质与流程

专利2023-07-18  113



1.本发明涉及计算机技术领域,特别是涉及一种文本后处理方法、系统、电子设备和计算机可读存储介质。


背景技术:

2.文本后处理为语音识别场景中的技术术语,即当语音识别得到文本内容后,给文本内容增加标点、去除重复文本等处理操作。
3.目前,在语音识别场景中,很多时候需要进行流式处理(流式指一种数据输入输出形式。流式处理时,数据根据指定的频率不间断送入处理系统,处理系统也需实时对送入的数据进行处理,并按照约定的频率不断返回最新的结果),如实时质检、实时外呼、智能会议等场景。之前的研究中,更多关注的是识别模型的流式识别,但文本后处理更多采用的是离线的处理方式。即识别得到的文本先实时上屏,在文本后处理离线完成后,再更新上屏内容,或先用一个效果一般的流式后处理模型进行第一遍文本后处理并实时上屏,再通过离线文本后处理模型进行二次预测调整上屏内容,原因在于此类场景的文本后处理一般都使用时间序列模型,而时间序列模型往往在看到上下文内容后进行全局预测,才可以达到效果最优,所以文本后处理更适合离线处理。
4.现有的文本后处理方案中,若使用双向时间序列模型,需要完整的上下文内容,而且,每当输入文本变化时,需要重新进行完整的运算,因此会造成随着输入文本的长度的增加,处理速度越来越慢的问题,无法实现流式处理。


技术实现要素:

5.鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本后处理方法、系统、电子设备和计算机可读存储介质。
6.为了解决上述问题,根据本发明实施例的第一方面,公开了一种文本后处理方法,所述方法包括:获取待处理的流式文本数据,所述流式文本数据包含tn时刻的文本内容和tm时刻的文本内容,其中,所述tm时刻位于所述tn时刻之后,所述tn时刻表示当前时刻;将所述tn时刻的文本内容和至少一个所述tm时刻的文本内容输入预设的单向时间序列模型中,输出所述tn时刻的文本后处理结果。
7.可选地,所述将所述tn时刻的文本内容和至少一个所述tm时刻的文本内容输入预设的单向时间序列模型中时,所述方法还包括:输出所述tn时刻的状态向量;根据tn-1时刻的文本后处理结果、所述状态向量预测tn时刻的文本后处理结果。
8.可选地,所述根据tn-1时刻的文本后处理结果、所述状态向量预测tn时刻的文本后处理结果,包括:获取所述tn-1时刻的文本后处理结果和所述tn时刻的文本内容的输出门向量;根据所述输出门向量和所述状态向量计算所述tn时刻的文本后处理结果。
9.可选地,所述输出所述tn时刻的文本后处理结果,包括:将所述tn时刻的文本内容输入至所述单向时间序列模型中,输出所述tn时刻的第一候选文本后处理结果;将所述tn
时刻的文本内容和所述tn+1时刻的文本内容输入至所述单向时间序列模型中,输出所述tn时刻的第二候选文本后处理结果;将所述tn时刻的文本内容、所述tn+1时刻的文本内容和所述tn+2时刻的文本内容输入至所述单向时间序列模型中,输出所述tn时刻的第三候选文本后处理结果;根据所述第一候选文本后处理结果、所述第二候选文本后处理结果和所述第三候选文本后处理结果融合得到所述tn时刻的文本后处理结果。
10.可选地,所述根据所述第一候选文本后处理结果、所述第二候选文本后处理结果和所述第三候选文本后处理结果融合得到所述tn时刻的文本后处理结果,包括:将所述第一候选文本后处理结果、所述第二候选文本后处理结果和所述第三候选文本后处理结果输入至预设的转移矩阵,输出所述tn时刻的文本后处理结果。
11.可选地,所述单向时间序列模型为长短期记忆网络模型。
12.根据本发明实施例的第二方面,还公开了一种文本后处理系统,所述系统包括:流式文本获取模块,用于获取待处理的流式文本数据,所述流式文本数据包含tn时刻的文本内容和tm时刻的文本内容,其中,所述tm时刻位于所述tn时刻之后,所述tn时刻表示当前时刻;模型处理模块,用于将所述tn时刻的文本内容和至少一个所述tm时刻的文本内容输入预设的单向时间序列模型中,输出所述tn时刻的文本后处理结果。
13.可选地,所述模型处理模块,包括:状态向量输出模块,用于将所述tn时刻的文本内容和至少一个所述tm时刻的文本内容输入预设的单向时间序列模型中,输出所述tn时刻的状态向量;后处理结果预测模块,用于根据tn-1时刻的文本后处理结果、所述状态向量预测tn时刻的文本后处理结果。
14.可选地,所述后处理结果预测模块,用于获取所述tn-1时刻的文本后处理结果和所述tn时刻的文本内容的输出门向量;根据所述输出门向量和所述状态向量计算所述tn时刻的文本后处理结果。
15.可选地,所述模型处理模块,包括:候选后处理结果输出模块,用于将所述tn时刻的文本内容输入至所述单向时间序列模型中,输出所述tn时刻的第一候选文本后处理结果;将所述tn时刻的文本内容和所述tn+1时刻的文本内容输入至所述单向时间序列模型中,输出所述tn时刻的第二候选文本后处理结果;将所述tn时刻的文本内容、所述tn+1时刻的文本内容和所述tn+2时刻的文本内容输入至所述单向时间序列模型中,输出所述tn时刻的第三候选文本后处理结果;候选后处理结果融合模块,用于根据所述第一候选文本后处理结果、所述第二候选文本后处理结果和所述第三候选文本后处理结果融合得到所述tn时刻的文本后处理结果。
16.可选地,所述候选后处理结果融合模块,用于将所述第一候选文本后处理结果、所述第二候选文本后处理结果和所述第三候选文本后处理结果输入至预设的转移矩阵,输出所述tn时刻的文本后处理结果。
17.可选地,所述单向时间序列模型为长短期记忆网络模型。
18.根据本发明实施例的第三方面,还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的一种文本后处理方法。
19.根据本发明实施例的第四方面,还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的一种文本后处理方法。
20.与现有技术相比,本发明实施例提供的技术方案具有如下优点:
21.本发明实施例提供的一种文本后处理方案,获取待处理的流式文本数据,该流式文本数据可以包含tn时刻的文本内容和tm时刻的文本内容,其中,tm时刻位于tn时刻之后。如果tn时刻为当前时刻,则tm时刻可以为下一时刻、下二时刻等。本发明实施例采用单向时间序列模型对流式文本数据进行后文本处理,不仅将当前时刻的文本内容输入到单向时间序列模型,还将当前时刻的文本内容的后文文本内容,即tm时刻的文本内容输入到单向时间序列模型中,进而输出当前时刻的文本后处理结果。本发明实施例在单向时间序列模型中引入了后文文本内容,增加了当前文本内容与后文文本内容之间的关联性,提升了文本后处理的效果。
附图说明
22.图1是本发明实施例的一种文本后处理方法的步骤流程图;
23.图2是本发明实施例的一种lstm单元的示意图;
24.图3是本发明实施例的一种lstm单元状态的示意图;
25.图4是本发明实施例的lstm的遗忘门的示意图;
26.图5是本发明实施例的lstm的输入门和单元状态更新值的示意图;
27.图6是本发明实施例的候选文本后处理结果进行融合处理的流程示意图;
28.图7是本发明实施例的一种文本后处理系统的结构框图;
29.图8是本发明实施例的一种电子设备的结构示意图。
具体实施方式
30.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
31.参照图1,示出了本发明实施例的一种文本后处理方法的步骤流程图。该文本后处理方法可以应用于终端或者服务器。该文本后处理方法具体可以包括如下步骤:
32.步骤101,获取待处理的流式文本数据。
33.在本发明的实施例中,流式文本数据可以包含tn时刻的文本内容,即当前时刻的文本内容,可以称为当前文本内容,还包含tm时刻的文本内容,即当前时刻之后的文本内容,可以称为后文文本内容。需要说明的是,tm时刻的文本内容可以为一个时刻的文本内容,也可以为多个时刻的文本内容。例如,tm时刻的文本内容可以为当前时刻的下一时刻的文本内容,或者,tm时刻的文本内容可以为当前时刻的下一时刻的文本内容和当前时刻的下二时刻的文本内容。而且,tm时刻的文本内容为与当前时刻的文本内容相邻的文本内容,或者,tm时刻的文本内容包含与当前时刻的文本内容相邻的文本内容。
34.步骤102,将tn时刻的文本内容和至少一个tm时刻的文本内容输入预设的单向时间序列模型中,输出tn时刻的文本后处理结果。
35.在本发明的实施例中,不仅将当前时刻的文本内容输入至单向时间序列模型中,还将当前时刻的文本内容的后文文本内容输入至单向时间序列模型中,以在单向时间序列模型中加入后文文本内容的特征。
36.例如,将当前时刻(tn时刻)的文本内容、当前时刻的下一时刻(tn+1时刻)的文本
内容和当前时刻的下二时刻(tn+2时刻,即当前时刻的下一时刻的下一时刻)的文本内容输入至单向时间序列模型中,输出当前时刻的文本后处理结果。
37.本发明实施例提供的一种文本后处理方案,获取待处理的流式文本数据,该流式文本数据可以包含tn时刻的文本内容和tm时刻的文本内容,其中,tm时刻位于tn时刻之后。如果tn时刻为当前时刻,则tm时刻可以为下一时刻、下二时刻等。本发明实施例采用单向时间序列模型对流式文本数据进行后文本处理,不仅将当前时刻的文本内容输入到单向时间序列模型,还将当前时刻的文本内容的后文文本内容,即tm时刻的文本内容输入到单向时间序列模型中,进而输出当前时刻的文本后处理结果。本发明实施例在单向时间序列模型中引入了后文文本内容,增加了当前文本内容与后文文本内容之间的关联性,提升了文本后处理的效果。
38.在本发明的一种优选实施例中,单向时间序列模型可以为长短期记忆(long short term memory,简称lstm)网络模型。lstm网络模型属于具有记忆长短期信息的能力的神经网络。lstm网络模型是由一系列lstm单元(lstm unit)组成。参照图2,示出了一种lstm单元的示意图。在图2中,x
t
表示当前输入信息,h
t
表示当前输出信息,每个方框表示一个神经网络层,由权值、偏置以及激活函数组成,每个圆圈表示元素级别操作,表示单位加的关系,表示单位乘的关系,tanh为激活函数,箭头表示向量流向,其中,相交的箭头表示向量的拼接,分叉的箭头表示向量的复制。参照图3,示出了一种lstm单元状态的示意图。在图3中,c
t
表示当前输入信息x
t
的状态向量,c
t-1
表示前一输入信息x
t-1
的状态向量。
[0039][0040]
参照图4,示出了lstm的遗忘门的示意图。f
t
表示遗忘门,表示c
t-1
的哪些特征被用于计算c
t
。f
t
是一个向量,向量的每个元素均位于[0,1]范围内。f
t
由x
t
和h
t-1
经由sigmoid激活函数计算而成。
[0041]
参照图5,示出了lstm的输入门和单元状态更新值的示意图。i
t
表示输入门,也是位于[0,1]范围内的向量,i
t
由x
t
和h
t-1
经由sigmoid激活函数计算而成。表示单元状态更新值,由x
t
和h
t-1
经由tanh激活函数计算而成。
[0042]
在本发明的一种优选实施例中,将tn时刻的文本内容和至少一个tm时刻的文本内容输入预设的单向时间序列模型中时,还可以输出tn时刻的状态向量,进而根据tn-1时刻的文本后处理结果、tn时刻的状态向量预测tn时刻的文本后处理结果。在实际应用中,如果仅仅依靠h
t
无法进行流式处理,而且,当输入文本内容改变时,还需要从最初输入的文本内容开始,重新输出文本后处理结果。本发明实施例为了实现流式处理,除了获取每个时刻的文本后处理结果之外,还获取每个时刻的状态向量。进而可以根据当前时刻的文本后处理结果和状态向量预测下一时刻的文本后处理结果。
[0043]
在本发明的一种优选实施例中,在根据tn-1时刻的文本后处理结果、tn时刻的状态向量预测tn时刻的文本后处理结果时,可以获取tn-1时刻的文本后处理结果和tn时刻的文本内容的输出门向量;根据输出门向量和tn时刻的状态向量计算tn时刻的文本后处理结果。
[0044]
在实际应用中,可以根据如下公式预测文本后处理结果:
[0045]ht
=o
t
*tanh(c
t
)
[0046]ot
=σ(wo[h
t-1
,x
t
]+bo)
[0047]
其中,h
t
表示t时刻的文本后处理结果,o
t
表示t时刻的输出门向量,c
t
表示t时刻的状态向量。σ()表示sigmoid激活函数,wo和bo为sigmoid激活函数的系数,h
t-1
表示t-1时刻的文本后处理结果,x
t
表示t时刻的文本内容。
[0048]
在本发明的一种优选实施例中,输出tn时刻的文本后处理结果的一种实施方式为,将tn时刻的文本内容输入至单向时间序列模型中,输出tn时刻的第一候选文本后处理结果;将tn时刻的文本内容和tn+1时刻的文本内容输入至单向时间序列模型中,输出tn时刻的第二候选文本后处理结果;将tn时刻的文本内容、tn+1时刻的文本内容和tn+2时刻的文本内容输入至单向时间序列模型中,输出tn时刻的第三候选文本后处理结果;根据第一候选文本后处理结果、第二候选文本后处理结果和第三候选文本后处理结果融合得到tn时刻的文本后处理结果。
[0049]
需要说明的是,上述图2至图5中的各项介绍可以相互借鉴。
[0050]
参照图6,示出了候选文本后处理结果进行融合处理的流程示意图。在图6中,input1表示t1时刻的文本内容,input2表示t2时刻的文本内容,input3表示t3时刻的文本内容,input4表示t4时刻的文本内容。output11表示当前时刻为t1时刻时,预测的t1时刻的第一候选文本后处理结果。output21表示当前时刻为t2时刻时,预测的t1时刻的第二候选文本后处理结果。output31表示当前时刻为t3时刻时,预测的t1时刻的第一候选文本后处理结果。将output11、output21和output31输入至转移矩阵进行融合处理,最终得到t1时刻的文本后处理结果output1。同理,output22表示当前时刻为t2时刻时,预测的t2时刻的第一候选文本后处理结果。output32表示当前时刻为t3时刻时,预测的t2时刻的第二候选文本后处理结果。output42表示当前时刻为t4时刻时,预测的t2时刻的第三候选文本后处理结果。将output22、output32和output42输入至转移矩阵进行融合处理,最终得到t2时刻的文本后处理结果output2。也就是说,每一个时刻最终的文本后处理结果可以由三个时刻(从当前时刻开始向后算,包含当前时刻在内的三个时刻)的输入对应的候选文本后处理结果融合得到。因此,output33表示当前时刻为t3时刻时,预测的t3时刻的第一候选文本后处理结果,output43表示当前时刻为t3时刻时,预测的t3时刻的第二候选文本后处理结果,output44表示当前时刻为t4时刻时,预测的t4时刻的第一候选文本后处理结果。相比于针对单个文本内容输出的文本后处理结果而言,针对输入的多个文本内容分别输出候选文本后处理结果,再将多个候选文本后处理结果融合得到最终的文本后处理结果,增强了预测文本后处理结果的鲁棒性。
[0051]
本发明实施例提出了一种结合后文文本内容的单向时间序列模型,同时解决了流式场景下预测文本后处理结果高延迟的问题,以及单向时间序列模型的预测结果与双向时间序列模型的预测结果差距较大的问题。
[0052]
本发明实施例基于单向时间序列模型解码端的优化,使得每一时刻只需计算当前时刻输入的文本内容,无需重复计算之前输入的文本内容,大幅降低了流式处理场景的延迟,并保证流式处理效果。
[0053]
本发明实施例在单向时间序列模型中引入结合上下文进行特征抽取的思想,使单向时间序列模型可以获取到后文文本内容,提高文本后处理结果的准确性。
[0054]
本发明实施例在单个的单向时间序列模型中引入了多输入多输出的候选结果融
合解码,提升了单向时间序列模型的鲁棒性。
[0055]
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
[0056]
参照图7,示出了本发明实施例的一种文本后处理系统的结构框图,该文本后处理系统可以应用于终端或者服务器,该文本后处理系统具体可以包括如下模块:
[0057]
流式文本获取模块71,用于获取待处理的流式文本数据,所述流式文本数据包含tn时刻的文本内容和tm时刻的文本内容,其中,所述tm时刻位于所述tn时刻之后,所述tn时刻表示当前时刻;
[0058]
模型处理模块72,用于将所述tn时刻的文本内容和至少一个所述tm时刻的文本内容输入预设的单向时间序列模型中,输出所述tn时刻的文本后处理结果。
[0059]
在本发明的一种优选实施例中,所述模型处理模块72,包括:
[0060]
状态向量输出模块,用于将所述tn时刻的文本内容和至少一个所述tm时刻的文本内容输入预设的单向时间序列模型中,输出所述tn时刻的状态向量;
[0061]
后处理结果预测模块,用于根据tn-1时刻的文本后处理结果、所述状态向量预测tn时刻的文本后处理结果。
[0062]
在本发明的一种优选实施例中,所述后处理结果预测模块,用于获取所述tn-1时刻的文本后处理结果和所述tn时刻的文本内容的输出门向量;根据所述输出门向量和所述状态向量计算所述tn时刻的文本后处理结果。
[0063]
在本发明的一种优选实施例中,所述模型处理模块72,包括:
[0064]
候选后处理结果输出模块,用于将所述tn时刻的文本内容输入至所述单向时间序列模型中,输出所述tn时刻的第一候选文本后处理结果;将所述tn时刻的文本内容和所述tn+1时刻的文本内容输入至所述单向时间序列模型中,输出所述tn时刻的第二候选文本后处理结果;将所述tn时刻的文本内容、所述tn+1时刻的文本内容和所述tn+2时刻的文本内容输入至所述单向时间序列模型中,输出所述tn时刻的第三候选文本后处理结果;
[0065]
候选后处理结果融合模块,用于根据所述第一候选文本后处理结果、所述第二候选文本后处理结果和所述第三候选文本后处理结果融合得到所述tn时刻的文本后处理结果。
[0066]
在本发明的一种优选实施例中,所述候选后处理结果融合模块,用于将所述第一候选文本后处理结果、所述第二候选文本后处理结果和所述第三候选文本后处理结果输入至预设的转移矩阵,输出所述tn时刻的文本后处理结果。
[0067]
在本发明的一种优选实施例中,所述单向时间序列模型为长短期记忆网络模型。
[0068]
本发明实施例还提供了一种电子设备,参见图8,包括:处理器801、存储器802以及存储在所述存储器802上并可在所述处理器801上运行的计算机程序8021,所述处理器801执行所述程序8021时实现前述实施例的文本后处理方法。
[0069]
本发明实施例还提供了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述实施例的文本后处理方法。
[0070]
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0071]
需要说明的是,本发明实施例中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
[0072]
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0073]
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、系统、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0074]
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0075]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0076]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0077]
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0078]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0079]
以上对本发明所提供的一种文本后处理方法和系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理
解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术特征:
1.一种文本后处理方法,其特征在于,所述方法包括:获取待处理的流式文本数据,所述流式文本数据包含tn时刻的文本内容和tm时刻的文本内容,其中,所述tm时刻位于所述tn时刻之后,所述tn时刻表示当前时刻;将所述tn时刻的文本内容和至少一个所述tm时刻的文本内容输入预设的单向时间序列模型中,输出所述tn时刻的文本后处理结果。2.根据权利要求1所述的方法,其特征在于,所述将所述tn时刻的文本内容和至少一个所述tm时刻的文本内容输入预设的单向时间序列模型中时,所述方法还包括:输出所述tn时刻的状态向量;所述输出所述tn时刻的文本后处理结果,包括:根据tn-1时刻的文本后处理结果、所述状态向量预测tn时刻的文本后处理结果。3.根据权利要求2所述的方法,其特征在于,所述根据tn-1时刻的文本后处理结果、所述状态向量预测tn时刻的文本后处理结果,包括:获取所述tn-1时刻的文本后处理结果和所述tn时刻的文本内容的输出门向量;根据所述输出门向量和所述状态向量计算所述tn时刻的文本后处理结果。4.根据权利要求1所述的方法,其特征在于,所述输出所述tn时刻的文本后处理结果,包括:将所述tn时刻的文本内容输入至所述单向时间序列模型中,输出所述tn时刻的第一候选文本后处理结果;将所述tn时刻的文本内容和所述tn+1时刻的文本内容输入至所述单向时间序列模型中,输出所述tn时刻的第二候选文本后处理结果;将所述tn时刻的文本内容、所述tn+1时刻的文本内容和所述tn+2时刻的文本内容输入至所述单向时间序列模型中,输出所述tn时刻的第三候选文本后处理结果;根据所述第一候选文本后处理结果、所述第二候选文本后处理结果和所述第三候选文本后处理结果融合得到所述tn时刻的文本后处理结果。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一候选文本后处理结果、所述第二候选文本后处理结果和所述第三候选文本后处理结果融合得到所述tn时刻的文本后处理结果,包括:将所述第一候选文本后处理结果、所述第二候选文本后处理结果和所述第三候选文本后处理结果输入至预设的转移矩阵,输出所述tn时刻的文本后处理结果。6.根据权利要求1所述的方法,其特征在于,所述单向时间序列模型为长短期记忆网络模型。7.一种文本后处理系统,其特征在于,所述系统包括:流式文本获取模块,用于获取待处理的流式文本数据,所述流式文本数据包含tn时刻的文本内容和tm时刻的文本内容,其中,所述tm时刻位于所述tn时刻之后,所述tn时刻表示当前时刻;模型处理模块,用于将所述tn时刻的文本内容和至少一个所述tm时刻的文本内容输入预设的单向时间序列模型中,输出所述tn时刻的文本后处理结果。8.根据权利要求7所述的系统,其特征在于,所述模型处理模块,包括:状态向量输出模块,用于将所述tn时刻的文本内容和至少一个所述tm时刻的文本内容
输入预设的单向时间序列模型中,输出所述tn时刻的状态向量;后处理结果预测模块,用于根据tn-1时刻的文本后处理结果、所述状态向量预测tn时刻的文本后处理结果。9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任意一项所述的文本后处理方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6中任意一项所述的文本后处理方法。

技术总结
本发明实施例提供了一种文本后处理方法和系统,其中,所述方法包括:获取待处理的流式文本数据,流式文本数据包含tn时刻的文本内容和tm时刻的文本内容,其中,tm时刻位于tn时刻之后,tn时刻表示当前时刻;将tn时刻的文本内容和至少一个tm时刻的文本内容输入预设的单向时间序列模型中,输出tn时刻的文本后处理结果。本发明实施例不仅将当前时刻的文本内容输入到单向时间序列模型,还将当前时刻的文本内容的后文文本内容,进而输出当前时刻的文本后处理结果。本发明实施例在单向时间序列模型中引入了后文文本内容,增加了当前文本内容与后文文本内容之间的关联性,提升了文本后处理的效果。效果。效果。


技术研发人员:邢启洲 李健 陈明 武卫东
受保护的技术使用者:北京捷通华声科技股份有限公司
技术研发日:2022.06.24
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-3981.html

最新回复(0)