一种融合词N-gram语言模型的英文端到端语音识别系统在线解码方法与流程

专利2023-10-19  94


一种融合词n-gram语言模型的英文端到端语音识别系统在线解码方法
技术领域
1.本发明涉及语音识别技术领域,具体为一种融合词n-g
ram语言模型的英文端到端语音识别系统在线解码方法。


背景技术:

2.在端到端语音识别系统中,为了从语言层面强化所提出假设的正确性,常使用一个外部语言模型进行联合解码,语言模型是这样一种模型:给定一串字符序列,语言模型能够输出概率,其用于评价字符序列w符合人类语言习惯的程度,一种主流的语言模型是自回归语言模型,其对于p(w)的评价的得出来自乘积:
3.在自回归模型的基础上,一种主流的语言模型是n-gram语言模型,对于一个n阶的n-gram语言模型,其作如下近似:这样的近似避免了对于过长文本历史的建模,从而减小了建模的复杂度。对于一个n-gram语言模型,其可以被一个加权有限接收机完整表示,在自回归模型的基础上,另一种语言模型是神经网络语言模型,其不对文本历史w
1u-1
作近似,而使用神经网络循环的对概率分布p(wu|w
1u-1
)做预测,对语言模型的另一种分类是依赖建模单元的,对于英文,主要讨论两种建模单元:词和半词。对于任意的wu,若其始终是一个英文单词,则语言模型是词级的,这是容易理解的;若对任意的wu,其始终是一个半词,则语言模型是半词级别的。这里,半词是指构成英文词的有限个词根。
4.wfsa的构成主要由状态和弧表示,对于状态来讲,其存在多个起始状态和终末状态及其他状态,在起始和终末状态上可选的,可能存在一个数值权重,对于弧来讲,其存在一个输入标签和一个权重,在使用半词的英文端到端语音识别系统上适配使用基于词的n-gram 语言模型是可行的,但是在进行计算时使用现有的半词级别神经网络语言模型时,其词错误率还是较高,因此提出一种融合词n-gram语言模型的英文端到端语音识别系统在线解码方法。


技术实现要素:

5.(一)解决的技术问题
6.针对现有技术的不足,本发明提供了一种融合词n-gram语言模型的英文端到端语音识别系统在线解码方法,解决了在使用半词的英文端到端语音识别系统上适配使用基于词的n-gram语言模型是可行的,但是在进行计算时使用现有的半词级别神经网络语言模型时,其词错误率还是较高,不能满足人们的要求的问题。
7.(二)技术方案
8.为实现上述目的,本发明提供如下技术方案:
9.一种融合词n-gram语言模型的英文端到端语音识别系统在线解码方法,包括以下步骤:
10.s1:n-gram语言模型的训练,对每一条语料首先进行切分,将所切分的序列和原序
列共同作为语料用于构建语言模型,然后进行训练得到一个特殊的词级别语言模型;
11.s2:更改半词序列,将半词序列改为词序列,最后未成词的部分除外;
12.s3:构建wfsa,构建一个wfsa来枚举所有的拆词可能;
13.s4:构建新的wfsa,s3中得到用于枚举所有拆词可能的wfsa和表示n-gram语言模型的wfsa,基于这两个wfsa,执行一个 intersection操作,得到一个新的wfsa;
14.s5:计算前馈分数,利用s4中构造新的wfsa,在其上基于 log-semiring规则计算前馈分数,得到的前馈分数视作半词序列的语言模型预测概率p(w);
15.s6:给出评估结果,利用s5中得到的p(w),基于差分公式 logp(wu|w
1u-1
)=logp(w
1u
)-logp(w
1u-1
)计算出评估结果p(wu|w
1u-1
)。
16.作为本发明再进一步的方案,所述s1中在切分时对一句正常的语料中的每个词汇进行切分。
17.进一步的,所述s3中所构建的wfsa存在状态2到状态4的弧,允许将词allowed作为一个整词来进行处理,同时,对于未完结的词lea(假设后续出现的完整词为leave),其又可以作为一个半词被评估,同时注意到,wfsa上所有权重全部置零。
18.在前述方案的基础上,所述s4中具体的intersection操作方法参考文献weighted finite-state transducers in speechrecognition的方法。
19.进一步的,所述s5中前馈分数计算是wfsa的一个基本操作,其细节见文献“关于加权有限态受主(wfsa)和加权有限态换能器(wfst) 的介绍”。
20.在前述方案的基础上,所述s6中w
1u-1
表示已知半词序列,wu表示待评估半词。
21.本发明再进一步的方案,所述s6中包括统计模块,在计算评估后进行记录统计。
22.(三)有益效果
23.与现有技术相比,本发明提供了一种融合词n-gram语言模型的英文端到端语音识别系统在线解码方法,具备以下有益效果:
24.1、本发明中,通过对每一条语料首先进行切分,将所切分的序列和原序列共同作为语料用于构建语言模型,然后进行训练得到一个特殊的词级别语言模型,当语料中插入被切分序列后,能够使一些无法评价的未知词得到评价的可能。
25.2、本发明中,通过构建一个wfsa来枚举所有的拆词可能,在评估时,一般认为整词的评估效果优于半词,因此可以认为主要以整词在对假设进行评估,与配套的n-gram语言模型进行配合,能够提升语音识别系统的识别精度,降低词的错误率。
附图说明
26.图1为本发明提出的一种融合词n-gram语言模型的英文端到端语音识别系统在线解码方法的流程结构示意图。
27.图2为本发明提出的一种融合词n-gram语言模型的英文端到端语音识别系统在线解码方法的构建的wfsa示意图。
具体实施方式
28.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
29.实施例1
30.参照图1-2,一种融合词n-gram语言模型的英文端到端语音识别系统在线解码方法,包括以下步骤:
31.s1:n-gram语言模型的训练,对每一条语料首先进行切分,将所切分的序列和原序列共同作为语料用于构建语言模型,然后进行训练得到一个特殊的词级别语言模型,当语料中插入被切分序列后,能够使一些无法评价的未知词得到评价的可能,s1中在切分时对一句正常的语料中的每个词汇进行切分,如对ilikeit做切分,将其切分为序列:i_like_it(下划线表示空格),当出现假设“ili”时,如果只使用词进行训练,则“li”作为一个不是英文词的单元,将被替换成未知词(out-of-vocabulary)从而无法评价,当语料中插入被切分序列后,上述评价成为了可能;
32.s2:更改半词序列,将半词序列改为词序列,最后未成词的部分除外,例如,半词序列you_are_allowed_to_lea首先被合并为youareallowedtolea,除最后未结束的词外,其余的半词被拼合;
33.s3:构建wfsa,构建一个wfsa来枚举所有的拆词可能,上述假设构建成的wfsa如下图所示:
34.如图2所示,所构建的wfsa存在状态2到状态4的弧,允许将词allowed作为一个整词来进行处理,同时,对于未完结的词lea(假设后续出现的完整词为leave),其又可以作为一个半词被评估,同时注意到,wfsa上所有权重全部置零,构建一个wfsa来枚举所有的拆词可能,在评估时,一般认为整词的评估效果优于半词,因此可以认为主要以整词在对假设进行评估,与配套的n-gram语言模型进行配合,能够提升语音识别系统的识别精度,降低词的错误率;
35.s4:构建新的wfsa,s3中得到用于枚举所有拆词可能的wfsa和表示n-gram语言模型的wfsa,基于这两个wfsa,执行一个intersection操作,得到一个新的wfsa,s4中具体的intersection操作方法参考文献weightedfinite-statetransducersinspeechrecognition的方法;
36.s5:计算前馈分数,利用s4中构造新的wfsa,在其上基于log-semiring规则计算前馈分数,得到的前馈分数视作半词序列的语言模型预测概率p(w),前馈分数计算是wfsa的一个基本操作,其细节见文献“关于加权有限态受主(wfsa)和加权有限态换能器(wfst)的介绍”;
37.s6:给出评估结果,利用s5中得到的p(w),基于差分公式logp(wu|w
1u-1
)=logp(w
1u
)-logp(w
1u-1
)计算出评估结果p(wu|w
1u-1
),s6中w
1u-1
表示已知半词序列,wu表示待评估半词。
38.实施例2
39.参照图1-2,一种融合词n-gram语言模型的英文端到端语音识别系统在线解码方法,包括以下步骤:
40.s1:n-gram语言模型的训练,对每一条语料首先进行切分,将所切分的序列和原序列共同作为语料用于构建语言模型,然后进行训练得到一个特殊的词级别语言模型,当语
料中插入被切分序列后,能够使一些无法评价的未知词得到评价的可能,s1中在切分时对一句正常的语料中的每个词汇进行切分,如对i like it做切分,将其切分为序列:i_li ke_it(下划线表示空格),当出现假设“i li”时,如果只使用词进行训练,则“li”作为一个不是英文词的单元,将被替换成未知词(out-of-vocabulary)从而无法评价,当语料中插入被切分序列后,上述评价成为了可能;
41.s2:更改半词序列,将半词序列改为词序列,最后未成词的部分除外,例如,半词序列you_are_allow ed_to_lea首先被合并为you are allowed to lea,除最后未结束的词外,其余的半词被拼合;
42.s3:构建wfsa,构建一个wfsa来枚举所有的拆词可能,上述假设构建成的wfsa如下图所示:
43.如图2所示,所构建的wfsa存在状态2到状态4的弧,允许将词allowed作为一个整词来进行处理,同时,对于未完结的词lea(假设后续出现的完整词为leave),其又可以作为一个半词被评估,同时注意到,wfsa上所有权重全部置零,构建一个wfsa来枚举所有的拆词可能,在评估时,一般认为整词的评估效果优于半词,因此可以认为主要以整词在对假设进行评估,与配套的n-gram语言模型进行配合,能够提升语音识别系统的识别精度,降低词的错误率;
44.s4:构建新的wfsa,s3中得到用于枚举所有拆词可能的wfsa和表示n-gram语言模型的wfsa,基于这两个wfsa,执行一个 intersection操作,得到一个新的wfsa,s4中具体的intersection 操作方法参考文献https://cs.nyu.edu/~mohri/postscript/cs101;
45.s5:计算前馈分数,利用s4中构造新的wfsa,在其上基于 log-semiring规则计算前馈分数,得到的前馈分数视作半词序列的语言模型预测概率p(w),前馈分数计算是wfsa的一个基本操作,其细节见文献“https://k2-fsa.github.io/k2/core_concepts/index.html#log
‑ꢀ
semiring”;
46.s6:给出评估结果,利用s5中得到的p(w),基于差分公式 logp(wu|w
1u-1
)=logp(w
1u
)-logp(w
1u-1
)计算出评估结果p(wu|w
1u-1
),s6中 w
1u-1
表示已知半词序列,wu表示待评估半词。
47.在该文中的描述中,需要说明的是,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
48.尽管已经示出和描述了本发明的实施例,本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术特征:
1.一种融合词n-gram语言模型的英文端到端语音识别系统在线解码方法,其特征在于,包括以下步骤:s1:n-gram语言模型的训练,对每一条语料首先进行切分,将所切分的序列和原序列共同作为语料用于构建语言模型,然后进行训练得到一个特殊的词级别语言模型;s2:更改半词序列,将半词序列改为词序列,最后未成词的部分除外;s3:构建wfsa,构建一个wfsa来枚举所有的拆词可能;s4:构建新的wfsa,s3中得到用于枚举所有拆词可能的wfsa和表示n-gram语言模型的wfsa,基于这两个wfsa,执行一个intersection操作,得到一个新的wfsa;s5:计算前馈分数,利用s4中构造新的wfsa,在其上基于log-semiring规则计算前馈分数,得到的前馈分数视作半词序列的语言模型预测概率p(w);s6:给出评估结果,利用s5中得到的p(w),基于差分公式计算出评估结果2.根据权利要求1所述的一种融合词n-gram语言模型的英文端到端语音识别系统在线解码方法,其特征在于,所述s1中在切分时对一句正常的语料中的每个词汇进行切分。3.根据权利要求2所述的一种融合词n-gram语言模型的英文端到端语音识别系统在线解码方法,其特征在于,所述s3中所构建的wfsa存在状态2到状态4的弧,允许将词allowed作为一个整词来进行处理,同时,对于未完结的词lea(假设后续出现的完整词为leave),其又可以作为一个半词被评估,同时注意到,wfsa上所有权重全部置零。4.根据权利要求1所述的一种融合词n-gram语言模型的英文端到端语音识别系统在线解码方法,其特征在于,所述s4中具体的intersection操作方法参考文献weighted finite-state transducers in speech recognition的方法。5.根据权利要求4所述的一种融合词n-gram语言模型的英文端到端语音识别系统在线解码方法,其特征在于,所述s5中前馈分数计算是wfsa的一个基本操作,其细节见文献“关于加权有限态受主(wfsa)和加权有限态换能器(wfst)的介绍”。6.根据权利要求1所述的一种融合词n-gram语言模型的英文端到端语音识别系统在线解码方法,其特征在于,所述s6中表示已知半词序列,w
u
表示待评估半词。7.根据权利要求1所述的一种融合词n-gram语言模型的英文端到端语音识别系统在线解码方法,其特征在于,所述s6中包括统计模块,在计算评估后进行记录统计。

技术总结
本发明涉及语音识别技术领域,且公开了一种融合词N-gram语言模型的英文端到端语音识别系统在线解码方法,包括以下步骤:S1:N-gram语言模型的训练,对每一条语料首先进行切分,将所切分的序列和原序列共同作为语料用于构建语言模型,然后进行训练得到一个特殊的词级别语言模型;S2:更改半词序列,将半词序列改为词序列,最后未成词的部分除外;S3:构建WFSA,构建一个WFSA来枚举所有的拆词可能。本发明通过构建一个WFSA来枚举所有的拆词可能,在评估时,一般认为整词的评估效果优于半词,因此可以认为主要以整词在对假设进行评估,与配套的N-gram语言模型进行配合,能够提升语音识别系统的识别精度,降低词的错误率。降低词的错误率。降低词的错误率。


技术研发人员:黄羿衡
受保护的技术使用者:江苏苏云信息科技有限公司
技术研发日:2022.05.18
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-5819.html

最新回复(0)