用于识别语音的方法及其相关产品与流程

专利2024-08-02  73



1.本发明的实施方式涉及信息处理技术领域,更具体地,本发明的实施方式涉及用于识别语音的方法、执行前述方法的设备和计算机可读存储介质。


背景技术:

2.本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本技术的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
3.目前语音识别技术已经广泛的应用于多个领域,例如商业、教育、医疗等产业领域。其中,在教育场景下,语音识别技术主要是应用在智能硬件或终端中,能够为广大学习者提供便捷的资源输出和交互方式。不仅如此,该技术在人工辅助及工具化产品中也发挥了很大的价值,如辅助人工进行多媒体资源的生产加工(例如音频分割)等。然而,当前的语音识别技术(例如自动语音识别技术,简称asr技术)往往会受限于自身技术问题而导致识别结果准确率低,从而使得识别结果无法满足实际需求。


技术实现要素:

4.已知的对语音的识别效果不理想,这是非常令人烦恼的过程。
5.为此,非常需要一种改进的用于识别语音的方案及其相关产品,能够有效提高语音识别准确率,从而确保语音识别结果更加贴合实际需求。
6.在本上下文中,本发明的实施方式期望提供一种用于识别语音的方案及其相关产品。
7.在本发明实施方式的第一方面中,提供了一种用于识别语音的方法,包括:响应于对语音的识别需求,获取与所述语音相关的候选文本集合,其中所述候选文本集合中包括对所述语音进行语音识别处理得到的一个或多个语音识别文本,以及与所述语音识别文本对应的纠正文本;对所述候选文本集合中的所有文本进行评分处理,以筛选出目标文本;以及根据所述目标文本确定对所述语音的识别结果。
8.在本发明的一个实施例中,对所述候选文本集合中的所有文本进行评分处理以筛选出目标文本包括:基于预训练的多个评分模型对所述候选文本集合中的所有文本进行联合评分处理;以及从所述候选文本集合中筛选出评分最高的文本,并确定其为所述目标文本。
9.在本发明的另一个实施例中,基于预训练的多个评分模型对所述候选文本集合中的所有文本进行联合评分处理包括:基于每个所述评分模型分别对所述候选文本集合中的每个文本进行评分;以及将每个所述评分模型对所述每个文本的评分进行加权求和处理,以得到所述每个文本的最终评分。
10.在本发明的再一个实施例中,根据以下公式来得到所述每个文本的最终评分:si=αs
di
+λs
li
+δs
ci
;其中,s
di
、s
li
和s
ci
分别为不同评分模型对每个文本的评分,α、λ和δ分别为对应的权重,si为每个文本的最终评分。
11.在本发明的又一个实施例中,其中所述评分模型包括支持不同测评维度的解码器模型、语言模型和声学模型。
12.在本发明的一个实施例中,获取与所述语音相关的候选文本集合包括:对所述语音进行语音识别处理,以得到所述语音识别文本;对所述语音识别文本进行文本纠正处理,以得到纠正文本;以及根据所述语音识别文本和所述纠正文本确定所述候选文本集合。
13.在本发明的另一个实施例中,对所述语音进行语音识别处理包括:将所述语音进行断句处理,以得到多段处于预定时长范围内的音频信息;以及采用束搜索算法对所述音频信息进行处理,以得到多个所述语音识别文本。
14.在本发明的再一个实施例中,根据所述目标文本确定对所述语音的识别结果包括:确定所述目标文本为所述语音的识别结果;或对所述目标文本进行文本可读性增强处理,并确定处理后的目标文本为所述语音的识别结果。
15.在本发明的又一个实施例中,对所述目标文本进行文本可读性增强处理包括以下中的一项或多项:对所述目标文本进行书面化形式调整;对所述目标文本进行标点和/或大小写格式的调整;以及利用后置断句模型,结合所述目标文本和所述音频信息进行断句处理。
16.在本发明实施方式的第二方面中,提供了一种设备,包括:处理器;以及存储器,其存储有用于识别语音的计算机指令,当所述计算机指令由所述处理器运行时,使得所述设备执行根据前文以及下文多个实施例所述的方法。
17.在本发明实施方式的第三方面中,提供了一种计算机可读存储介质,包含用于识别语音的程序指令,当所述程序指令由处理器执行时,使得所述设备执行根据前文以及下文多个实施例所述的方法。
18.根据本发明实施方式的用于识别语音的方案及其相关产品,可以利用从包含语音识别文本和纠正文本的候选文本集合中筛选出的目标文本来确定对语音的识别结果。可以看出,本发明的方案不局限于利用语音识别文本来确定识别结果,而是充分结合了语音识别文本对应的纠正文本以供筛选,从而能够有效提高语音识别准确率。特别是语法问题等致使语音识别文本存在较大识别误差时,通过本发明的方案所得到的语音识别结果更加贴合实际需求。
19.在本发明的一些实施例中,可以利用不同测评维度的多个评分模型(例如语音模型、声学模型等)来对候选文本集合中的文本进行联合评分,从而可以在确保语音识别结果准确率的同时,使得所筛选出的目标文本的语法、语义等更加符合实际场景需求。
20.此外,在本发明的另一些实施例中,还可以对筛选出的目标文本进行文本可读性增强处理(例如书面化调整、格式调整和/或断句处理等),从而提高语音识别结果的可读性,以提升用户的使用体验。
附图说明
21.通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若
干实施方式,其中:
22.图1示意性地示出了适于实现本发明实施方式的示例性计算系统100的框图;
23.图2示意性地示出了根据本发明一个实施例的用于识别语音的方法流程图;
24.图3示意性地示出了根据本发明另一个实施例的用于识别语音的方法流程图;
25.图4示意性地示出了根据本发明实施例的获取候选文本集合的系统架构图;
26.图5示意性地示出了根据本发明实施例的筛选目标文本的系统架构图;以及
27.图6示意性地示出了根据本发明实施例的设备的示意框图。
28.在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
29.下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
30.图1示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示,计算系统100可以包括:中央处理单元(cpu)101、随机存取存储器(ram)102、只读存储器(rom)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中,与系统总线104耦合的有cpu 101、ram 102、rom 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合,键盘111与键盘控制器106耦合,串行外部设备112与串行接口控制器107耦合,并行外部设备113与并行接口控制器108耦合,以及显示器114与显示控制器109耦合。应当理解,图1所述的结构框图仅仅是为了示例的目的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况增加或减少某些设备。
31.本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式,本文一般称为“电路”、“模块”“单元”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
32.可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
33.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限
于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
34.计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。
35.可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网(lan)或广域网(wan))连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
36.下面将参照本发明实施例的方法的流程图和设备(或系统)的框图描述本发明的实施方式。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
37.也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。
38.也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
39.根据本发明的实施方式,提出了一种用于识别语音的方法及其相关产品。此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
40.下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
41.发明概述
42.本发明人发现,现有语音识别方法对语音的识别结果准确率低,识别效果不理想。例如,常用的asr技术多依赖其所识别出的语音识别文本来确定最终识别结果。然而,在实际应用中,受限于自身技术问题可能会致使其识别出的语音识别文本存在语法问题等,从而导致语音识别结果准确率低,难以满足实际需求。
43.基于此,发明人发现可以综合考虑语音识别文本和其对应的纠正文本以筛选出最优的识别文本。具体地,可以利用从包含语音识别文本和纠正文本的候选文本集合中筛选出的目标文本来确定对语音的识别结果,而不局限于利用语音识别文本来确定识别结果,从而有效提高语音识别准确率。
44.在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
45.示例性方法
46.下面参考图2来描述根据本发明示例性实施方式的用于识别语音的方法。需要注意的是,本发明的实施方式可以应用于适用的任何场景。
47.图2示意性地示出了根据本发明一个实施例的用于识别语音的方法200流程图。需要说明的是,本技术中所涉及的语音可以是实时录制或者非实时录制的各种形式的语音信息,例如对话或通话音频、歌曲、书本附赠的音频、故事音频、影视剧音频或其他可供进行语音识别的音频文件等。
48.如图2所示,在步骤s201处,响应于对前述的语音的识别需求,可以获取与该语音相关的候选文本集合。如前文所述,该待识别的语音可以包括多种形式,由此可以根据具体的应用场景来确定是否有对语音的识别需求。例如,可以由外界触发对语音的识别需求,或者也可以是系统默认对语音有识别需求等。而前述的候选文本集合可以包括语音识别文本和与该语音识别文本对应的纠正文本。在一些实施例中,可以通过对该语音进行语音识别处理来得到前述的语音识别文本。例如,可以通过asr技术或其他能够将语音转换成文字的语音识别技术对语音进行识别,以得到语音识别文本。需要说明的是,这里对候选文本集合中的语音识别文本的数量不做限制,例如可以是一个语音识别文本,还可以是多个语音识别文本,具体可以根据进行语音识别处理时所采用的语音识别技术来确定。另外,纠正文本可以理解为是对语音识别文本进行文本纠正处理(例如语法、语义或者错别字等)所得到的文本。
49.接着,在步骤s202处,可以对候选文本集合中的所有文本进行评分处理,以筛选出目标文本。这里的所有文本可以理解为包括候选文本集合中的所有语音识别文本和纠正文本。可以看出,在识别语音过程中充分结合纠正文本和语音识别文本以供筛选,而不仅仅局限于语音识别文本或者纠正文本,一方面可以有效克服依赖单一语音识别文本而导致识别结果准确率低的问题,另外还可以避免仅依赖纠正文本而导致识别结果被过度纠正与实际音频不一致的问题。
50.接着,在步骤s203处,可以根据前述的目标文本确定对语音的识别结果。由此,本发明的方案不局限于利用语音识别文本来确定识别结果,而是充分结合了语音识别文本对应的纠正文本以供筛选,从而能够有效提高语音识别准确率,以及确保所得到的语音识别结果更加贴合实际需求。
51.图3示意性地示出了根据本发明另一个实施例的用于识别语音的方法300流程图。需要说明的是,方法300可以理解为是对图2中方法200的进一步补充或拓展。因此,前文结合图2的相关细节性描述同样也适用于下文。
52.如图3所示,在步骤s301处,可以响应于对语音的识别需求,以获取与该语音相关的候选文本集合。如前文结合图2所述,这里的语音可以理解为是实时录制或非实时录制的通话音频、歌曲、影视剧音频等多种形式的语音信息。而对不同类型的语音的识别需求可以结合具体应用场景来确定。
53.前述的候选文本集合可以有多种获取方式。在一些实施例中,可以对前述的语音进行语音识别处理以得到语音识别文本。例如,可以通过asr技术等进行语音识别处理。又
例如,还可以将语音进行断句处理,以得到多段处于预定时长范围内的音频信息。通过将语音断句处理成多段音频信息,有利于提高后续语音识别的效率及精准度。需要说明的是,这里的预定时长可以根据具体设计需求进行调整(例如设置成20s)。接着,可以通过束搜索算法对该音频信息进行处理以得到多个语音识别文本。束搜索算法是一种能够节省内存的广度优先搜索算法,利用束搜索算法进行音频信息的处理,可以获得与音频信息相关的精准且全面的语音识别文本。需要说明的是,这里仅以束搜索算法为例来说明音频信息的处理过程,本发明方案中的语音识别文本的获取方式并不受此限制。
54.接着,可以对所得到的语音识别文本进行文本纠正处理(例如语法、语义纠正等)以得到纠正文本。然后,可以根据语音识别文本和纠正文本确定前述的候选文本集合。需要说明的是,这里对候选文本集合的获取方式的细节性描述仅是示例性说明,本发明的方案并不受此限制。另外,候选文本集合中的语音识别文本的数量也不进行限制,具体可根据应用需求和所采用的语音识别技术来确定。
55.在获取到候选文本集合之后,需要对候选文本集合中的所有文本进行评分处理。而具体的评分处理方式在实际应用中可以有多种实现形式。例如,在步骤s302处,可以基于预训练的多个评分模型对该候选文本集合中的所有文本进行联合评分处理。这里的评分模型可以包括支持不同测评维度的评分模型,例如解码器模型、语言模型和声学模型等。前述的联合评分处理过程具体涉及,可以基于每个评分模型分别对候选文本集合中的每个文本(包括语音识别文本和纠正文本)进行评分。然后,可以将每个评分模型对每个文本的评分进行加权求和处理,以得到每个文本的最终评分。
56.在一些实施例中,假设采用3种支持不同测量维度的评分模型来进行联合评分处理,可以根据公式si=αs
di
+λs
li
+δs
ci
计算每个文本的最终评分。其中,s
di
、s
li
和s
ci
分别为不同评分模型对每个文本的评分,α、λ和δ分别为对应的权重,si为每个文本的最终评分。需要说明的是,这里所展示的公式可以根据实际所使用的评分模型的数量进行适应性调整。每个评分模型对应的权重也可以根据应用需求进行调整,例如需要识别结果具有高精准的语法,就可以加大支持语法测评的评分模型的权重比例。
57.在完成对所有文本的联合评分处理后,接着,在步骤s303处,可以从候选文本集合中筛选出评分最高的文本,并确定其为目标文本。在一些实施例中,可以依据各个文本的最终评分从高到低对文本进行排序,将排序最靠前的文本作为目标文本。可以看出,所筛选出的目标文本是综合各个测评维度得到的最优文本。
58.然后,在步骤s304处,可以根据前述的目标文本确定对语音的识别结果。由此,基于综合不同测量维度所筛选出的目标文本来确定最终的识别结果,可以在提高识别结果准确率的同时,确保识别结果满足实际应用场景需求。
59.进一步地,在一些实施例中,可以根据应用需求,直接将目标文本确定为语音的识别结果。而在另一些实施例中,考虑到语音的识别结果的可读性,可以对目标文本进行文本可读性增强处理,并确定处理后的目标文本为语音的识别结果。例如,可以对该目标文本进行书面化形式调整。具体地,可以利用文本转换模型来实现将目标文本转换成书面化文本。其中,该文本转换模型可以采用加权有限状态机,具体涉及利用文本反正则化规则构造加权有限状态机(weighted finite-state transducers,下文简称wfst)。接着,利用该wfst对所输入文本进行转换。当然,前文的文本转换模型也可以通过seq2seq架构的端到端模型
来实现,其涉及的编码器/解码器可以为循环神经网络模型,也可以为transformer类的模型。当训练数据充足时,使用端到端模型进行文本反正则化一般会比wfst的效果更好,尤其是在有误识别噪声输入的情况下。
60.又例如,还可以对目标文本进行标点和/或大小写格式的调整。在一些实施场景中,可以利用格式调整模型对目标文本或经书面化调整后的目标文本进行标点和/或大小写格式的调整。其中,所涉及的格式调整模型可以包括编码器、标点解码器和大小写解码器。而编码器可以包括循环神经网络模型、transformer、bert等基于注意力机制的模型,标点解码器和大小写解码器可以包括多层感知机、条件随机场等模型。具体地,可以利用格式调整模型中的编码器(例如循环神经网络模型、transformer、bert等)对目标文本进行编码。接着,可以利用标点解码器(例如多层感知机、条件随机场等模型)对编码器的编码输出进行解码,以得到标点输出。还可以利用大小写解码器(例如多层感知机、条件随机场等模型)对编码输出和标点输出进行解码,以得到大小写输出。由此,实现对目标文本进行标点和大小写格式的调整。需要说明的是,这里对标点和大小写格式的调整过程的描述仅是示例性说明,本发明的方案并不受此限制。
61.再例如,还可以利用后置断句模型,结合目标文本和音频信息进行断句处理。在一些实施例中,后置断句模型可以包括带有注意力机制的时间卷积神经网络模型tcn和条件随机场解码模块crf。其中注意力机制可以采用attention机制(以下简称att)。具体地,可以利用前述的时间卷积神经网络模型(例如tcn)对目标文本进行编码。接着,可以利用注意力机制(例如att)将时间卷积神经网络模型的编码输出和音频信息对应的语音识别文本进行融合,以得到融合信息。然后,可以利用条件随机场解码模块(例如crf)对前述融合信息进行解码,以得到音频信息中每个音频帧的断句标签(例如句首静音、句中静音、句尾静音以及音频四种类型)。最终可以将每段预定时长内音频帧中的、且类型为句尾静音的首帧确定为断句点。由此,通过引入后置断句模型结合目标文本和音频信息进行断句处理,以基于时间卷积神经网络模型和注意力机制相结合来实现文本和语音的多模态融合,从而加强断句的精准度以及增强文本的可读性。
62.以下结合图4和图5中的具体技术实现架构进一步对本发明的方案进行说明。
63.图4示意性地示出了根据本发明实施例的获取候选文本集合的系统架构图。需要说明的是,图4可以理解为是图2和图3中获取候选文本集合的一种可行的技术实现架构。因此,前文结合图2和图3中的相关细节性描述同样也适用于下文。
64.如图4所示,该用于获取候选文本集合的架构可以包括语音识别模块和纠错模块。其中,输入至语音识别模块的音频可以根据待识别的语音来确定。例如,可以将待识别的较长语音初步断句成预定时长(例如20s)范围内的多个音频。然后利用语音识别模块对音频进行识别得到若干候选的语音识别文本(例如图4中的语音识别文本1~语音识别文本n)。具体地,该语音识别模块可以采用束搜索算法对音频进行解码来得到语音识别文本。
65.然后,利用纠错模块对前述的语音识别文本进行文本校准处理。在一些实施场景中,纠错模块可以采用类似机器翻译的端到端方法建模,例如可以采用transformer模型。具体在应用时,可以将所得到的语音识别文本1~语音识别文本n输入至该纠错模块中进行文本纠错,得到对应的纠正文本(例如图4中的纠正文本1~纠正文本n)。由此,可以将所得到的语音识别文本和纠正文本加入到候选文本集合中以待筛选。
66.在实际应用中,考虑到纠错模块在进行文本纠正过程中可能会出现纠正错误的情况,因此需要综合考虑音频、语义、语法等多个维度以从候选文本集合中筛选出目标文本。图5示意性地示出了根据本发明实施例的筛选目标文本的系统架构图。需要说明的是,图5可以理解为是图2和图3中筛选目标文本的一种可行的技术实现架构。因此,前文结合图2和图3中的相关细节性描述同样也适用于下文。
67.如图5所示,可以利用解码器模型、语言模型和声学模型来对候选文本集合(包括语音识别文本1~n和纠正文本1~n)中文本进行联合评分处理,以从候选文本集合中筛选出评分最高的文本作为目标文本。其中,可以利用解码器模型来综合考虑文本信息和音频信息对候选文本集合中文本进行测评。该解码器模型可以采用自回归的transformer解码器,且可以与编码器输出的注意力打分,以输出对候选文本的评分。例如,可以采用以下公式进行评分:
[0068][0069]
其中,e表示待评分的文本,e
t
表示文本中的token。
[0070]
另外,还可以利用语言模型综合考虑句子通顺、合理程度和语法错误等对候选文本集合中文本进行测评。其中,该语言模型可以采用transformer、bert或gpt模型等。例如,使用bert模型计算masked-lm任务,以得到伪似然(pseudo log-likelihood,简称pll)评分。具体可以采用以下公式进行评分:
[0071][0072]
其中,e表示待评分的文本,e
t
表示文本中的token,且满足e={e1,e2,...,e
|e|
}以及e
\t
={...,e
t-1
,[mask],e
t+1
,...}。
[0073]
此外,还可以利用语音评测模型综合考虑文本与音频的一致性来对候选文本集合中文本进行测评。其中,该语音评测模型可以涉及声学模型、强制对齐技术和语音评测算法(goodness of pronunciation,简称gop)算法等。例如,gop算法涉及利用事先获知的文字信息,把语音和其对应的文字做一次强制对齐(force alignment),并把强制对齐得到的似然分数值与在不知道对应文字情况下得到的似然分数值做比较,以及将所得到的似然比(likelihood ratio)作为发音好坏的评价。基于该发音好坏的评价来进行文本的评分,以测评文本与音频的一致性。
[0074]
在利用各个模型分别对文本进行评分后,可以根据公式si=αs
di
+λs
li
+δs
ci
计算每个文本的最终评分,其中s
di
、s
li
和s
ci
可以分别为是解码器模型、语言模型和声学模型对每个文本的评分。然后,可以依据最终评分从高到低对候选文本集合中的文本进行排序,以将最终评分最高的文本确定为目标文本。由此,通过使用不同评分模型进行联合评分,以从语音、语义以及语音和语义的一致性等多个维度来筛选目标文本,确保最终的识别结果能够与音频高度一致,且最大程度上提高识别结果准确率。特别是针对一些应用场景(例如教学场景下的语音识别),可以确保语音的识别结果符合语法基本规则、语义更通顺以及更符合场景需求。
[0075]
示例性设备
[0076]
在介绍了本发明示例性实施方式的方法之后,接下来,参考图6对本发明示例性实施方式的用于识别语音的相关产品进行描述。
[0077]
图6示意性地示出了根据本发明实施例的设备600的示意框图。如图6所示,设备600可以包括处理器601和存储器602。其中存储器602存储有用于识别语音的计算机指令,当所述计算机指令由处理器601运行时,使得设备600执行根据前文结合图2和图3所描述的方法。例如,在一些实施例中,设备600可以执行对候选文本集合的获取、对文本的评分、对语音识别结果的确定等。基于此,通过设备600可以充分结合语音识别文本及其对应的纠正文本以供筛选,从而能够有效提高语音识别准确率,以及确保所得到的语音识别结果更加贴合实际需求。
[0078]
在一些实施场景中,设备600可以包括具有语音识别和信息处理功能的设备(例如平板、手机或其他智能设备等),本发明的方案对设备600可具备的结构设计并不进行限制。
[0079]
应当注意,尽管在上文详细描述中提及了用于识别语音的若干装置或子装置,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
[0080]
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0081]
申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。
[0082]
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。

技术特征:
1.一种用于识别语音的方法,其特征在于,包括:响应于对语音的识别需求,获取与所述语音相关的候选文本集合,其中所述候选文本集合中包括对所述语音进行语音识别处理得到的一个或多个语音识别文本,以及与所述语音识别文本对应的纠正文本;对所述候选文本集合中的所有文本进行评分处理,以筛选出目标文本;以及根据所述目标文本确定对所述语音的识别结果。2.根据权利要求1所述的方法,其特征在于,对所述候选文本集合中的所有文本进行评分处理以筛选出目标文本包括:基于预训练的多个评分模型对所述候选文本集合中的所有文本进行联合评分处理;以及从所述候选文本集合中筛选出评分最高的文本,并确定其为所述目标文本。3.根据权利要求2所述的方法,其特征在于,基于预训练的多个评分模型对所述候选文本集合中的所有文本进行联合评分处理包括:基于每个所述评分模型分别对所述候选文本集合中的每个文本进行评分;以及将每个所述评分模型对所述每个文本的评分进行加权求和处理,以得到所述每个文本的最终评分。4.根据权利要求3所述的方法,其特征在于,根据以下公式来得到所述每个文本的最终评分:s
i
=αs
di
+λs
li
+δs
ci
;其中,s
di
、s
li
和s
ci
分别为不同评分模型对每个文本的评分,α、λ和δ分别为对应的权重,s
i
为每个文本的最终评分。5.根据权利要求4所述的方法,其特征在于,其中所述评分模型包括支持不同测评维度的解码器模型、语言模型和声学模型。6.根据权利要求1至5中任一项所述的方法,其特征在于,获取与所述语音相关的候选文本集合包括:对所述语音进行语音识别处理,以得到所述语音识别文本;对所述语音识别文本进行文本纠正处理,以得到纠正文本;以及根据所述语音识别文本和所述纠正文本确定所述候选文本集合。7.根据权利要求6所述的方法,其特征在于,对所述语音进行语音识别处理包括:将所述语音进行断句处理,以得到多段处于预定时长范围内的音频信息;以及采用束搜索算法对所述音频信息进行处理,以得到多个所述语音识别文本。8.根据权利要求7所述的方法,其特征在于,根据所述目标文本确定对所述语音的识别结果包括:确定所述目标文本为所述语音的识别结果;或对所述目标文本进行文本可读性增强处理,并确定处理后的目标文本为所述语音的识别结果。9.一种设备,其特征在于,包括:处理器;以及存储器,其存储用于识别语音的计算机指令,当所述计算机指令由所述处理器运行时,
使得所述设备执行根据权利要求1-8的任意一项所述的方法。10.一种计算机可读存储介质,其特征在于,包含用于识别语音的程序指令,当所述程序指令由处理器执行时,使得实现根据权利要求1-8的任意一项所述的方法。

技术总结
本发明的实施方式提供了一种用于识别语音的方法及相关产品。其中,该方法包括:响应于对语音的识别需求,获取与所述语音相关的候选文本集合,其中所述候选文本集合中包括对所述语音进行语音识别处理得到的一个或多个语音识别文本,以及与所述语音识别文本对应的纠正文本;对所述候选文本集合中的所有文本进行评分处理,以筛选出目标文本;以及根据所述目标文本确定对所述语音的识别结果。通过本发明的方案,能够有效提高语音识别准确率,从而确保语音识别结果更加贴合实际需求。语音识别结果更加贴合实际需求。语音识别结果更加贴合实际需求。


技术研发人员:穆禹彤 王艳 孙艳庆 段亦涛
受保护的技术使用者:网易有道信息技术(北京)有限公司
技术研发日:2022.07.07
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-9138.html

最新回复(0)