言语处理的制作方法

专利2025-04-16  7


本说明书大体上涉及用于处理言语输入的系统和方法。


背景技术:

1、越来越期望使得与计算机的交互能够使用言语输入来执行。这需要输入处理方面的发展,特别是如何对计算机进行编程以处理和分析自然语言数据。这种处理可能涉及言语识别,该言语识别是计算语言学的领域,其使得能够通过计算机将口头语言识别和翻译为文本。


技术实现思路

1、为了获得最优的言语识别准确度,通用言语识别系统可能需要被适配,以在域特定的言语识别方面表现出色。域可以与接收言语数据的设备的类型、在接收言语数据的设备上运行的应用和/或接收言语数据的设备的上下文相关。例如,如果言语识别系统被适配以用于在车辆中使用,则通过能够更快速且更准确地转录言语,该言语包括用户可能会在车辆中说出的单词或短语,言语识别质量可以改进车辆中的言语识别系统。

2、被用于使言语识别系统适配特定域的一种技术可以是分析由在特定域中操作的言语识别系统接收的转录日志。适配过程可以包括:与在针对通用言语识别系统的转录日志中相比,标识在针对特定域的转录日志中更常见的单词或短语。语言模型可能被偏置,使得该语言模型更有可能生成候选转录,该候选转录包括在针对特定域的转录日志中更常见的单词或短语。

3、如果没有针对目标语言的特定域的转录日志,则该技术对于针对新目标语言的特定域发起言语识别系统可能并不实用。在该实例中,利用另一种语言的域特定的转录日志可能会有所帮助。语言模型适配系统可以将域特定的转录日志翻译为目标语言。语言模型适配系统可以分析翻译后的转录日志,以标识对于在特定域中操作的设备说话的用户来说似乎更常见的单词和短语。在标识出常见单词的情况下,语言模型适配系统可以偏置针对目标语言的通用语言模型,使得在处理可能听起来与目标语言的其他单词类似的音频数据时,偏置后的语言模型可能更有可能生成包括常见单词的转录。

4、利用偏置后的语言模型,可能可以以目标语言发起针对特定域的言语识别系统,并受益于具有改进的准确度和时延的改进的言语识别。用户可以从言语识别中受益,该言语识别在系统发起时被配置为更快速且更准确地识别单词和短语,这些单词和短语是用户在与在特定域中操作的系统说话时更有可能说出的单词和短语。

5、根据本申请描述的主题的创新方面,一种用于处理言语输入的方法包括以下动作:由计算设备,接收话语的转录,该话语由在域中操作的计算设备接收并且是源语言的;由计算设备,生成话语的转录的目标语言的翻译后的转录;由计算设备,接收针对目标语言的语言模型;通过增加语言模型选择翻译后的转录中所包括的词项的可能性,由计算设备偏置针对目标语言的语言模型;以及在域中操作时,由计算设备,使用偏置后的语言模型来生成目标语言的话语的转录。

6、这些和其他实施方式可以分别可选地包括以下特征中的一个或多个。使用偏置后的语言模型生成目标语言的话语的转录的动作包括:当计算设备在域中操作时,由计算设备,接收话语的音频数据;由计算设备,提供音频数据作为声学模型的输入,该声学模型被配置为标识话语的音素;基于计算设备在域中操作,由计算设备,提供话语的音素作为偏置后的语言模型的输入;以及,基于提供话语的音素作为偏置后的语言模型的输入,由计算设备,生成话语的转录。针对目标语言的语言模型是通用语言模型。针对目标语言的偏置语言是特定于在域中操作的计算设备的语言模型。该动作包括:由计算设备,标识在翻译后的转录中出现的n元语法和每个n元语法的出现频率;以及由计算设备,标识在翻译后的转录中出现的大于阈值出现频率的n元语法的子集。

7、通过增加语言模型选择n元语法的子集的可能性,计算设备偏置语言模型。增加语言模型选择n元语法的子集的可能性的动作包括:针对n元语法的子集中的每个n元语法,基于针对n元语法的出现频率与阈值出现频率之间的较大差异,将可能性增加更大的数量。该动作包括:由计算设备,接收话语的音频数据,该话语由在域中操作的计算设备接收并且是源语言的。接收由在域中操作的计算设备接收并且是源语言的话语的转录的动作包括:由计算设备,生成话语的转录,该话语由在域中操作的计算设备接收并且是源语言的。该动作包括:由计算设备,接收附加话语的附加转录,该附加话语由在除了域之外的域中操作的计算设备接收并且是源语言的;由计算设备,生成附加转录的附加翻译后的转录;与在附加翻译后的转录中相比,标识在翻译后的转录中具有更高出现频率的词项。

8、通过增加语言模型选择翻译后的转录中所包括的词项的可能性来偏置针对目标语言的语言模型的动作包括:通过增加语言模型选择词项的可能性来偏置针对目标语言的语言模型,与在附加翻译后的转录中相比,该词项在翻译后的转录中具有更高出现频率。该动作包括:由计算设备,接收目标语言的语法。通过增加语言模型选择翻译后的转录中所包括的词项的可能性来偏置针对目标语言的语言模型的动作包括:通过增加语言模型选择语法的可能性来偏置针对目标语言的语言模型,该语法包括翻译后的转录中所包括的词项。

9、该方面的其他实施例包括在计算机存储设备上记录的对应系统、装置和计算机程序,每个系统、装置和计算机程序都被配置为执行方法的操作。

10、本说明书所描述的主题的特定实施例可以被实施,以便实现以下优点中的一个或多个。可能可以发起一种针对新语言和新域的言语识别系统,该言语识别系统被配置为更准确且更快速地识别该域中的用户所说的常见短语。可能没有必要用新语言收集针对该域的任何言语数据。

11、本说明书所描述的主题的一个或多个实施例的细节是在下面的附图和描述中陈述的。主题的其他特征、方面和优点将通过描述、附图和权利要求而变得显而易见。



技术特征:

1.一种计算机实施的方法,所述方法在数据处理硬件上被执行时,使所述数据处理硬件执行操作,所述操作包括:

2.根据权利要求1所述的计算机实施的方法,其中,所述操作进一步包括:

3.根据权利要求2所述的计算机实施的方法,其中,标识所述常见的单词或短语包括:

4.根据权利要求3所述的计算机实施的方法,其中,所述操作进一步包括:对于所述n元语法的子集中的每个n元语法,基于所述n元语法的所述出现频率与所述阈值出现频率之间的较大差异,将所述语言模型选择所述n元语法的子集的可能性增加更大的数量。

5.根据权利要求2所述的计算机实施的方法,其中,所述操作进一步包括:

6.根据权利要求2所述的计算机实施的方法,其中,所述操作进一步包括:

7.根据权利要求1所述的计算机实施的方法,其中:

8.根据权利要求6所述的计算机实施的方法,其中,生成由所述用户用所述目标语言说出的所述话语的所述转录包括:

9.根据权利要求6所述的计算机实施的方法,其中:

10.根据权利要求1所述的计算机实施的方法,其中,所述数据处理硬件驻留在用户设备或服务器上。

11.一种系统,包括:

12.根据权利要求11所述的系统,其中,所述操作进一步包括:

13.根据权利要求12所述的系统,其中,标识所述常见的单词或短语包括:

14.根据权利要求13所述的系统,其中,所述操作进一步包括:对于所述n元语法的子集中的每个n元语法,基于所述n元语法的所述出现频率与所述阈值出现频率之间的较大差异,将所述语言模型选择所述n元语法的子集的可能性增加更大的数量。

15.根据权利要求12所述的系统,其中,所述操作进一步包括:

16.根据权利要求12所述的系统,其中,所述操作进一步包括:

17.根据权利要求11所述的系统,其中:

18.根据权利要求16所述的系统,其中,生成由所述用户用所述目标语言说出的所述话语的所述转录包括:

19.根据权利要求16所述的系统,其中:

20.根据权利要求11所述的系统,其中,所述数据处理硬件驻留在用户设备或服务器上。


技术总结
本申请涉及言语处理。公开了用于适配语言模型的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面中,一种方法包括接收话语的转录的动作,所述话语由在域中操作的计算设备接收并且是源语言的。所述动作还包括:生成所述话语的所述转录的目标语言的翻译后的转录。所述动作还包括:接收针对所述目标语言的语言模型。所述动作还包括:通过增加所述语言模型选择所述翻译后的转录中所包括的词项的可能性,偏置针对所述目标语言的所述语言模型。所述动作还包括:在所述域中操作时,使用所述偏置后的语言模型来生成所述目标语言的话语的转录。

技术研发人员:彼塔尔·阿列克西克,本杰明·保尔·希尔森·海诺
受保护的技术使用者:谷歌有限责任公司
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-13172.html

最新回复(0)