1.本技术涉及语音识别技术领域,具体涉及语音拒识方法、装置、电子设备及存储介质。
背景技术:2.语音助手是一种语音识别接口,能够识别并处理用户通过语音输入的请求。在实践中发现,在语音助手与用户进行人机交互的场景中,往往会存在噪声、背景音等非用户与语音助手正常交互产生的无效音频数据。无效音频数据会干扰语音助手与用户正常交互,容易出现语音助手答非所问等误响应问题。
3.目前,部分与语音助手具有拒识功能,能够拒绝响应无效音频数据。但是,现有的拒识方法仍然准确性不足的问题,可能会遗漏一些无效音频数据。
技术实现要素:4.本技术实施例公开了一种语音拒识方法、装置、服务设备及存储介质,能够提高语音拒识的准确性。
5.本技术实施例公开一种语音拒识方法,所述方法包括:从获取到的用户音频信号中提取人声特征;从所述人声特征中分离出用户声纹特征和用户音频内容特征;识别所述用户音频信号对应的用户音频文本,并提取所述用户音频文本的文本特征;根据所述用户声纹特征、所述用户音频内容特征以及所述文本特征确定是否拒识所述用户音频信号。
6.在一个实施例中,所述根据所述用户声纹特征、所述用户音频内容特征以及所述文本特征确定是否拒识所述用户音频信号,包括:计算所述用户声纹特征与历史声纹特征的第一相似度;所述历史声纹用于表征采集所述用户音频信号的终端设备的用户身份;计算所述用户音频内容特征与常用音频内容特征的第二相似度;所述常用音频内容特征是常用语音指令对应的音频内容特征,所述常用语音指令是根据语音指令的使用频率确定的;根据所述文本特征计算所述用户音频信号的第一有效概率;根据所述第一相似度、所述第二相似度以及所述第一有效概率确定是否拒识所述用户音频信号。
7.在一个实施例中,所述从获取到的用户音频信号中提取人声特征,包括:从获取到的用户音频信号中提取音频声音特征,并从所述音频声音特征中分离出人声特征;以及,所述根据所述文本特征计算所述用户音频信号的第一有效概率,包括;将所述文本特征与所述音频声音特征进行融合,得到融合特征;根据所述融合特征计算所述用户音频信号的第一有效概率。
8.在一个实施例中,所述根据所述第一相似度、所述第二相似度以及所述第一有效概率确定是否拒识所述用户音频信号,包括:根据所述第一相似度、所述第二相似度以及所述第一有效概率计算所述用户音频信号的第二有效概率;根据所述第二有效概率确定是否拒识所述用户音频信号。
9.在一个实施例中,所述根据所述第一相似度、所述第二相似度以及所述第一有效
概率确定是否拒识所述用户音频信号,包括:将所述第一相似度、所述第二相似度以及所述第一有效概率分别与各自对应的阈值进行比较;根据比较结果确定是否拒识所述用户音频信号。
10.在一个实施例中,所述提取所述用户音频文本的文本特征,包括:对所述用户音频文本进行分词操作,将所述用户音频文本转换成文本向量;通过自然语言处理编码器对所述文本向量进行编码,得到编码特征向量;所述文本编码器是利用bert模型作为老师模型进行知识蒸馏得到的,所述bert模型是利用第三样本数据进行无监督训练后得到的;通过自然语言处理解码器对所述编码特征向量进行解码,得到所述用户音频文本的文本特征。
11.在一个实施例中,所述从获取到的用户音频信号中提取人声特征,包括:对获取到的用户音频信号进行预处理,得到预处理音频信号;通过音频编码器对所述预处理音频信号进行编码,得到音频声音特征;所述音频编码器是利用第一样本数据对待训练的编码器模型进行无监督预训练,得到预训练编码器后,再利用第二样本数据对所述预训练编码器进行有监督训练得到的;所述第一样本数据包括多个第一音频数据;所述第二样本数据包括多个第二音频数据,以及与各个所述第二音频数据分别对应的音频特征标签;对所述音频声音特征进行人声分离操作,从所述音频声音频特征中分离出人声特征。
12.本技术实施例公开一种语音拒识装置,所述装置包括:提取模块,用于从获取到的用户音频信号中提取人声特征;分离模块,用于从所述人声特征中分离出用户声纹特征和用户音频内容特征;文本处理模块,用于识别所述用户音频信号对应的用户音频文本,并提取所述用户音频文本的文本特征;确定模块,用于根据所述用户声纹特征、所述用户音频内容特征以及所述文本特征确定是否拒识所述用户音频信号。
13.本技术实施例公开一种服务设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现本技术实施例公开的任意一种语音拒识方法。
14.本技术实施例公开一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本技术实施例公开的任意一种语音拒识方法。
15.与相关技术相比,本技术实施例具有以下有益效果:
16.从获取到的用户音频信号中提取人声特征,并从人声特征中分离出用户声纹特征和用户音频内容特征。并且,用户音频信号还可被转换成用户音频文本,以提取用户音频文本的文本特征。在前述的各个特征之后,根据用户声纹特征、用户音频内容特征以及文本特征确定是否拒识用户音频信号,从而可融合不同特征的特性进行语音与语义结合的多模态语音拒识,可以提高语音拒识的准确性。并且,在语音方面,可细分为声纹特征和音频内容特征,而不仅仅是单一的声音特征,可以进一步提高语音拒识的准确性。此外,语音拒识的实现有利于减轻服务设备的计算压力,提高服务设备的资源利用率。
附图说明
17.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1是一个实施例公开的一种语音拒识方法的应用场景示意图;
19.图2是一个实施例公开的一种语音拒识方法的方法流程示意图;
20.图3是一个实施例公开的一种语音拒识方法的方法流程示意图;
21.图4是一个实施例公开的一种语音拒识方法的方法流程示意图;
22.图5是一个实施例公开的一种语音拒识装置的结构示意图;
23.图6是一个实施例公开的一种服务设备的结构示意图。
具体实施方式
24.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
25.需要说明的是,本技术实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.本技术实施例公开了一种语音拒识方法、装置、服务设备及存储介质,能够提高语音拒识的准确性。以下分别进行详细说明。
27.请参阅图1,图1是一个实施例公开的一种语音拒识方法的应用场景示意图。如图1所示,可包括终端设备10,终端设备10可以是智能手机、智能平板或者智能手表等任意一种可以与用户直接进行人机交互的电子设备。
28.在一些可能的实施例中,终端设备10还可与服务设备20通信连接,服务设备20可以是本地服务器、云端服务器等任意一种与终端设备10连接,为终端设备10提供计算服务的电子设备。
29.终端设备的用户30可与终端设备10进行语音交互。终端设备10的语音助手功能被触发后,可采集用户音频信号,用户音频信号可能包括用户30面向语音助手输入的语音指令。或者,用户音频信号也可能包括用户30所处环境中的噪声、以及由除用户30以外的其它讲话者的聊天声音等背景音。其中,用户30面向语音助手输入的语音是有效语音数据,终端设备10需要对有效语音数据进行响应。噪声、背景音等非用户30面向语音助手输入的是无效语音数据,终端设备10需要拒绝对无效语音数据进行响应。
30.本技术实施例公开的语音拒识方法可应用于服务设备20,终端设备10可基于前述的通信连接,将采集到的用户音频信号上传至服务设备20,使得服务设备20获取到用户音频信号。服务设备20在执行本技术实施例公开的语音拒识方法之后,若服务设备20确定拒识用户音频信号,则服务设备20可以拒绝向终端设备10下发响应用户音频信号所需的数据或资源,使得终端设备10可以拒绝对用户音频信号进行响应。若服务设备20确定识别用户音频信号,则服务设备20可以向终端设备10下发响应用户音频信号所需的数据或资源,使得终端设备10可以对用户音频信号进行响应。
31.请参阅图2,图2是一个实施例公开的一种语音拒识方法的方法流程示意图,该方法可应用于前述的服务设备。如图2所示,该方法可包括以下步骤:
32.210、从获取到的用户音频信号中提取人声特征。
33.服务设备获取到的用户音频信号中可包括人声和非人声。其中,人声可能包括由终端设备的用户输入的语音;或者,也可能包括除终端设备的用户以外的其它讲话者的语音。
34.在步骤210中,服务设备可通过特征匹配、机器学习等方式从用户音频信号中提取出人声特征,可能包括终端设备的用户的人声特征,也可包括其它讲话者的人声特征。
35.在一些实施例中,服务设备在获取到用户音频信号之后,以及在提取人声特征之前,可以先对用户音频信号进行预处理,预处理可包括以下步骤:
36.对用户音频信号进行短时傅里叶变化(short-time fourier transform,stft),并利用梅尔滤波器(filter bank,fbank)对stft处理后得到的音频信号进行滤波,滤波后得到的音频信号可用于进行人声特征的提取。
37.需要说明的是,服务设备对用户音频信号进行预处理的操作可以不限于上述的stft处理,以及fbank滤波,具体不做限定。
38.220、从人声特征中分离出用户声纹特征和用户音频内容特征。
39.用户声纹特征,可用于表征用户音频信号中讲话者的身份,服务设备可利用不同的用户声纹特征识别不同的讲话者。示例性的,用户声纹特征可包括人声的共振峰频率值、时长、音强、波形等。
40.用户音频内容特征,可包括用户音频信号包含的讲话内容,以及讲话者在讲述上述内容时的声调、情绪、语速、讲话者的性别等与讲话者相关的至少一种数据。例如,假设用户音频信号为终端设备在其用户输入语音指令“播放音乐”时采集到音频信号,则用户音频内容特征可以包括“播放音乐”,以及用户在将“播放音乐”时的声调、情绪、语速等。
41.230、识别用户音频信号对应的用户音频文本,并提取用户音频文本的文本特征。
42.服务设备可通过自动语音识别(automatic speech recognition,asr)将用户音频信号包含的讲话内容转换成文本,得到用户音频文本。例如,假设用户音频信号为终端设备在其用户输入语音指令“播放音乐”时采集到音频信号,则用户音频文本可以是文本“播放音乐”。
43.需要说明的是,虽然用户音频内容特征包括的讲话内容与用户音频文本均对应于用户音频信号中的讲话内容,但用户音频内容特征还包括声调、情绪等语音独有,文本无法体现的特征。
44.在识别出用户音频文本之后,服务设备可基于分词或者深度学习等方法从用户音频文本中提取出文本特征。文本特征,可包括:基于词袋模型提取出的特征、词性特征、词长,是否包含数字等词本身的特性特征等,具体不做限定。
45.文本特征可表征用户音频文本在语义上的特征,可用于判断用户音频内容包含的讲话内容是否为面向语音助手输入的。
46.240、根据用户声纹特征、用户音频内容特征以及文本特征确定是否拒识用户音频信号。
47.一般而言,具有语音助手功能的终端设备往往是较为私密的个人物品,用户声纹特征又可用于进行身份识别。用户声纹特征可用于判断用户音频信号由终端设备的用户输入的可能性。
48.此外,用户在使用语音助手时输入的音频信号一般为语音指令,语音指令与聊天交谈等非语音指令相比,具有一定的特性。因此,用户音频内容特征可用于判断用户音频信号是面向语音助手输入的可能性。以及,文本特征可以进一步从语义上确定用户音频信号是面向语音助手输入的可能性。
49.服务设备可以实现语音加语义的多模态语音拒识,并且在语音方向可细分为声纹与音频内容,可以提高多模态语音拒识的准确性。
50.在一些实施例中,服务设备可基于深度学习的方式,将用户声纹特征、用户音频内容特征和文本特征输入到训练好的神经网络模型中,由训练好的神经网络模型基于输入的各个特征推理用户音频信号是有效音频数据的概率。服务设备可根据神经网络模型输出的概率确定是否拒识用户音频信号,例如在神经网络模型输出的概率高于预设阈值时,服务设备可确定对用户音频信号进行识别,以使终端设备对用户音频信号进行响应;否则,若神经网络模型输出的概率低于或等于预设阈值,服务设备可确定拒识用户音频信号。
51.在另一些实施例中,服务设备可基于特征匹配的方式,将用户声纹特征、用户音频内容特征和用户音频文本的文本特征中与各自对应的标准参考特征进行对比,并根据对比结果确定是否拒识用户音频信号。标准参考特征可以是预先设置的,从已经被标定为有效音频数据的音频信号中提取出的特征。例如,用户声纹特征对应的标准参考特征可包括:从终端设备的用户输入的任意一条语音信号中提取出的用户的历史声纹特征。音频内容特征对应的标准参考特征可包括:从任意一条语音指令中提取出的音频内容特征;或者,从使用频率较高的常用语音指令中提取出的音频内容特征。用户音频文本的文本特征对应的标准参考特征可包括:从任意一条语音指令对应的语音音频文本中提取出的文本特征。
52.可见,实施前述实施例,服务设备可通过用户声纹特征、用户音频内容特征,以及文本特征确定是否拒识用户音频信号,可融合不同特征的特性进行语音与语义结合的多模态语音拒识,可以提高语音拒识的准确性。并且,在语音方面,可细分为声纹特征和音频内容特征,而不仅仅是单一的音频特征,可以进一步提高语音拒识的准确性。此外,语音拒识的实现有利于减轻服务设备的计算压力,提高服务设备的资源利用率。
53.示例性的,针对本技术实施例公开的语音拒识方法的测试显示,对无效音频数据的识别准确率为98.79%,召回率为47.38%,极大的提升了用户使用语音助手的流畅度,避免了无效音频数据对用户的干扰。此外,在测试中确定拒识的用户音频信号占语音助手功能对应的音频信号总量的19%,直接降低了服务设备19%的计算压力。
54.请参阅图3,图3是一个实施例公开的一种语音拒识方法的方法流程示意图,该方法可应用于前述的服务设备。如图3所示,该方法可包括以下步骤:
55.310、从获取到的用户音频信号中提取音频声音特征,从音频声音特征中分离出人声特征。
56.其中,用户音频信号是终端设备采集并发送至服务设备的。
57.音频声音特征,可以是用户音频信号包括的所有声音的声音特征,可包括人声特征和非人声特征。
58.可选的,服务设备在对用户音频信号进行预处理后,可通过音频编码器(voice encoder)对预处理音频信号进行编码,得到音频声音特征。音频编码器可以是一种深度神经网络,经过训练后能够将用户音频信号转换成特征向量,对输入的预处理音频信号进行
处理,并输出音频声音特征。
59.服务设备可通过人声分离模型对音频声音特征进行处理,以得到人声特征。人声分离模型可以是另一种深度神经网络,经过训练后能够推理输入的音频声音特征属于人声特征的可能性。
60.示例性的,服务设备可按照一个时间单位(如20毫秒)的间隔对音频声音特征进行截取,并将截取出的每个特征片段输入至人声分离模型。人声分离模型推理特征片段属于人声特征的概率,并输出推理结果。推理结果可通过一个数值范围在[0,1]的浮点数进行表示,推理结果的数值越大,特征偏度属于人声特征的概率越大。服务设备可将每个特征片段对应的推理结果与人声阈值进行对比,将对应的推理结果大于或等于人声阈值的特征片段确定为人声特征片段,并将多个人声特征片段按顺序进行拼接,得到从音频声音特征中分离出的人声特征。
[0061]
320、从人声特征中分离出用户声纹特征和用户音频内容特征。
[0062]
330、识别用户音频信号对应的用户音频文本,并提取用户音频文本的文本特征。
[0063]
服务设备可对用户音频文本进行分词操作,将用户音频文本转换成文本向量,并利用训练好的自然语言处理模型对文本向量进行处理,得到用户音频文本的文本特征。其中,自然语言处理模型可包括一个或多个深度神经网络的组合,具体不做限定。
[0064]
340、计算用户声纹特征与历史声纹特征的第一相似度。
[0065]
历史声纹特征可以是从终端设备的用户输入的任意一条音频信号中提取出的,可用于表征终端设备的用户身份。
[0066]
示例性的,在用户首次使用终端设备的语音助手功能时,终端设备可以采集用户输入的历史音频信号,并将初始音频信号上传至服务设备。服务设备可从历史音频信号中提取出人声的声纹特征作为历史声纹特征,并将历史声纹特征与终端设备的设备标识进行绑定,或者将历史声纹特征与终端设备上登录的用户账号进行绑定。可选的,终端设备或者用户账号可与多个不同用户分别对应的历史声纹特征进行绑定,以适应不同用户的使用需求。服务设备在执行步骤340之前,可根据终端设备的设备标识或者终端设备上登录的用户账号的账号标识从数据库中调取出对应的历史声纹特征。
[0067]
用户声纹特征与历史声纹特征的第一相似度可通过以下任意一种相似度算法计算得到:欧几里得距离、皮尔逊相关系数、余弦相似度或广义jaccard相似系数,但不限于此。
[0068]
350、计算用户音频内容特征与常用音频内容特征的第二相似度。
[0069]
常用音频内容特征可以是常用语音指令对应的音频内容特征,常用语音指令可以是根据语音指令的使用频率确定的。
[0070]
示例性的,可预先收集并统计用户在使用语音助手时输入的语音指令的使用次数,并按照使用次数从高到低的顺序对各个语音指令进行排序,排名在前15%的语音指令可以被认为是常用语音指令。
[0071]
用户音频内容特征与常用音频内容特征的第二相似度也可通过以下任意一种相似度算法计算得到:欧几里得距离、皮尔逊相关系数、余弦相似度或广义jaccard相似系数,但不限于此。
[0072]
360、根据用户音频文本的文本特征计算用户音频信号的第一有效概率。
[0073]
服务设备可通过训练好的神经网络对用户音频信号为有效音频数据的概率进行推理,得到用户音频信号的第一有效概率。第一有效概率可通过数值范围在[0,1]的浮点数进行表示,第一有效概率越大,用户音频信号是有效音频数据的可能性越高。
[0074]
可选的,神经网络的输入可以是单独的文本特征,训练好的神经网络根据文本特征的语义推理用户音频信号的第一有效概率。
[0075]
可选的,神经网络的输入也可以是文本特征与前述的音频声音特征进行融合后得到的融合特征。其中,服务设备可通过拼接(concat)或并行增加(add)等任意一种融合方式将文本特征与音频声音特征进行融合,得到融合特征。在得到融合特征之后,服务设备可通过训练好的神经网络对用户音频信号的有效概率进行推理,神经网络可输出第一有效概率。
[0076]
可见,在前述的步骤340-步骤360中,服务设备可基于特征匹配的方式将用户声纹特征和用户音频内容特征分别与对应的标准参考特征进行对比,以及通过训练好的神经网络对用户音频文本的文本特征进行推理。
[0077]
需要说明的是,前述的步骤340-步骤360没有逻辑上的先后顺序,可以同步执行。
[0078]
370、根据第一相似度、第二相似度以及第一有效概率确定是否拒识用户音频信号。
[0079]
作为一种可选的实施方式,服务设备可根据第一相似度、第二相似度以及第一有效概率计算用户音频信号的第二有效概率;并根第二有效概率确定是否拒识用户音频信号。
[0080]
示例性的,第二有效概率可以是第一相似度、第二相似度以及第一有效概率的算术平均值或者加权平均值。若第二有效概率为加权平均值,则可以根据实际业务需求设置第一相似度、第二相似度以及第一有效概率分别对应的权重系数,具体不做限定。
[0081]
服务设备可以将第二有效概率与第一阈值进行比较,第一阈值是与第二有效概率对应的阈值。若第二有效概率高于第一阈值,则服务设备可以对用户音频信号进行识别,以使终端设备响应用户音频信号。若第二有效概率低于或等于第一阈值,则服务设备可以确定拒识用户音频信号。
[0082]
作为另一种可选的实施方式,服务设备可将第一相似度、第二相似度以及第一有效概率分别与各自对应的阈值进行比较,并根据比较结果确定是否拒识用户音频信号。其中,第一相似度对应的阈值可为第二阈值、第二相似度对应的阈值可为第三阈值,第一有效概率对应的阈值可为第四阈值。
[0083]
示例性的,若采用较为宽松的判断标准,则服务设备可以在第一相似度、第二相似度以及第一有效概率这三个项目存在至少一个项目高于对应的阈值时,对用户音频信号进行识别,以使终端设备对用户音频信号进行响应。或者,若采用较为严格的判断标准,则服务设备可以在第一相似度、第二相似度以及第一有效概率这三个项目中存在至少一个项目低于对应的阈值时,确定拒识用户音频信号。
[0084]
可选的,服务设备还可针对第一相似度、第二相似度和第一有效概率设置不同的优先级。若优先级较高的项目高于对应的阈值,则服务设备可以直接对用户音频信号进行识别,以使终端设备对用户音频信号进行响应。
[0085]
示例性的,服务设备可以先判断第一相似度是否高于对应的第二阈值,以及第二
相似度是否高于对应的第三阈值;若第一相似度高于第二阈值且第二相似度高于第三阈值,则服务设备可以直接确定对用户音频信号进行识别,以使终端设备响应用户音频信号。若第一相似度低于第二阈值和/或第二相似度低于第三阈值,则服务设备可以进一步判断第一有效概率是否高于第四阈值。若第一有效概率高于第四阈值,则服务设备可以对用户音频信号进行识别;若第一有效概率低于或等于第四阈值,则服务设备可以确定拒识用户音频信号。
[0086]
示例性的,服务设备还可以先将第一相似度和第二相似度分别与对应的第二阈值和第三阈值进行比较。若第一相似度低于第二阈值和/或第二相似度低于第三阈值,则服务设备可根据执行前述根据第一相似度、第二相似度以及第一有效概率计算用户音频信号的第二有效概率,并根据第二有效概率确定是否拒识用户音频信号的步骤。
[0087]
在实际的应用场景中,服务设备根据第一相似度、第二相似度以及第一有效概率确定是否拒识用户音频信号的规则可根据实际的业务需求设置,具体不做限定。
[0088]
可见,在前述实施例中,服务设备可基于特征匹配的方式对用户声纹和特征和用户音频内容特征进行处理,得到的基于声纹的第一相似度与基于音频内容的第二相似度;并且,服务设备还可基于深度学习的方式对用户音频文本的文本特征进行处理,得到用户音频信号的第一有效概率。服务设备可以进一步综合基于声纹的第一相似度、基于音频内容的第二相似度以及基于文本得到的第一有效概率判断用户音频信号是否为终端设备的用户输入的语音指令,从而确定是否拒识用户音频信号,可以提高语音拒识的准确性。
[0089]
请参阅图4,图4是一个实施例公开的一种语音拒识方法的方法流程示意图,该方法可由前述的服务设备执行。如图4所示:
[0090]
在音频处理方面,服务设备可先对用户音频信号401进行预处理操作402,预处理可包括:stft处理以及fbank滤波。预处理后得到的预处理信号可输入至音频编码器403。
[0091]
音频编码器403,可以是训练好的深度神经网络,可对预处理音频信号进行编码,得到音频声音特征。其中,音频编码器403可包括:降采样模块和编解码模型(transformer)。示例性的,降采样模块可包括conv2dsubsampling函数,编解码模型可包括编码器和解码器的结构。
[0092]
可选的,音频编码器403可以是利用第一样本数据对待训练的编码器模型进行无监督预训练,得到预训练编码器后,再利用第二样本数据对预训练编码器进行有监督训练得到的。第一样本数据包括多个第一音频数据;第二样本数据包括多个第二音频数据,以及与各个第二音频数据分别对应的音频特征标签。
[0093]
在语音识别领域,存在语音训练数据收集困难、收集耗时过长、特征标签标注困难、标准易出错等冷启动问题。并且,语音指令具有个性化的特征性,不同用户的音色、音调、吐字停顿等特性可能不同,收集到的训练数据与用户实际输入的语音指令之间可能存在一定差异。在本技术实施例中,音频编码器403可利用无监督预训练阶段训练得到的模型权重作为有监督训练阶段的初始模型权重,无监督训练不依赖特征标签的信息,可以有效解决冷启动和用户音频个性化的问题,并降低语音训练数据的收集难度。
[0094]
音频编码器403输出的音频声音特征可经过人声分离处理404(speech separation),去除非人声部分,保留人声部分,从而得到人声特征。人声特征可进一步分离出用户声纹特征405和用户音频内容特征406。用户声纹特征可用于与历史声纹特征计算与
声纹对应的第一相似度407,用户音频内容特征可用于与常用音频内容特征计算与音频内容对应的第二相似度408。
[0095]
在文本处理方面,用户音频信号401经过asr处理409后,可转换为用户音频文本410。用户音频文本410可输入至分词器411,分词器411可对用户音频文本410进行分词操作,可将用户音频文本410转换成文本向量。示例性的,分词器可包括bert(bidirectional encoder representation from transformers)模型的分词器(berttokenizer)。
[0096]
文本向量可输入至自然语言处理编码器412(natural language processing encoder,nlp encoder),nlp编码器412可对文本向量进行编码,得到对应的编码特征向量。示例性的,nlp编码器412可依次包括以下网络层:词嵌入(word embedding)层、长短期记忆人工神经网络(long short-term memory,lstm)、归一化层(可选用layernorm)、线性层(linear)。
[0097]
nlp编码器412输出的编码特征向量可被输入至nlp解码器413,nlp解码器413可对编码特征向量进行解码,得到用户音频文本的文本特征。示例性的,nlp解码器413可依次包括以下网络层:线性整流层(randomized leaky unit,relu)、线性层和归一化层(可选用layernorm)。
[0098]
可选的,nlp编码器412可以是使用训练好的bert模型414作为老师模型进行知识蒸馏得到的。知识蒸馏是知识蒸馏是一种在繁琐的模型中提炼知识并将其压缩为单个模型的方法,训练好的bert模型414可作为老师模型,待训练的nlp编码器412可作为学生模型。利用bert模型414进行知识蒸馏得到nlp编码器412,有利于提高nlp编码器412的表征效果,提高nlp编码器412的编码准确性。此外,bert模型414可以是利用第三样本数据进行无监督训练后得到的,第三样本数据的数据量可以达到十亿(one billion)数量级,并且可以是任意一种语音数据,不局限于语音指令对应的语音数据。如图4所示,在知识蒸馏阶段中,bert模型414与待训练的nlp编码器412的输入数据可为berttokenizer分词后得到的向量。
[0099]
进一步可选的,在利用bert模型414作为老师模型对nlp编码器412进行知识蒸馏时,可采用均方损失函数415(mean-squared loss,mse loss)作为损失函数。
[0100]
音频编码器403输出的音频声音特征与nlp解码器412输出的用户音频文本的文本特征进行融合,得到融合特征416。
[0101]
融合特征416被输入至线性推理模型417,线性推理模型417可依次包括以下网络层:线性层、线性整流层(relu)、线性层和归一化层(可选用layernorm)。线性推理模型417可输出用户音频信号的第一有效概率418。
[0102]
在得到与声纹对应的第一相似度407、与音频内容对应的第二相似度408以及基于深度学习推理得到的第一有效概率418之后,可以综合第一相似度407、第二相似度408以及第一有效概率418确定是否拒识用户音频信号,从而得到针对用户音频信号的拒识结果419。
[0103]
可见,在前述实施例中,服务设备在提取用户音频信号的音频声音特征时,使用的音频编码器使用预训练机制,利用无监督训练得到的预训练模型作为权重作为有监督训练的初始权重,可以有效解决冷启动和用户音频个性化的问题,有利于提高语音拒识的准确性。此外,服务设备在对用户音频文本进行编码时,采用的nlp编码器可以是基于知识蒸馏得到的,知识蒸馏采用的老师模型精度较高,老师模型的训练数据量较大,有利于提高nlp
编码器的表征效果,从而可以提高语音拒识的准确性。
[0104]
请参阅图5,图5是一个实施例公开的一种语音拒识装置的结构示意图,该语音拒识装置可应用于前述的任意一种服务设备。如图5所示,语音拒识装置500可包括:提取模块510、分离模块520、文本处理模块530、确定模块540。
[0105]
提取模块510,可用于从获取到的用户音频信号中提取人声特征;
[0106]
分离模块520,可用于从人声特征中分离出用户声纹特征和用户音频内容特征;
[0107]
文本处理模块530,可用于识别用户音频信号对应的用户音频文本,并提取用户音频文本的文本特征;
[0108]
确定模块540,可用于根据用户声纹特征、用户音频内容特征以及文本特征确定是否拒识用户音频信号。
[0109]
在一个实施例中,确定模块540可包括:第一计算单元、第二计算单元、第三计算单元和确定模块。
[0110]
第一计算单元,可用于计算用户声纹特征与历史声纹特征的第一相似度;历史声纹用于表征采集用户音频信号的终端设备的用户身份;
[0111]
第二计算单元,可用于计算用户音频内容特征与常用音频内容特征的第二相似度;常用音频内容特征是常用语音指令对应的音频内容特征,常用语音指令是根据语音指令的使用频率确定的;
[0112]
第三计算单元,可用于根据文本特征计算用户音频信号的第一有效概率;
[0113]
拒识确定单元,可用于根据第一相似度、第二相似度以及第一有效概率确定是否拒识用户音频信号。
[0114]
在一个实施例中,提取模块510,还可用于从获取到的用户音频信号中提取音频声音特征,并从音频声音特征中分离出人声特征。
[0115]
第三计算单元,还可用于将文本特征与音频声音特征进行融合,得到融合特征;以及,根据融合特征计算用户音频信号的第一有效概率。
[0116]
在一个实施例中,拒识确定单元,还可用于根据第一相似度、第二相似度以及第一有效概率计算用户音频信号的第二有效概率;以及,根据第二有效概率确定是否拒识用户音频信号。
[0117]
在一个实施例中,拒识确定单元,还可用于将第一相似度、第二相似度以及第一有效概率分别与各自对应的阈值进行比较;以及,根据比较结果确定是否拒识用户音频信号。
[0118]
在一个实施例中,文本处理模块530,还可用于对用户音频文本进行分词操作,将用户音频文本转换成文本向量;
[0119]
以及,文本处理模块530,还可用于通过自然语言处理编码器对文本向量进行编码,得到编码特征向量;文本编码器是利用bert模型作为老师模型进行知识蒸馏得到的,bert模型是利用第三样本数据进行无监督训练后得到的;
[0120]
以及,文本处理模块530,还可用于通过自然语言处理解码器对编码特征向量进行解码,得到用户音频文本的文本特征。
[0121]
在一个实施例中,提取模块510可包括:预处理单元、编码单元和人声分离单元。
[0122]
预处理单元,可用于对获取到的用户音频信号进行预处理,得到预处理音频信号;
[0123]
编码单元,可用于通过音频编码器对预处理音频信号进行编码,得到音频声音特
征;音频编码器是利用第一样本数据对待训练的编码器模型进行无监督预训练,得到预训练编码器后,再利用第二样本数据对预训练编码器进行有监督训练得到的;第一样本数据包括多个第一音频数据;第二样本数据包括多个第二音频数据,以及与各个第二音频数据分别对应的音频特征标签;
[0124]
人声分离单元,可用于对音频声音特征进行人声分离操作,从音频声音频特征中分离出人声特征。
[0125]
可见,实施前述实施例公开的语音拒识装置,可通过用户声纹特征、用户音频内容特征,以及文本特征确定是否拒识用户音频信号,可融合不同特征的特性进行语音拒识,可以提高语音拒识的准确性。此外,针对确定拒识的用户音频信号,服务设备可以停止继续对用户音频信号进行处理,有利于减轻服务设备的计算压力,提高服务设备的资源利用率。
[0126]
请参阅图6,图6是一个实施例公开的一种服务设备的结构示意图。如图6所示,该服务设备600可以包括:
[0127]
存储有可执行程序代码的存储器610;
[0128]
与存储器610耦合的处理器620;
[0129]
其中,处理器620调用存储器610中存储的可执行程序代码,执行本技术实施例公开的任意一种语音拒识方法。
[0130]
本技术实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序被处理器执行时实现本技术实施例公开的任意一种语音拒识方法。
[0131]
本技术实施例公开一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行本技术实施例公开的任意一种语音拒识方法。
[0132]
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本技术的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0133]
在本技术的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
[0134]
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0135]
另外,在本技术各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0136]
上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式
体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本技术的各个实施例上述方法的部分或全部步骤。
[0137]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(read-only memory,rom)、随机存储器(random access memory,ram)、可编程只读存储器(programmable read-only memory,prom)、可擦除可编程只读存储器(erasable programmable read only memory,eprom)、一次可编程只读存储器(one-time programmable read-only memory,otprom)、电子抹除式可复写只读存储器(electrically-erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
[0138]
以上对本技术实施例公开的语音拒识方法、装置、服务设备及存储介质进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想。同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
技术特征:1.一种语音拒识方法,其特征在于,所述方法包括:从获取到的用户音频信号中提取人声特征;从所述人声特征中分离出用户声纹特征和用户音频内容特征;识别所述用户音频信号对应的用户音频文本,并提取所述用户音频文本的文本特征;根据所述用户声纹特征、所述用户音频内容特征以及所述文本特征确定是否拒识所述用户音频信号。2.根据权利要求1所述的方法,其特征在于,所述根据所述用户声纹特征、所述用户音频内容特征以及所述文本特征确定是否拒识所述用户音频信号,包括:计算所述用户声纹特征与历史声纹特征的第一相似度;所述历史声纹用于表征采集所述用户音频信号的终端设备的用户身份;计算所述用户音频内容特征与常用音频内容特征的第二相似度;所述常用音频内容特征是常用语音指令对应的音频内容特征,所述常用语音指令是根据语音指令的使用频率确定的;根据所述文本特征计算所述用户音频信号的第一有效概率;根据所述第一相似度、所述第二相似度以及所述第一有效概率确定是否拒识所述用户音频信号。3.根据权利要求2所述的方法,其特征在于,所述从获取到的用户音频信号中提取人声特征,包括:从获取到的用户音频信号中提取音频声音特征,并从所述音频声音特征中分离出人声特征;以及,所述根据所述文本特征计算所述用户音频信号的第一有效概率,包括;将所述文本特征与所述音频声音特征进行融合,得到融合特征;根据所述融合特征计算所述用户音频信号的第一有效概率。4.根据权利要求2所述的方法,其特征在于,所述根据所述第一相似度、所述第二相似度以及所述第一有效概率确定是否拒识所述用户音频信号,包括:根据所述第一相似度、所述第二相似度以及所述第一有效概率计算所述用户音频信号的第二有效概率;根据所述第二有效概率确定是否拒识所述用户音频信号。5.根据权利要求2所述的方法,其特征在于,所述根据所述第一相似度、所述第二相似度以及所述第一有效概率确定是否拒识所述用户音频信号,包括:将所述第一相似度、所述第二相似度以及所述第一有效概率分别与各自对应的阈值进行比较;根据比较结果确定是否拒识所述用户音频信号。6.根据权利要求1-5任一项所述的方法,其特征在于,所述提取所述用户音频文本的文本特征,包括:对所述用户音频文本进行分词操作,将所述用户音频文本转换成文本向量;通过自然语言处理编码器对所述文本向量进行编码,得到编码特征向量;所述文本编码器是利用bert模型作为老师模型进行知识蒸馏得到的,所述bert模型是利用第三样本数据进行无监督训练后得到的;
通过自然语言处理解码器对所述编码特征向量进行解码,得到所述用户音频文本的文本特征。7.根据权利要求1-5任一项所述的方法,其特征在于,所述从获取到的用户音频信号中提取人声特征,包括:对获取到的用户音频信号进行预处理,得到预处理音频信号;通过音频编码器对所述预处理音频信号进行编码,得到音频声音特征;所述音频编码器是利用第一样本数据对待训练的编码器模型进行无监督预训练,得到预训练编码器后,再利用第二样本数据对所述预训练编码器进行有监督训练得到的;所述第一样本数据包括多个第一音频数据;所述第二样本数据包括多个第二音频数据,以及与各个所述第二音频数据分别对应的音频特征标签;对所述音频声音特征进行人声分离操作,从所述音频声音频特征中分离出人声特征。8.一种语音拒识装置,其特征在于,所述装置包括:提取模块,用于从获取到的用户音频信号中提取人声特征;分离模块,用于从所述人声特征中分离出用户声纹特征和用户音频内容特征;文本处理模块,用于识别所述用户音频信号对应的用户音频文本,并提取所述用户音频文本的文本特征;确定模块,用于根据所述用户声纹特征、所述用户音频内容特征以及所述文本特征确定是否拒识所述用户音频信号。9.一种服务设备,其特征在于,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现如权利要求1至7任一项所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
技术总结本申请实施例公开一种语音拒识方法、装置、服务设备及存储介质,该方法包括:从获取到的用户音频信号中提取人声特征;从所述人声特征中分离出用户声纹特征和用户音频内容特征;识别所述用户音频信号对应的用户音频文本,并提取所述用户音频文本的文本特征;根据所述用户声纹特征、所述用户音频内容特征以及所述文本特征确定是否拒识所述用户音频信号。实施本申请实施例,能够提高语音拒识的准确性。能够提高语音拒识的准确性。能够提高语音拒识的准确性。
技术研发人员:陶健
受保护的技术使用者:OPPO广东移动通信有限公司
技术研发日:2022.07.08
技术公布日:2022/11/1