语音指令识别方法、装置、电子设备和存储介质与流程

专利2024-08-19 98

1.本技术涉及语音处理技术领域，更具体地，涉及一种语音指令识别方法、装置、电子设备和存储介质。

背景技术：

2.近年来，语音识别技术取得显著进步，在人们的日常生活中得到广泛应用，例如可以根据识别到的语音控制设备执行相应的操作。但是，在对相关技术进行研究和实践过程中，本技术的发明人发现，由于有些用户的发音不标准，因此使用现有的语音识别方法无法对这些用户的所说内容进行正确地识别，从而造成这些用户无法通过语音控制设备执行对应的操作。

技术实现要素：

3.鉴于上述问题，本技术提出了一种语音指令识别方法、装置、电子设备和存储介质。
4.第一方面，本技术实施例提供了一种语音指令识别方法，该方法包括：获取目标用户的目标语音数据；根据目标语音数据确定第一待比对信息；获取预设语音指令的第二待比对信息；若根据第一待比对信息和第二待比对信息，确定目标语音数据与预设语音指令的相似度大于预设阈值，则执行预设语音指令对应的操作。
5.第二方面，本技术实施例提供了一种语音指令识别装置，该装置包括：语音获取模块，用于获取目标用户的目标语音数据；确定模块，用于根据目标语音数据确定第一待比对信息；信息获取模块，用于获取预设语音指令的第二待比对信息；执行模块，用于若根据第一待比对信息和第二待比对信息，确定目标语音数据与预设语音指令的相似度大于预设阈值，则执行预设语音指令对应的操作。
6.第三方面，本技术实施例提供了一种电子设备，包括一个或多个处理器、存储器以及一个或多个应用程序。其中，一个或多个所述应用程序被存储在所述存储器中并被配置为由一个或多个所述处理器执行，一个或多个所述应用程序配置用于执行如上述第一方面提供的语音指令识别方法。
7.第四方面，本技术实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述第一方面提供的语音指令识别方法。
8.本技术的语音指令识别方法、装置、电子设备和存储介质，涉及语音处理技术领域。具体包括：获取目标用户的目标语音数据；根据目标语音数据确定第一待比对信息；获取预设语音指令的第二待比对信息；若根据第一待比对信息和第二待比对信息，确定目标语音数据与预设语音指令的相似度大于预设阈值，则执行预设语音指令对应的操作。由此，通过比对目标语音数据和预设语音指令对应的语音数据中的预设待比对信息之间的相似度是否大于预设阈值，并在大于时执行与预设语音指令对应的操作，从而使得发音不标准
的用户也能通过语音对设备进行控制。
附图说明
9.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
10.图1示出了本技术一实施例提出的一种语音指令识别方法的流程示意图；
11.图2示出了本技术一实施例提出的另一种语音指令识别方法的流程示意图；
12.图3示出了本技术一实施例提出的一种语音指令识别装置的结构框图；
13.图4示出了本技术一实施例提出的一种电子设备的结构框图；
14.图5示出了本技术一实施例提出的一种计算机可读取存储介质的结构框图。
具体实施方式
15.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。
16.近年来，随着科技的发展，语音识别技术取得显著进步，在日常生活中得到广泛应用。作为一种应用场景，可以通过用户的语音控制设备以使设备执行相应的操作。而要通过实现通过语音对设备进行控制，需要对用户的语音内容进行识别。
17.但在对相关技术进行研究和实践过程中，本技术的发明人发现，有些用户发音不标准(例如可以发音但发音不标准的聋哑人)，若使用现有的语音识别方法无法对这些用户的所说内容进行准确识别，从而会造成这些用户无法通过语音控制设备执行响应的操作。
18.因此，为了克服上述缺陷，本技术的发明人提出了本技术提供的一种语音指令识别方法、装置、电子设备和存储介质，涉及语音处理技术领域。该语音指令识别方法包括：获取目标用户的目标语音数据；根据目标语音数据确定第一待比对信息；获取预设语音指令的第二待比对信息；若根据第一待比对信息和第二待比对信息，确定目标语音数据与预设语音指令的相似度大于预设阈值，则执行预设语音指令对应的操作。由此，通过比对目标语音数据和预设语音指令对应的语音数据中的待比对信息之间的相似度是否大于预设阈值，并在大于时执行与预设语音指令对应的操作，使得发音不标准的用户也能通过语音指令对设备进行控制。
19.下面将结合具体实施例对其进行介绍。
20.请参阅图1，图1示出了本技术实施例提供的一种语音指令识别方法。具体地，该方法可以包括步骤110至步骤140。
21.在步骤110中，获取目标用户的目标语音数据。
22.在本技术实施例中，目标用户为需要进行语音指令识别的用户，即需要对所说的语音内容进行识别的用户；目标语音数据为通过设备采集到的目标用户发出的语音数据。需要说明的是，在本技术实施例中，目标用户可以是发音标准的用户，也可以是发音不标准的用户。
23.作为一种实施方式，设备可以通过声音采集装置采集目标用户的语音数据，从而
获得目标用户的目标语音数据。在一些实施方式中，声音采集装置可以例如是麦克风、麦克风阵列等。其中，声音采集装置可以集成在设备上，也可以集成在外部设备中与设备连接；声音采集装置还可以作为一个单独的外部设备与设备连接。
24.在本技术实施例中，设备可以是终端设备，也可以是服务器。可选地，当设备为终端设备时，终端设备可以例如是智能手机、笔记本电脑、台式电脑、平板电脑、个人数字助理(personal digital assistant，pda)、可穿戴电子设备等；也可以例如是智能电视、智能音响等智能家居；甚至还可以例如是智能控制面板。可选地，当设备为服务器时，服务器可以是单独的服务器，也可以是服务器集群；可以是本地服务器，也可以是云端服务器。可以理解的，设备的类型可根据实际需要自行选择，在此不作为限定。
25.在步骤120中，根据目标语音数据确定第一待比对信息。
26.在本技术实施例中，第一待比对消息为从目标语音数据中提取的预设待比对信息，用于和预设语音指令进行比较；预设待比对信息为进行语音指令识别时，预设的需要从目标语音数据和预设语音指令中提取的信息；预设语音指令为设备中预先已保存的语音指令，预设语音指令的数量至少为1个。具体地，在获取到目标用户的目标语音数据后，设备从目标语音数据中提取预设待比对信息，然后将该预设待比对信息作为第一待比对信息。
27.作为一种实施方式，预设待比对信息可以是语音数据中的韵母和声调。因此，根据目标语音数据确定第一待比对信息的步骤，可以包括：
28.(1)获取目标语音数据对应的韵母和声调；
29.(2)将韵母和声调作为第一待比对信息。
30.经过发明人的研究发现，不管目标用户发音是否标准，均可以发出正确的韵母和声调，因此可以将语音数据中的韵母和声调作为预设待比对信息。
31.在本技术实施例中，声调是指韵母对应的声调。从而，设备在获取到目标用户的目标语音数据后，获取目标语音数据中包含的韵母和每个韵母对应的声调，然后将得到的韵母和声调作为目标语音数据中的预设待比对信息，即第一待比对信息。
32.在一些实施方式中，可以使用预先训练好的语音识别模型对语音数据进行识别，从而得到语音数据中包含的韵母和声调。具体地，在获取到目标语音数据后，可以将目标语音数据输入该语音识别模型，然后输出目标语音数据中包含的韵母和声调。其中，语音识别模型可以例如是预先训练好的asr(automatic speech recognition，自动语音识别)模型。
33.示例性的，设备获取到目标语音数据，该目标语音数据对应的内容为“你好”，将该目标语音数据输入预先训练好的语音识别模型后，可以得到目标语音数据中包含的韵母“i”和“ao”，且两个韵母对应的声调均为三声。进一步地，为方便后续进行比对，可以将预设待比对信息中包含的每个韵母和对应的声调写在一起，例如“你好”对应的预设待比对信息为[i3]和[ao3]。
[0034]
作为另一种实施方式，预设待比对信息也可以是语音数据对应的基频轨迹。因此，根据目标语音数据确定第一待比对信息的步骤，可以包括：
[0035]
(1.1)根据目标语音数据中包含的基频信息确定第一基频信息；
[0036]
(1.2)将第一基频信息对应的基频轨迹作为第一待比对信息。
[0037]
在本技术实施例中，基频信息为目标语音数据中每个字对应的基频(fundamental frequency，全称为基本频率)轨迹；第一基频信息为目标语音数据中包含的全部基频信息；
第一待比对信息为目标语音数据中包含的全部基频信息对应的基频轨迹。例如：目标语音数据为“你好”，则目标语音数据中包含两个基频信息，分别为“你”对应的基频轨迹和“好”对应的基频轨迹，因此第一基频信息为“你”对应的基频轨迹和“好”对应的基频轨迹。
[0038]
具体地，设备在采集到目标语音数据后，先确定目标语音数据对应的声音波形图，然后根据声音波形图中波峰和波谷的位置对目标语音数据进行断字，然后将每个字对应的语音数据进行分帧，通过计算每帧语音数据对应的基频从而得到对应的基频轨迹，之后将属于同一字的基频轨迹作为一个基频信息，然后将目标语音数据中包含的全部基频信息作为第一基频信息，最后将第一基频信息中包含的基频轨迹作为第一待比对信息。其中，基频轨迹可以通过自相关法、倒谱法等方法得到。
[0039]
进一步地，由于逐帧提取的基频常常含有错误，例如倍频错误、半频错误等，因此为了纠正这些错误，可以对得到的基频结果进行平滑，从而得到更加平滑的基频轨迹。在一些实施方式中，可以是利用滑动平均法、加权滑动平均法等方法得到更加平滑的基频轨迹。
[0040]
在步骤130中，获取预设语音指令的第二待比对信息。
[0041]
在本技术实施例中，预设语音指令为设备中预先已保存的语音指令；第二待比对信息为预设语音指令中与第一待比对信息对应的预设待比对信息。也就是说，当第一待比对信息对应的预设待比对信息为韵母和声调时，第二待比对信息对应的预设待比对信息也为韵母和声调；当第一待比对信息对应的预设待比对信息为基频轨迹时，第二待比对信息对应的预设待比对信息也为基频轨迹。
[0042]
作为一种实施方式，第二待比对信息可以是预先已保存好的信息，也就是说，设备可以从存储设备中直接获取已保存的预设语音指令对应的第二待比对信息。作为另一种实施方式，第二待比对信息也可以是实时从预设语音指令对应的语音数据中提取的得到的，也就是说，设备可以每次从预设语音指令对应的语音数据中获取预设待比对信息，然后将获得的预设待比对信息作为第二待比对信息。
[0043]
在步骤140中，若根据第一待比对信息和第二待比对信息，确定目标语音数据与预设语音指令的相似度大于预设阈值，则执行预设语音指令对应的操作。
[0044]
在本技术实施例中，设备在获得第一待比对信息和第二待比对信息之后，将二者进行比对，若二者之间的相似度大于预设阈值，则认为目标用户所说的目标语音数据为预设语音指令，因此设备执行与预设语音指令对应的操作。在一些实施方式中，当预设待比对信息不同时，对应的预设阈值可以不同。
[0045]
在一些实施方式中，当确定当前比对的预设语音指令即为目标用户需要执行的语音指令后，可以是设备本身执行与预设语音指令对应的操作，也可以是通过设备控制其他设备执行与预设语音指令对应的操作。其中，其他设备和设备之间可以通过网络通信连接。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(local area network，lan)、城域网(metropolitan area network，man)、广域网(wide area network，wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。此外，设备和其他设备之间还可以通过特定的通信协议进行通信传输，通信协议包括但不限于ble(bluetooth low energy，低功耗蓝牙)协议、wlan(wireless local area network，无线局域网)协议、蓝牙协议、zigbee(紫峰)协议或者wi-fi(wireless fidelity，无线保真)协议等。
[0046]
在一些实施方式中，设备中可以存在预设语音指令集，预设语音指令集中可以存
在多个预设语音指令。具体地，当获取到目标用户的目标语音数据后，从语音指令集中依次获取一个预设语音指令与目标语音数据进行比对。若目标语音数据与本次比对的预设语音指令的相似度大于预设阈值，则设备执行该预设语音指令对应的操作；若目标语音数据与本次比较的预设语音指令的比对结果为不相似，则从语音指令集中获取另外一个未比对过的预设语音指令与目标语音指令进行比对，重复此步骤，直到预设语音指令集种不存在预设语音指令对应的第二待比对信息没进行比对，或者找到相似度大于预设阈值的预设语音指令，则结束本次比对。进一步地，若语音指令集中没有与目标语音数据相似度大于预设阈值的预设语音指令，则舍弃本次获得的目标语音数据，并提示重新获取目标用户的目标语音数据。
[0047]
在一些实施方式中，若预设待比对信息为韵母和声调，则可以将第一待比对信息中的韵母和声调与第二待比对信息中的韵母和声调一一进行比对，若最后确定二者的韵母和声调总的相似度大于预设阈值，则认为目标语音数据与预设语音数据相似。也就是说，目标语音数据和预设语音指令的相似度(即第一待比对信息和第二待比对信息的相似度)＝比对相同的韵母和声调总个数/进行对比的韵母和声调总个数。
[0048]
示例性的，预设阈值为70％，设备对目标语音数据进行语音识别确定对应的韵母为“ong”和“i”，声调为“二声”和“四声”，因此第一待比对信息可以记作[ong2]和[i4]；而本次比对的预设语音指令“重启”对应的第二待比对信息为[ong2]和[i3]，可以确定第一待比对信息和第二待比对信息对应的韵母完全相同，第一个字对应的声调相同，第二个字对应的声调不同。也就是说，本次比对中相同的韵母和声调总个数为3，进行对比的韵母和声调总个数为4，因此第一待比对信息和第二待比对信息的相似度为75％，即目标语音数据和本次进行比对的预设语音指令之间的相似度75％，大于预设阈值70％，因此认为本次进行比对的预设语音指令即为目标用户想要执行的语音指令，从而设备执行与该预设语音指令对应的操作。
[0049]
进一步地，当预设待对比信息为韵母和声调时，可以先比对第一待比对信息和第二待比对信息的韵母或声调个数，以确定目标语音数据和本次比对的预设语音指令中分别包含的字数，若韵母或声调个数不同，则可以认为二者包含的字数不同，本次比对的预设语音指令一定不是目标语音数据对应的语音指令，因此可以不再进行后续相似度比对，直接获取下一个预设语音指令进行比对，从而可以减少不必要的比对造成的资源浪费。
[0050]
在一些实施方式中，若预设待比对信息为基频轨迹，则可以将第一待比对信息中的每个字对应的基频轨迹与第二待比对信息中每个字对应的基频轨迹一一进行比对，若确定第一待比对信息和第二待比对信息中包含的字对应的基频轨迹之间总的相似度大于预设阈值，则认为目标语音数据与预设语音数据相似。其中，可以使用例如cpd(closest-pair distance)、spd(sum-of-pairs distance)等方法对基频轨迹进行相似度比对。
[0051]
进一步地，也可以比对基频轨迹中的预设信息。也就是说，可以将目标语音数据中第一基频信息对应的基频轨迹中的预设信息作为第一待比对信息，将进行比对的预设语音指令中第二基频信息对应的基频轨迹中的预设信息作为第二待比对信息。其中，预设信息可以是基频轨迹中峰值个数、峰值位置以及起止频率差值中的至少一种信息，起止频率差值为每个基频信息中开始时刻的频率和结束频率之间的差值。
[0052]
作为一种实施方式，当预设信息为峰值个数时，可以先确定第一待比对信息中包
含的每个基频信息的基频轨迹的峰值个数，其中每个基频信息的峰值个数为基频信息中包含的全部基频轨迹中的峰值总个数，再获取第二待比对信息中包含的每个基频信息的的基频轨迹的峰值个数，然后根据第一待比对信息和第二待比对信息中包含的每个基频信息的峰值个数确定第一待比对信息和第二待比对信息之间的相似度，若相似度大于预设阈值，则可以确定目标语音数据和本次比对的预设语音指令之间的相似度大于预设语音，该预设语音指令即为目标用户本次想要设备执行的语音指令。
[0053]
具体地，假设目标语音数据对应的第一待比对信息中包括n个基频信息，每个基频信息对应的峰值个数分别为a1、a2
……
an；进行比对的预设语音指令对应的第二待比对信息中包括n个基频信息，每个基频信息对应的峰值个数分别为b1、b2
……
bn；因此第一待比对信息和第二待比对信息(即目标语音指令和本次进行比对的预设语音指令)之间的相似度＝((1-|a1-b1|/b1)+(1-|a2-b2|/b2)+
…
+(1-|an-bn|/bn))/n
×
100％。
[0054]
示例性的，预设阈值为70％，存在目标语音指令对应的第一待比对信息中包括两个基频信息，第一个基频信息包括的峰值个数为5，第二个基频信息包括的峰值个数为3；本次比对的预设语音指令对应的第二待比对信息中包括2个基频信息，第一个基频信息中包含4个峰值，第二个基频信息中包含6个峰值。因此第一待比对信息和第二待比对信息之间的相似度＝((1-(5-4)/4+(1-(6-3)/6))/2
×
100％＝62.5％，小于预设阈值70％，因此本次比对的预设语音指令不是目标语音数据对应的语音指令。
[0055]
作为另一种实施方式，若预设信息为峰值位置，则可以先确定第一待比对信息包含的每个基频信息的基频轨迹中的峰值位置，峰值位置为峰值出现的时刻，然后确定第二待比对信息包含的每个基频信息的基频轨迹中的峰值位置，然后根据峰值位置相同的个数和峰值总个数确定每个字即每个基频信息的相似度，最后计算第一待比对信息和第二待比对信息的相似度。
[0056]
具体地，假设目标语音数据对应的第一待比对信息中包括n个基频信息，每个基频信息分别包括a1、a2
……
an个峰值(峰值位置未进行列举)；进行比对的预设语音指令对应的第二待比对信息中包括n个基频信息，每个基频信息分别包括b1、b2
……
bn个峰值；将二者每个基频信息中包括的峰值的位置分别进行比对，确定第一待比对信息和第二待比对信息中的第一个基频信息存在s1个峰值位置相同、第二个基频信息存在s2个峰值位置相同
……
第n个基频信息存在sn个峰值位置相同。因此可以确定第一待比对信息和第二待比对信息(即目标语音数据和本次比对的预设语音指令)之间的相似度＝(s1/b1+s2/b2+
…
+sn/bn)/n
×
100％。
[0057]
示例性的，预设阈值为70％，目标语音数据对应的第一待比对信息中包括2个基频信息，第一个基频信息包括的峰值个数为5，第二个基频信息包括的峰值个数为3；本次比对的预设语音指令对应的第二待比对信息中包括2个基频信息，第一个基频信息中包含4个峰值，第二个基频信息中包含6个峰值；第一待比对信息与第二待比对信息的第一个基频信息中存在3个峰值位置相同，第二个基频信息中存在3个峰值位置相同。因此第一待比对信息和第二待比对信息之间的相似度＝(3/4+3/6)/2
×
100％＝75％，大于预设阈值70％，因此本次比对的预设语音指令是目标语音数据对应的语音指令。
[0058]
进一步地，由于每个人说话语速、声调等存在差别，因此可以设置若两个峰值位置对应的时刻相差不超过预设时间阈值，则认为这两个峰值位置相同。
[0059]
作为另一种实施方式，若预设信息是起止频率差值，则可以先确定第一待比对信息中每个基频信息的基频轨迹中的起止频率差值，同时确定第二待比对信息中每个基频信息的基频轨迹中的起止频率差值，然后计算第一待比对信息和第二待比对信息中每个对应位置的基频信息的起止频率差值相减，确定频率差值，然后从相似度表中找到与该频率差值对应的相似度，最后根据每个基频信息对应的相似度确定目标语音数据和本次比对的预设语音指令之间的相似度，从而确定该预设语音指令是否为目标语音数据对应的语音指令。其中，相似度表中包括频率差值和相似度的对应关系，例如：频率差值为m1～m2时，对应的相似度为0.85；频率差值为m3～m5时，对应的相似度为0.7。
[0060]
具体地，假设目标语音数据对应的第一待比对信息中包括n个基频信息，每个基频信息对应的起止频率差值分别为a1、a2
……
an；进行比对的预设语音指令对应的第二待比对信息中包括n个基频信息，每个基频信息对应的起止频率差值分别为b1、b2
……
bn；将第一待比对信息和第二待比对信息中对应的基频信息的起止频率差值相减，确定二者的频率差值为c1、c2
……
cn，通过查找相似度表，确定对应的相似度为s1、s2
……
sn，因此第一待比对信息和第二待比对信息(即目标语音指令和本次进行比对的预设语音指令)之间的相似度＝(s1+s2+
…
+sn)/n
×
100％。
[0061]
示例性的，预设阈值为80％，第一待比对信息和第二待比对信息中均包括3个基频信息，第一待比对信息中每个基频信息对应的起止频率差值分别为5hz(赫兹)、4hz和4hz，第二待比对信息中每个基频信息对应的起止频率差值分别为7hz、5hz和3hz，将二者每个基频信息对应的起止频率差值相减，确定对应的频率差值为2hz、1hz和1hz，通过查找相似度表可以确定对应的相似度分别为0.75、0.85和0.85，因此第一待比对信息和第二待比对信息之间的相似度＝(0.75+0.85+0.85)/3
×
100％＝81.67％，大于预设阈值80％，因此本次比对的预设语音指令是目标语音数据对应的语音指令。
[0062]
作为另一种实施方式，预设信息还可以包括峰值个数、峰值位置和起止频率差值中的多种信息。当预设信息包括多种信息时，目标语音指令和预设语音指令之间的相似度等于多种信息分别对应的相似度相加再求平均值。
[0063]
示例性的，预设阈值为75％，预设信息为峰值个数和起止频率差值，存在第一待比对信息和第二待比对信息均包括2个基频信息，第一待比对信息和第二待比对信息两个基频信息的峰值个数对应的相似度分别为0.75和0.5，起止频率差值对应的相似度分别为0.75和0.85，则第一待比对信息和第二待比对信息之间的相似度＝((0.75+0.5)/2+(0.75+0.85)/2)/2
×
100％＝71.25％，小于预设阈值75％，因此本次比对的预设语音指令不是目标语音数据对应的语音指令。
[0064]
需要说明的时，在本技术实施例中，当根据第一待比对信息为预设信息时，若第一待比对信息和第二待比对信息中包含的基频信息个数相同，即第一待比对信息和第二待比对信息中包含的字数相同，则可以通过上述实施方式中的计算方法确定目标语音指令和本次比对的预设语音指令之间的相似度；若第一待比对信息和第二待比对信息包含的基频信息个数不同，即第一待比对信息和第二待比对信息中包含的字数不同，则不进行相似度比对，直接认为目标语音指令和本次比对从预设语音指令之间的相似度为0，从而可以有效减少不必要的相似度比对造成的资源浪费。
[0065]
在一些实施方式中，设备在获取目标用户的目标语音数据之前，需要先响应于目
标用户的唤醒操作显示语音交互界面。其中，唤醒操作是预设的打开语音交互界面的方式，例如可以是对显示屏进行预设的触控方式(例如：双击、长按、写“w”等)。
[0066]
在本技术的实施例中，通过获取目标用户的目标语音数据；根据目标语音数据确定第一待比对信息；获取预设语音指令的第二待比对信息；若根据第一待比对信息和第二待比对信息，确定目标语音数据与预设语音指令的相似度大于预设阈值，则执行预设语音指令对应的操作。由此，通过比对目标语音数据和预设语音指令对应的语音数据中的预设待比对信息之间的相似度是否大于预设阈值，并在大于时执行与预设语音指令对应的操作，使得发音不标准的用户也能通过语音指令对设备进行控制。
[0067]
请参阅图2，图2示出了本技术实施例提供的另一种语音指令识别方法。具体地，该方法可以包括步骤210至步骤270。
[0068]
在步骤210中，获取用户的输入数据。
[0069]
在本技术实施例中，目标用户也可以是特指发音不标准的用户，也就是说，本技术提供的语音识别方法可以是专门用于识别发音不标准的用户所说的语音数据。因此，为了确定是否开启本技术提供的语音识别方法对用户的语音数据进行识别，需要对用户的身份类型进行确定。
[0070]
在本技术实施例中，输入数据是指设备获取到的与用户相关的数据。由于用户的身份类型未知，因此可以通过设备获取到的输入数据确定用户的身份类型。
[0071]
在步骤220中，根据输入数据确定用户是否属于目标用户。
[0072]
在本技术实施例中，设备在获取到用户的输入数据后，可以根据输入数据确定该用户是否属于目标用户，即根据输入数据确定用户是否属于发音不标准的用户。
[0073]
作为一种实施方式，输入数据可以是身份确认语音数据，也就是说，获取用户的输入数据的步骤，可以包括：
[0074]
(1)响应于身份确认指令在显示界面显示身份确认文本；
[0075]
(2)获取用户发出的与身份确认文本对应的身份确认语音数据；
[0076]
根据输入数据确定用户是否属于目标用户的步骤，可以包括：
[0077]
(3)将身份确认语音数据输入语音识别模型，根据语音识别模型的输出结果确定用户是否为目标用户。
[0078]
其中，身份确认指令为用于确认用户身份类型的指令，身份类型包括普通用户和目标用户，普通用户为发音标准的用户；身份确认文本为在显示界面上显示的用于验证用户身份类型的文本。
[0079]
具体地，用户选中显示界面中显示的身份类型确认控件，生成身份确认指令，设备获取到身份确认指令后，在显示界面上显示预设的身份确认文本以确认用户的身份类型；用户根据显示界面上显示的身份确认文本，发出与身份确认文本对应的身份确认语音数据，设备通过声音采集装置对身份确认语音数据进行采集，然后将采集得到的身份确认语音数据输入预先训练好的语音识别模型，最终根据语音识别模型最终输出的结果确定用户的身份类型为目标用户还是普通用户。
[0080]
示例性的，在设备的显示界面上显示有用于身份类型确认的控件，用户选中该控件以进行身份类型确认后，设备获取预先存储好的内容为“请将声音调小”的身份确认文本并在显示界面上显示，用户a朗读该身份确认文本，即发出与身份确认文本对应的身份确认
语音数据，设备采集该身份语音数据并将其输入预先训练好的语音识别模型，以通过语音识别模型判断用户a是否发音标准，最后根据语音识别模型输出的结果确定用户a的身份类型。
[0081]
在一些实施方式中，语音识别模型可以是根据采集到的普通用户的语音数据和目标用户的语音数据进行二分类神经网络模型训练得到的模型。其中，语音识别模型的网络结构可以例如是cnn(convolutional neural networks，卷积神经网络)、rnn(recurrent neural networks，循环神经网络)、dnn(deep neural networks，深度神经网络)等，具体可根据实际需求选择合适的网络结构，本技术对此不做限制。
[0082]
可选地，显示界面上显示身份确认文本可以是固定的文本内容，即在不同设备上，通过相同内容的身份确认文本来确认用户的身份类型。可选地，身份确认文本也可以是设备从预设的文本内容库中随机选择一个作为身份确认文本，即在不同设备上显示的身份确认文本可能不同。可以理解地，当身份确认文本为设备随机选择时，该文本内容库中至少保存有两种不同的文本内容。
[0083]
进一步地，在显示界面上显示身份确认文本后，为了使设备能够准确界定采集用户语音数据的时间段，可以在显示界面设置提示信息和/或控件以提示用户在什么时间段内发出与身份确认文本对应的语音数据。
[0084]
例如：显示身份确认文本后显示界面上提示“3秒后开始语音采集”，并以倒计时的形式提示开始采集的时间，用户在说完身份确认文本的文本内容后可通过点击显示界面上的结束采集控件以结束本次语音采集。又例如：显示界面上可以显示录语音采集控件，并提示用户长按该控件可以进行语音采集，当检测到用户长按该控件的时候设备开始采集语音，并在检测到长按结束的时候结束语音采集。
[0085]
在一些实施方式中，除了可以根据语音识别模型确定用户的身份类型，还可以根据用户在显示界面上的身份选择操作确定用户的身份类型。其中，身份选择操作为用户在显示界面上选择身份类型控件的操作。例如：在显示界面上显示有两个身份类型控件，分别为“目标用户”和“普通用户”，若用户选择“目标用户”控件，则确认该用户为目标用户。
[0086]
作为一种实施方式，用户可以在显示界面进行触控操作以选择身份类型，例如：通过单击“目标用户”的选项以选择身份类型为目标用户。作为另一种实施方式，用户还可以通过设备上的物理按键对显示界面上的身份类型进行选择。此外，在一些实施方式中，还可以通过采集用户的手势，视线焦点等方式选择身份类型。
[0087]
在一些实施方式中，由于可能存在用户认为自己发音标准，但实际发音不标准，可以通过语音识别模型和用户的身份选择操作双重验证用户的身份类型，确保用户的身份类型准确无误，以更好地判断什么时候采用本技术提供的语音识别方法对用户的语音指令进行识别。因此获取用户的输入数据的步骤，还可以包括：
[0088]
(1.1)根据用户在显示界面上的身份选择操作得到第一身份类型。
[0089]
(1.2)若第一身份类型为目标用户，则在显示界面上显示身份确认文本。
[0090]
(1.3)获取用户发出的与身份确认文本对应的身份确认语音数据。
[0091]
(1.4)将身份确认语音数据输入语音识别模型，根据语音识别模型的输出结果得到第二身份类型。
[0092]
根据输入数据确定用户是否属于目标用户的步骤，还可以包括：
[0093]
(1.5)若第一身份类型和第二身份类型一致，则确定用户属于目标用户。
[0094]
(1.6)若第一身份类型和第二身份类型不一致，则确认用户的身份类型属于第二身份类型。
[0095]
具体地，用户根据设备的显示界面上显示的身份类型控件，选择与自己匹配的身份类型，得到第一身份类型。判断第一身份类型是否为目标用户，若是，则在显示界面上显示身份确认文本以确认用户的身份类型，用户根据显示界面上显示的身份确认文本发出与身份确认文本对应的身份确认语音数据，设备通过声音采集装置获取用户发出的身份确认语音数据，然后将其输入预先训练好的语音识别模型，根据语音识别模型的输出结果得到第二身份类型。若第一身份类型和第二身份类型一致，则确定用户属于目标用户；若第一身份类型和第二身份类型不一致，则确认用户的身份类型属于第二身份类型。由此，在用户选择为目标用户之后通过语音识别模型对用户的身份类型进行双重验证，避免用户对自己所属身份类型主观判断错误的情况发生，以使符合本技术实施例要求的特殊群体能够通过语音对设备进行控制。
[0096]
此外，若用户的第一身份类型为普通用户，则直接确认用户的身份类型为普通用户，以使普通用户能够按常规设置通过语音对设备进行控制。其中，这里所说的常规设置是指通过识别具体的语音内容以实现对设备的控制。
[0097]
在步骤230中，若确定用户属于目标用户，则响应于目标用户的指令设置操作，确定预设语音指令。
[0098]
在本技术实施例中，指令设置操作是指用于设置预设语音指令的操作；预设语音指令是指已保存的、可控制设备执行对应操作的语音指令。
[0099]
具体地，设备在获取目标用户的目标语音数据之前，先获取与用户相关的数据即用户的输入数据，然后根据输入数据判断该用户的发音是否标准，从而确定该用户是否属于目标用户，若该用户属于目标用户，则响应于目标用户的指令设置操作设置预设语音指令，并将其保存。
[0100]
在一些实施方式中，预设语音指令可以保存在文件中，也可以保存在数据库中。其中，文件和数据库可以是保存在本地，也可以是保存在其他设备。其中，其他设备和设备之间可以通过网络连接。
[0101]
在一些实施方式中，若预设语音指令保存在文件中，则文件的存储格式可以为wav(waveform，波形文件)文件格式、mp3(moving picture experts group audio layer iii，动态影像专家压缩标准音频层面3)文件格式、flac(free lossless audio codec，自由无损音频压缩编码)文件格式等，本技术对此不做限制。
[0102]
在一些实施方式中，数据库可以为关系型数据库，例如：mysql、sql server等。数据库也可以为非关系型数据库，例如：mongodb、redis、memcach等。
[0103]
在一些实施方式中，响应于目标用户的设置操作，确定预设语音指令的步骤，可以包括：
[0104]
(1)响应于目标用户的指令设置操作，确定目标用户输入的指令文本；
[0105]
(2)获取与指令文本对应的指令语音数据；
[0106]
(3)根据指令语音数据确定预设语音指令。
[0107]
在本技术实施例中，指令文本为目标用户设置的自定义语音指令的指令内容；指
令语音数据为与指令文本对应的语音数据。
[0108]
具体地，目标用户选择设置自定义语音指令，生成指令设置操作，从而设备响应于指令设置操作，在显示界面上显示可供目标用户输入文本的输入区域，目标用户可在此区域输入需要设置的自定义语音指令的指令内容(例如：关机)，然后设备获取输入区域的指令内容作为指令文本，之后获取与指令文本对应的语音数据作为指令语音数据，该指令语音数据即为目标用户设置的自定义语音指令的语音数据，最后将自定义语音指令作为预设语音指令保存。可以理解地，由于将自定义语音指令作为预设语音指令保存，因此预设语音指令可以为自定义语音指令。
[0109]
在一些实施方式中，目标用户输入文本的方式可以是通过手写输入，也可以是通过键盘输入。其中，键盘可以是设备上自带的物理键盘，也可以是与设备连接的外设键盘，还可以是设备的显示界面上的屏幕键盘。
[0110]
在一种实施方式中，目标用户在选择设置自定义语音指令之前，可以在显示界面上显示设置自定义语音指令的控件，目标用户选中该控件后，生成指令设置操作以使设备设置自定义语音指令。
[0111]
进一步地，若目标用户一直不设置自定义语音指令，会导致设备不存在预设语音指令，从而不能通过预设语音指令控制设备执行对应的操作。因此为了避免这种情况的出现，设备可以在出厂前保存有默认语音指令。具体地，显示界面上显示可供用户选择的控件，分别表示设置自定义语音指令，不设置自定义语音指令，从而，在目标用户一直选择不设置自定义语音指令导致不存在预设语音指令的情况下，则可根据默认指令控制设置执行对应的操作。其中，默认语音指令的数量至少为1。也就是说，预设语音指令可以包括默认语音指令和自定义语音指令。
[0112]
在一些实施方式中，设备可以响应于目标用户的语音采集操作，获取目标用户的语音数据作为与指令文本对应的指令语音数据。其中，语音采集操作为根据目标用户的选择，采集目标用户发出的与指令文本对应的语音数据的操作。
[0113]
具体地，在确定目标用户输入指令文本后，选择采集指令文本对应的语音数据，从而设备响应于目标用户的语音采集操作，采集目标用户发出的与指令文本对应的语音数据，将采集到的语音数据作为指令语音数据。
[0114]
在一些实施方式中，由于设备上存在的默认语音指令为出厂前设置好的，则默认语音指令对应的语音数据在出厂前也已设置好。但由于个人声音条件(例如音色)存在差别，所以为了使设备能更好地判断目标用户发出的语音数据是否为预设语音指令，设备可以响应于目标用户的语音数据重置操作，重新采集默认语音指令对应的语音数据。例如：默认语音指令a对应的语音数据为语音数据a，目标用户可以选择重置默认语音数据a对应的语音数据，设备响应于语音数据重置操作采集目标用户发出的默认语音指令a的语音数据，得到语音数据b，然后将默认语音指令对应的语音数据从语音数据a重置为语音数据b。
[0115]
在一种实施方式中，获取与所述指令文本对应的指令语音数据的步骤，可以包括：
[0116]
(1.1)响应于语音合成操作，确定合成参数。
[0117]
(1.2)基于合成参数，合成与指令文本对应的指令语音数据。
[0118]
在本技术实施例中，语音合成操作为根据目标用户的选择，通过语音合成技术(text to speech，tts)合成与指令文本对应的语音数据的操作；合成参数是指合成与指令
文本对应的语音数据时需要用到的与目标用户相关的参数。其中，在本技术实施例中，合成参数至少包括性别参数。
[0119]
具体地，目标用户输入指令文本后，选择通过语音合成技术合成与指令文本对应的语音数据，确定合成参数，然后语音合成技术根据合成参数合成与输入的指令文本对应的语音数据作为指令文本数据。例如：合成参数包括性别参数，目标用户为男性，则性别参数为“男”，因此设备通过语音合成技术合成男生声音的与指令文本对应的语音数据。根据合成参数合成的指令语音数据可以更加符合目标用户的声音，从而设备可以更准确地根据获取到的语音数据确定对应的预设语音指令。
[0120]
进一步地，同样性别参数的目标用户之间由于自身年龄、音色等因素的存在，导致每个人的声音之间存在差别，从而对应的语音数据也有差别。例如：少年、青年、中年以及老年对应的声音有差别；清亮、低沉、沙哑、洪亮等不同音色对应的声音也有差别。因此合成参数除了性别参数，还可以包括年龄参数、音色参数等参数。
[0121]
在一种实施方式中，合成参数可以由用户选择得到，例如显示界面可以显示多种合成参数，如性别参数、年龄参数、音色参数等，通过用户的选择操作，确定用户所选择的合成参数。
[0122]
在一些实施方式中，合成参数也可以根据已保存的用户信息得到，用户信息可以包括有性别参数和年龄参数等，即可以根据用户的个人信息确定合成参数。
[0123]
在步骤240中，获取目标用户的目标语音数据。
[0124]
在步骤250中，根据目标语音数据确定第一待比对信息。
[0125]
在步骤260中，获取预设语音指令的第二待比对信息。
[0126]
在步骤270中，若根据第一待比对信息和第二待比对信息，确定目标语音数据与预设语音指令的相似度大于预设阈值，则执行预设语音指令对应的操作。
[0127]
在本技术实施例中，步骤240至步骤270的具体描述请参阅前述步骤110至步骤140的描述，在此不再进行赘述。
[0128]
在本技术的实施例中，通过获取用户的输入数据；根据输入数据确定用户是否属于目标用户；若确定用户属于目标用户，则响应于目标用户的指令设置操作，确定预设语音指令；获取目标用户的目标语音数据；根据目标语音数据确定第一待比对信息；获取预设语音指令的第二待比对信息；若根据第一待比对信息和第二待比对信息，确定目标语音数据与预设语音指令的相似度大于预设阈值，则执行预设语音指令对应的操作。由此，在确定用户为目标用户后，设置预设语音指令，然后通过比对采集到的目标用户的目标语音数据和预设语音指令对应的语音数据中预设待比对信息之间的相似度是否大于预设阈值，并在大于时执行与预设语音指令对应的操作，使得发音不标准的用户也能通过语音指令对设备进行控制。
[0129]
请参阅图3，图3示出了本技术实施例提供的一种语音指令识别装置300的结构框图。该语音指令识别装置300包括语音获取模块310、确定模块320、信息获取模块330、执行模块340。
[0130]
具体地，语音获取模块310，用于获取目标用户的目标语音数据；
[0131]
确定模块320，用于根据所述目标语音数据确定第一待比对信息；
[0132]
信息获取模块330，用于获取预设语音指令的第二待比对信息；
[0133]
执行模块340，用于若根据所述第一待比对信息和所述第二待比对信息，确定所述目标语音数据与所述预设语音指令的相似度大于预设阈值，则执行所述预设语音指令对应的操作。
[0134]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0135]
在本技术所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。
[0136]
另外，在本技术各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。
[0137]
请参阅图4，图4示出了本技术实施例提供的一种电子设备400的结构框图。该电子设备400可以是pc电脑、移动终端等能够运行应用程序的电子设备。本技术中的电子设备400可以包括一个或多个如下部件：处理器410、存储器420以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器420中并被配置为由一个或多个处理器410执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。
[0138]
处理器410可以包括一个或者多个处理核。处理器410利用各种接口和线路连接整个电子设备400内的各个部分，通过运行或执行存储在存储器420内的指令、程序、代码集或指令集，以及调用存储在存储器420内的数据，执行电子设备400的各种功能和处理数据。可选地，处理器410可以采用数字信号处理(digital signal processing，dsp)、现场可编程门阵列(field－programmable gate array，fpga)、可编程逻辑阵列(programmable logic array，pla)中的至少一种硬件形式来实现。处理器410可集成中央处理器(central processing unit，cpu)、图像处理器(graphics processing unit，gpu)和调制解调器等中的一种或几种的组合。其中，cpu主要处理操作系统、用户界面和应用程序等；gpu用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器410中，单独通过一块通信芯片进行实现。
[0139]
存储器420可以包括随机存储器(random access memory，ram)，也可以包括只读存储器(read-only memory)。存储器420可用于存储指令、程序、代码、代码集或指令集。存储器420可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如比对功能、提取功能、语音采集功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备400在使用中所创建的数据(比如目标语音数据、第一待比对信息、第二待比对信息、预设语音指令等)。
[0140]
请参阅图5，图5示出了本技术实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质500中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的语音指令识别方法。
[0141]
计算机可读取存储介质500可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地，计算机可读取存储介质500包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读取存储介质500具有执行上述方法中的任何方法步骤的程序代码510的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程
序产品中。程序代码510可以例如以适当形式进行压缩。
[0142]
本技术实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读取存储介质中。计算机设备的处理器从计算机可读取存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实施方式中描述的语音指令识别方法。
[0143]
本技术的语音指令识别方法、装置和存储介质，涉及语音处理技术领域。该语音指令识别方法包括：获取目标用户的目标语音数据；根据目标语音数据确定第一待比对信息；获取预设语音指令的第二待比对信息；若根据第一待比对信息和第二待比对信息，确定目标语音数据与预设语音指令的相似度大于预设阈值，则执行预设语音指令对应的操作。由此，通过比对目标语音数据和预设语音指令对应的语音数据中的预设待比对信息之间的相似度是否大于预设阈值，并在大于时执行与预设语音指令对应的操作，使得发音不标准的用户也能通过语音对设备进行控制。
[0144]
最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

技术特征：
1.一种语音指令识别方法，其特征在于，所述方法包括：获取目标用户的目标语音数据；根据所述目标语音数据确定第一待比对信息；获取预设语音指令的第二待比对信息；若根据所述第一待比对信息和所述第二待比对信息，确定所述目标语音数据与所述预设语音指令的相似度大于预设阈值，则执行所述预设语音指令对应的操作。2.根据权利要求1所述的方法，其特征在于，所述根据所述目标语音数据确定第一待比对信息，包括：获取所述目标语音数据中包含的韵母和声调；将所述韵母和所述声调作为第一待比对信息。3.根据权利要求1所述的方法，其特征在于，所述根据所述目标语音数据确定第一待比对信息，包括：根据所述目标语音数据中包含的基频信息确定第一基频信息；将所述第一基频信息对应的基频轨迹作为第一待比对信息。4.根据权利要求3所述的方法，其特征在于，所述将所述第一基频信息对应的基频轨迹作为第一待比对信息，包括：将所述第一基频信息对应的基频轨迹中的预设信息作为第一待比对信息；其中，所述预设信息包括基频轨迹中峰值个数、峰值位置、以及起止频率差值中的至少一种信息。5.根据所述要求1所述的方法，其特征在于，在所述获取目标用户的目标语音数据之前，所述方法还包括：获取用户的输入数据；根据所述输入数据确定所述用户是否属于目标用户；若确定所述用户属于目标用户，则响应于所述目标用户的指令设置操作，确定预设语音指令。6.根据权利要求5所述的方法，其特征在于，所述获取用户的输入数据，包括：响应于身份确认指令在显示界面显示身份确认文本；获取所述用户发出的与所述身份确认文本对应的身份确认语音数据；所述根据所述输入数据确定所述用户是否属于目标用户，包括：将所述身份确认语音数据输入语音识别模型，根据所述语音识别模型的输出结果确定所述用户是否为目标用户。7.根据权利要求5所述的方法，其特征在于，所述响应于所述目标用户的指令设置操作，确定预设语音指令，包括：响应于所述目标用户的指令设置操作，确定所述目标用户输入的指令文本；获取与所述指令文本对应的指令语音数据；根据所述指令语音数据确定预设语音指令。8.根据权利要求7所述的方法，其特征在于，所述获取与所述指令文本对应的指令语音数据，包括：响应于所述目标用户的语音采集操作，获取所述目标用户的语音数据作为与所述指令
文本对应的指令语音数据。9.根据权利要求7所述的方法，其特征在于，所述获取与所述指令文本对应的指令语音数据，包括：响应于语音合成操作，确定合成参数；其中，所述合成参数至少包括性别参数；基于所述合成参数，合成与所述指令文本对应的指令语音数据。10.一种语音指令识别装置，其特征在于，所述装置包括：语音获取模块，用于获取目标用户的目标语音数据；确定模块，用于根据所述目标语音数据确定第一待比对信息；信息获取模块，用于获取预设语音指令的第二待比对信息；执行模块，用于若根据所述第一待比对信息和所述第二待比对信息，确定所述目标语音数据与所述预设语音指令的相似度大于预设阈值，则执行所述预设语音指令对应的操作。11.一种电子设备，其特征在于，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1-9任一项所述的语音指令识别方法。12.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-9任一项所述的语音指令识别方法。

技术总结
本申请的语音指令识别方法、装置、电子设备和存储介质，涉及语音处理技术领域。具体包括：获取目标用户的目标语音数据；根据目标语音数据确定第一待比对信息；获取预设语音指令的第二待比对信息；若根据第一待比对信息和第二待比对信息，确定目标语音数据与预设语音指令的相似度大于预设阈值，则执行预设语音指令对应的操作。由此，通过比对目标语音数据和预设语音指令对应的语音数据中的预设待比对信息之间的相似度是否大于预设阈值，并在大于时执行与预设语音指令对应的操作，使得发音不标准的用户也能通过语音指令对设备进行控制。准的用户也能通过语音指令对设备进行控制。准的用户也能通过语音指令对设备进行控制。

技术研发人员：彭子娇丁俊豪李亚桐
受保护的技术使用者：深圳市声扬科技有限公司
技术研发日：2022.06.21
技术公布日：2022/11/1

转载请注明原文地址: https://tieba.8miu.com/read-9492.html

专利

最新回复(0)