语音打断判定方法、系统及终端与流程

专利2024-05-14 95

1.本发明涉及智能对话机器人领域，特别是涉及一种语音打断判定方法、系统及终端。

背景技术：

2.随着机器人技术的不断发展，机器人领域出现了智能对话机器人，例如，在电话通信领域，用户与智能对话机器人电话对话，电子商务领域，用户与智能对话机器人进行语音或者文字对话沟通商品。当用户对智能对话机器人产生反感情绪或者用户认为智能对话机器人没有理解其所要表达的意思想要打断智能对话机器人时，不能及时判别，机器人仍然继续与用户对话，进而不能对用户的反应进行及时识别，大大降低在人机对话过程中通话的质量。

技术实现要素：

3.鉴于以上所述现有技术的缺点，本发明的目的在于提供一种语音打断判定方法、系统及终端，用于解决现有技术中以上技术问题。
4.为实现上述目的及其他相关目的，本发明提供一种语音打断判定方法，所述方法包括：基于多个人机对话录音文件，统计对应机器人正在播放语音的情况下人开始说话的最短语音持续时长；根据所述最短语音持续时长制定用于判断用户侧的语音流是否出现抢话事件的语音打断判断规则；基于所述语音打断判断规则，判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件，以获得对应的语音打断判定结果。
5.于本发明的一实施例中，所述根据所述最短语音持续时长制定用于判断用户侧的语音流是否出现抢话事件的语音打断判断规则包括：根据所述最短语音持续时长确定对应判断用户侧的语音流是否出现抢话事件的抢话最短语音持续时长；基于所述抢话最短语音持续时长，制定用于判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件的语音打断判断规则。
6.于本发明的一实施例中，所述基于所述语音打断判断规则，判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件，以获得对应的语音打断判定结果包括：获取在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长；基于所述语音打断判断规则，根据所述语音持续时长判断是否出现抢话事件，以获得对应判断出现抢话事件的语音被打断判定结果或对应判断未出现抢话事件的语音未被打断判定结果。
7.于本发明的一实施例中，所述语音打断判断规则包括：当在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长不小于所述抢话最短语音持续时长时，则判断出现抢话事件；当在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长小于所述抢话最短语音持续时长时，则判断未出现抢话事件。
8.于本发明的一实施例中，所述基于多个人机对话录音文件，统计对应机器人正在播放语音的情况下人开始说话的最短语音持续时长包括：基于一或多个用户类型分别所对应的多个人机对话录音文件，统计各用户类型的对应机器人正在播放语音时人开始说话的最短语音持续时长。
9.于本发明的一实施例中，所述根据所述最短语音持续时长制定用于判断用户侧的语音流是否出现抢话事件的语音打断判断规则包括：根据对应各用户类型的最短语音持续时长确定对应判断用户侧的对应各用户类型的语音流是否出现抢话事件的抢话最短语音持续时长；基于对应各用户类型的抢话最短语音持续时长，制定用于判断在机器人在播放语音的过程中用户侧所产生的对应各用户类型的语音流是否出现抢话事件的语音打断判断规则。
10.于本发明的一实施例中，所述基于所述语音打断判断规则，判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件，以获得对应的语音打断判定结果包括：获取在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长；基于对应该语音流的用户类型的语音打断判断规则，根据所述语音持续时长判断该语音流是否出现抢话事件，以获得对应判断出现抢话事件的语音被打断判定结果或对应判断未出现抢话事件的语音未被打断判定结果。
11.于本发明的一实施例中，对应每种用户类型的语音打断判断规则包括：当在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长不小于该语音流所对应的用户类型的抢话最短语音持续时长时，则判断出现抢话事件；当在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长小于该语音流所对应的用户类型的抢话最短语音持续时长时，则判断未出现抢话事件。
12.为实现上述目的及其他相关目的，本发明提供一种语音打断判定系统，所述系统包括：统计模块，用于基于多个人机对话录音文件，统计对应机器人正在播放语音的情况下人开始说话的最短语音持续时长；制定规则模块，连接所述统计模块，用于根据所述最短语音持续时长制定用于判断用户侧的语音流是否出现抢话事件的语音打断判断规则；判定模块，连接所述制定规则模块，用于基于所述语音打断判断规则，判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件，以获得对应的语音打断判定结果。
13.为实现上述目的及其他相关目的，本发明提供一种语音打断判定终端，包括：一或多个存储器及一或多个处理器；所述一或多个存储器，用于存储计算机程序；所述一或多个处理器，连接所述存储器，用于运行所述计算机程序以执行所述语音打断判定方法。
14.如上所述，本发明是一种语音打断判定方法、系统及终端，具有以下有益效果：本发明通过多个人机对话录音文件统计对应机器人正在播放语音的情况下人开始说话的最短语音持续时长，并根据所述最短语音持续时长制定用于判断用户侧的语音流是否出现抢话事件的语音打断判断规则，再基于所述语音打断判断规则，判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件，以获得对应的语音打断判定结果。本发明能及时判断用户侧所产生的语音流中是否出现抢话事件，进而大大提高在人机对话过程中通话的质量；并且有针对性的设置语音打断判断规则，进而实现千人千面的针对性判定方案，提升打断判定的准确率。
附图说明
15.图1显示为本发明一实施例中的语音打断判定方法的流程示意图。
16.图2显示为本发明一实施例中的语音打断判定系统的结构示意图。
17.图3显示为本发明一实施例中的语音打断判定终端的结构示意图。
具体实施方式
18.以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。
19.需要说明的是，在下述描述中，参考附图，附图描述了本发明的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本发明的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本发明。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、
““
下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
20.在通篇说明书中，当说某部分与另一部分“连接”时，这不仅包括“直接连接”的情形，也包括在其中间把其它元件置于其间而“间接连接”的情形。另外，当说某种部分“包括”某种构成要素时，只要没有特别相反的记载，则并非将其它构成要素，排除在外，而是意味着可以还包括其它构成要素。
21.其中提到的第一、第二及第三等术语是为了说明多样的部分、成分、区域、层及/或段而使用的，但并非限定于此。这些术语只用于把某部分、成分、区域、层或段区别于其它部分、成分、区域、层或段。因此，以下叙述的第一部分、成分、区域、层或段在不超出本发明范围的范围内，可以言及到第二部分、成分、区域、层或段。
22.再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“a、b或c”或者“a、b和/或c”意味着“以下任一个：a；b；c；a和b；a和c；b和c；a、b和c”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。
23.因此，本发明提供一种语音打断判定方法、系统及终端，通过多个人机对话录音文件统计对应机器人正在播放语音的情况下人开始说话的最短语音持续时长，并根据所述最短语音持续时长制定用于判断用户侧的语音流是否出现抢话事件的语音打断判断规则，再基于所述语音打断判断规则，判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件，以获得对应的语音打断判定结果。本发明能及时判断用户侧所产生的语音流中是否出现抢话事件，进而大大提高在人机对话过程中通话的质量；并且有针对性的
设置语音打断判断规则，进而实现千人千面的针对性判定方案，提升打断判定的准确率。
24.下面以附图为参考，针对本发明的实施例进行详细说明，以便本发明所述技术领域的技术人员能够容易地实施。本发明可以以多种不同形态体现，并不限于此处说明的实施例。
25.如图1展示本发明实施例中的一种语音打断判定方法的流程示意图。
26.所述方法包括：
27.步骤s11：基于多个人机对话录音文件，统计对应机器人正在播放语音的情况下人开始说话的最短语音持续时长。
28.可选的，基于多个人机对话录音文件中机器人正在播放语音的情况人开始说话的语音中统计人开始说话的最短语音持续时长。
29.可选的，步骤s11包括：基于一或多个用户类型分别所对应的多个人机对话录音文件，统计各用户类型的对应机器人正在播放语音时人开始说话的最短语音持续时长。
30.需要说明的是，所述用户类型根据需求而设定，例如基于性别设定的类型，基于年龄设定的类型，或是因为声音特性等特征设定的类型；也可以多个特征结合设定的用户类型，例如老年女性、老年男性、中年女性以及中年男性；基于各用户类型分别制定对应的一语音打断判断规则，实现对各种类型的用户的语音打断判断，有针对性的设置抢话的配置参数，进而实现千人千面的针对性判定方案，提升打断判定的准确率。
31.步骤s12：根据所述最短语音持续时长制定用于判断用户侧的语音流是否出现抢话事件的语音打断判断规则。
32.可选的，步骤s12包括：
33.根据所述最短语音持续时长确定对应判断用户侧的语音流是否出现抢话事件的抢话最短语音持续时长；具体的，根据所述最短语音持续时长确定并转换为对应适应用户侧的语音流的抢话最短语音持续时长；优选的，由于用户对智能对话机器人产生反感情绪或者用户认为智能对话机器人没有理解其所要表达的意思时可能会语速较快，因此可采用一设定时长，将所述最短语音持续时长减去该设定时长，确定并转换为对应适应用户侧的语音流的抢话最短语音持续时长。
34.基于所述抢话最短语音持续时长，制定用于判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件的语音打断判断规则。
35.可选的，所述语音打断判断规则包括：
36.当在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长不小于所述抢话最短语音持续时长时，则判断出现抢话事件；
37.当在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长小于所述抢话最短语音持续时长时，则判断未出现抢话事件。
38.举例来说，若所述抢话最短语音持续时长为500ms，基于vad的每个buffer的识别结果，在机器人在播放语音的过程中用户侧所产生的语音流中从vad判定有语音的帧到判定语音结束的帧之间的时间段作为经vad连续判定对应buffer有语音的语音持续时长，将其语音持续时长与500ms对比，若不小于500ms说明出现抢话事件，若小于500ms说明未出现
抢话事件。
39.在统计各用户类型的对应机器人正在播放语音时人开始说话的最短语音持续时长的情况下，可采用以下实施例：
40.可选的，在统计各用户类型的对应机器人正在播放语音时人开始说话的最短语音持续时长的情况下，步骤s12包括：根据对应各用户类型的最短语音持续时长制定用于判断用户侧的各用户类型的语音流是否出现抢话事件的语音打断判断规则；包括：
41.根据对应各用户类型的最短语音持续时长确定对应判断用户侧的对应各用户类型的语音流是否出现抢话事件的抢话最短语音持续时长；同样的，根据对应各用户类型的最短语音持续时长确定并转换为对应适应用户侧的对应各用户类型的语音流的抢话最短语音持续时长；优选的，由于用户对智能对话机器人产生反感情绪或者用户认为智能对话机器人没有理解其所要表达的意思时可能会语速较快并且各种用户类型的反应情况不一致，因此分别对应各用户类型分别设定一设定时长，将各用户类型的最短语音持续时长减去对应的设定时长，确定并转换为对应适应用户侧的语音流以及其对应用户类型的抢话最短语音持续时长。
42.基于对应各用户类型的抢话最短语音持续时长，制定用于判断在机器人在播放语音的过程中用户侧所产生的对应各用户类型的语音流是否出现抢话事件的语音打断判断规则。需要说明的是，用户可以根据需求仅设置一种或多种用户类型的语音打断规则，也可以设置全部用户种类的语音打断规则。
43.可选的，与上述实施例类似，对应每种用户类型的语音打断判断规则包括：
44.当在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长不小于该语音流所对应的用户类型的抢话最短语音持续时长时，则判断出现抢话事件；
45.当在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长小于该语音流所对应的用户类型的抢话最短语音持续时长时，则判断未出现抢话事件。
46.步骤s13：基于所述语音打断判断规则，判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件，以获得对应的语音打断判定结果。
47.可选的，所述基于所述语音打断判断规则，判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件，以获得对应的语音打断判定结果包括：
48.获取在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长；具体的，基于vad的每个buffer的识别结果，在机器人在播放语音的过程中用户侧所产生的语音流中从vad判定有语音的帧到判定语音结束的帧之间的时间段作为经vad连续判定对应buffer有语音的语音持续时长；
49.基于所述语音打断判断规则，根据所述语音持续时长判断是否出现抢话事件，以获得对应判断出现抢话事件的语音被打断判定结果或对应判断未出现抢话事件的语音未被打断判定结果。优选的，将所述语音持续时长与所述抢话最短语音持续时长对比，若语音持续时长不小于所述抢话最短语音持续时长时，则判断出现抢话事件，获得语音被打断判定结果；若语音持续时长小于所述抢话最短语音持续时长时，则判断未出现抢话事件，获得语音未被打断判定结果。
50.可选的，在统计各用户类型的对应机器人正在播放语音时人开始说话的最短语音持续时长且根据对应各用户类型的最短语音持续时长制定用于判断用户侧的各用户类型的语音流是否出现抢话事件的语音打断判断规则的情况下，步骤s13包括：基于在机器人在播放语音的过程中用户侧所产生的语音流的用户类型的语音打断判断规则，根据所述语音持续时长判断该语音流是否出现抢话事件，并获得语音打断判断结果；与上述实施例相似，包括：
51.获取在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长；
52.基于对应该语音流的用户类型的语音打断判断规则，根据所述语音持续时长判断该语音流是否出现抢话事件，以获得对应判断出现抢话事件的语音被打断判定结果或对应判断未出现抢话事件的语音未被打断判定结果。
53.与上述实施例原理相似的是，本发明提供一种语音打断判定系统。
54.以下结合附图提供具体实施例：
55.如图2展示本发明实施例中的一种语音打断判定系统的结构示意图。
56.所述系统包括：
57.统计模块21，用于基于多个人机对话录音文件，统计对应机器人正在播放语音的情况下人开始说话的最短语音持续时长；
58.制定规则模块22，连接所述统计模块21，用于根据所述最短语音持续时长制定用于判断用户侧的语音流是否出现抢话事件的语音打断判断规则；
59.判定模块23，连接所述制定规则模块22，用于基于所述语音打断判断规则，判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件，以获得对应的语音打断判定结果。
60.需说明的是，应理解图2系统实施例中的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分单元通过处理元件调用软件的形式实现，部分单元通过硬件的形式实现。
61.由于该语音打断判定系统的实现原理已在前述实施例中进行了叙述，因此此处不作重复赘述。
62.可选的，所述制定规则模块22用于根据所述最短语音持续时长确定对应判断用户侧的语音流是否出现抢话事件的抢话最短语音持续时长；基于所述抢话最短语音持续时长，制定用于判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件的语音打断判断规则。
63.可选的，所述判定模块23用于获取在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长；基于所述语音打断判断规则，根据所述语音持续时长判断是否出现抢话事件，以获得对应判断出现抢话事件的语音被打断判定结果或对应判断未出现抢话事件的语音未被打断判定结果。
64.可选的，所述语音打断判断规则包括：当在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长不小于所述抢话最短语音持续时长时，则判断出现抢话事件；当在机器人在播放语音的过程中用户侧所产生的语音
流经vad连续判定对应buffer有语音的语音持续时长小于所述抢话最短语音持续时长时，则判断未出现抢话事件。
65.可选的，所述统计模块21用于基于一或多个用户类型分别所对应的多个人机对话录音文件，统计各用户类型的对应机器人正在播放语音时人开始说话的最短语音持续时长。
66.可选的，所述制定规则模块22用于根据对应各用户类型的最短语音持续时长确定对应判断用户侧的对应各用户类型的语音流是否出现抢话事件的抢话最短语音持续时长；基于对应各用户类型的抢话最短语音持续时长，制定用于判断在机器人在播放语音的过程中用户侧所产生的对应各用户类型的语音流是否出现抢话事件的语音打断判断规则。
67.可选的，所述判定模块23用于获取在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长；基于对应该语音流的用户类型的语音打断判断规则，根据所述语音持续时长判断该语音流是否出现抢话事件，以获得对应判断出现抢话事件的语音被打断判定结果或对应判断未出现抢话事件的语音未被打断判定结果。
68.可选的，对应每种用户类型的语音打断判断规则包括：当在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长不小于该语音流所对应的用户类型的抢话最短语音持续时长时，则判断出现抢话事件；当在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长小于该语音流所对应的用户类型的抢话最短语音持续时长时，则判断未出现抢话事件。
69.如图3展示本发明实施例中的语音打断判定终端10的结构示意图。
70.所述语音打断判定终端30包括：存储器31及处理器32所述存储器31用于存储计算机程序；所述处理器32运行计算机程序实现如图1所述的语音打断判定方法。
71.可选的，所述存储器31的数量均可以是一或多个，所述处理器32的数量均可以是一或多个，而图3中均以一个为例。
72.可选的，所述语音打断判定终端30中的处理器32会按照如图1所述的步骤，将一个或多个以应用程序的进程对应的指令加载到存储器31中，并由处理器32来运行存储在第一存储器31中的应用程序，从而实现如图1所述语音打断判定方法中的各种功能。
73.可选的，所述存储器31，可能包括但不限于高速随机存取存储器、非易失性存储器。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备；所述处理器32，可能包括但不限于中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field－programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
74.可选的，所述处理器32可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field－programmable gate array，
简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
75.本发明还提供计算机可读存储介质，存储有计算机程序，所述计算机程序运行时实现如图1所示的语音打断判定方法。所述计算机可读存储介质可包括，但不限于，软盘、光盘、cd-rom(只读光盘存储器)、磁光盘、rom(只读存储器)、ram(随机存取存储器)、eprom(可擦除可编程只读存储器)、eeprom(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品，也可以是已接入计算机设备使用的部件。
76.综上所述，本发明的语音打断判定系统，通过多个人机对话录音文件统计对应机器人正在播放语音的情况下人开始说话的最短语音持续时长，并根据所述最短语音持续时长制定用于判断用户侧的语音流是否出现抢话事件的语音打断判断规则，再基于所述语音打断判断规则，判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件，以获得对应的语音打断判定结果。本发明能及时判断用户侧所产生的语音流中是否出现抢话事件，进而大大提高在人机对话过程中通话的质量；并且有针对性的设置语音打断判断规则，进而实现千人千面的针对性判定方案，提升打断判定的准确率。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
77.上述实施例仅示例性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

技术特征：
1.一种语音打断判定方法，其特征在于，所述方法包括：基于多个人机对话录音文件，统计对应机器人正在播放语音的情况下人开始说话的最短语音持续时长；根据所述最短语音持续时长制定用于判断用户侧的语音流是否出现抢话事件的语音打断判断规则；基于所述语音打断判断规则，判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件，以获得对应的语音打断判定结果。2.根据权利要求1中所述的语音打断判定方法，其特征在于，所述根据所述最短语音持续时长制定用于判断用户侧的语音流是否出现抢话事件的语音打断判断规则包括：根据所述最短语音持续时长确定对应判断用户侧的语音流是否出现抢话事件的抢话最短语音持续时长；基于所述抢话最短语音持续时长，制定用于判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件的语音打断判断规则。3.根据权利要求1中所述的语音打断判定方法，其特征在于，所述基于所述语音打断判断规则，判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件，以获得对应的语音打断判定结果包括：获取在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长；基于所述语音打断判断规则，根据所述语音持续时长判断是否出现抢话事件，以获得对应判断出现抢话事件的语音被打断判定结果或对应判断未出现抢话事件的语音未被打断判定结果。4.根据权利要求2或3中所述的语音打断判定方法，其特征在于，所述语音打断判断规则包括：当在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长不小于所述抢话最短语音持续时长时，则判断出现抢话事件；当在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长小于所述抢话最短语音持续时长时，则判断未出现抢话事件。5.根据权利要求1中所述的语音打断判定方法，其特征在于，所述基于多个人机对话录音文件，统计对应机器人正在播放语音的情况下人开始说话的最短语音持续时长包括：基于一或多个用户类型分别所对应的多个人机对话录音文件，统计各用户类型的对应机器人正在播放语音时人开始说话的最短语音持续时长。6.根据权利要求5中所述的语音打断判定方法，其特征在于，所述根据所述最短语音持续时长制定用于判断用户侧的语音流是否出现抢话事件的语音打断判断规则包括：根据对应各用户类型的最短语音持续时长确定对应判断用户侧的对应各用户类型的语音流是否出现抢话事件的抢话最短语音持续时长；基于对应各用户类型的抢话最短语音持续时长，制定用于判断在机器人在播放语音的过程中用户侧所产生的对应各用户类型的语音流是否出现抢话事件的语音打断判断规则。7.根据权利要求6中所述的语音打断判定方法，其特征在于，所述基于所述语音打断判断规则，判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件，以
获得对应的语音打断判定结果包括：获取在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长；基于对应该语音流的用户类型的语音打断判断规则，根据所述语音持续时长判断该语音流是否出现抢话事件，以获得对应判断出现抢话事件的语音被打断判定结果或对应判断未出现抢话事件的语音未被打断判定结果。8.根据权利要求6或7中所述的语音打断判定方法，其特征在于，对应每种用户类型的语音打断判断规则包括：当在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长不小于该语音流所对应的用户类型的抢话最短语音持续时长时，则判断出现抢话事件；当在机器人在播放语音的过程中用户侧所产生的语音流经vad连续判定对应buffer有语音的语音持续时长小于该语音流所对应的用户类型的抢话最短语音持续时长时，则判断未出现抢话事件。9.一种语音打断判定系统，其特征在于，所述系统包括：统计模块，用于基于多个人机对话录音文件，统计对应机器人正在播放语音的情况下人开始说话的最短语音持续时长；制定规则模块，连接所述统计模块，用于根据所述最短语音持续时长制定用于判断用户侧的语音流是否出现抢话事件的语音打断判断规则；判定模块，连接所述制定规则模块，用于基于所述语音打断判断规则，判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件，以获得对应的语音打断判定结果。10.一种语音打断判定终端，其特征在于，包括：一或多个存储器及一或多个处理器；所述一或多个存储器，用于存储计算机程序；所述一或多个处理器，连接所述存储器，用于运行所述计算机程序以执行如权利要求1至8中任一项所述的方法。

技术总结
本发明的语音打断判定方法、系统及终端，通过多个人机对话录音文件统计对应机器人正在播放语音的情况下人开始说话的最短语音持续时长，并根据所述最短语音持续时长制定用于判断用户侧的语音流是否出现抢话事件的语音打断判断规则，再基于所述语音打断判断规则，判断在机器人在播放语音的过程中用户侧所产生的语音流是否出现抢话事件，以获得对应的语音打断判定结果。本发明能及时判断用户侧所产生的语音流中是否出现抢话事件，进而大大提高在人机对话过程中通话的质量；并且有针对性的设置语音打断判断规则，进而实现千人千面的针对性判定方案，提升打断判定的准确率。提升打断判定的准确率。提升打断判定的准确率。

技术研发人员：裴新华
受保护的技术使用者：上海湃舵智能科技有限公司
技术研发日：2022.07.18
技术公布日：2022/11/1

转载请注明原文地址: https://tieba.8miu.com/read-8133.html

专利

最新回复(0)