1.本技术涉及语音检测技术领域,尤其涉及一种异常语音数据检测方法、异常语音数据检测装置、计算机设备及存储介质。
背景技术:2.人工客服是企业与客户之间的桥梁和纽带,在不同的业务场景下,对人工客户具有不同的话术要求和标准,如在办理电话业务的场景下,人工客服需要采用礼貌用语来表示对客户的尊重,但在实践中,在面对客户的刁难或者在遇到棘手问题的时候,人工客服存在不可避免的无法控制情绪的情况,对客户采用侮辱性言语,又比如在电话催债业务的场景下,客服人员催债的的语气过于友好或者对客户采用侮辱性言语。
3.目前,一方面是通过在上岗之前对每个客服人员都经过专业的话术培训来避免上述情况,但培训一般需要较长时间,尤其是在实践场景中,由于客服人员本身是不可控的,更加无法有效避免上述情况,另一方面通过安排人工进行随机抽查电话录音来检测异常语音,无法对电话录音进行全面检测且费时费力,检测效率较低。
技术实现要素:4.本技术提供一种异常语音数据检测方法、装置、计算机设备及存储介质,以提高异常语音数据的检测效率。
5.一种异常语音数据检测方法,包括:
6.获取n个业务场景的历史语音数据,并根据n个所述历史语音数据,获得n个第一语料集合,其中,n为大于0的正整数;
7.获取输入的n个第二语料集合,并根据n个所述第二语料集合和n个所述第一语料集合,得到n个代表词集合,其中,n为大于0的正整数,n个所述第二语料集合与n个所述第一语料集合一一对应;
8.当对第i个业务场景的当前语音段进行异常检测时,在所述当前语音段被发送之前,根据所述第i个业务场景对应的所述代表词集合,确定所述当前语音段内是否包含至少一个异常词;
9.当所述当前语音段内包含至少一个异常词时,获取预设的异常处理规则,并基于所述预设的异常处理规则,对所述当前语音段进行处理。
10.一种异常语义数据检测装置,包括:
11.第一语料集合获取模块,用于获取n个业务场景的历史语音数据,并根据n个所述历史语音数据,获得n个第一语料集合,其中,n为大于0的正整数;
12.代表词集合获取模块,用于获取输入的n个第二语料集合,并根据n个所述第二语料集合和n个所述第一语料集合,得到n个代表词集合,其中,n为大于0的正整数,n个所述第二语料集合与n个所述第一语料集合一一对应;
13.第一异常词确定模块,用于当对第i个业务场景的当前语音段进行异常检测时,在
所述当前语音段被发送之前,根据所述第i个业务场景对应的所述代表词集合,确定所述当前语音段内是否包含至少一个异常词;
14.当前语音段处理模块,用于当所述当前语音段内包含至少一个异常词时,获取预设的异常处理规则,并基于所述预设的异常处理规则,对所述当前语音段进行处理。
15.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述异常语音数据检测方法的步骤。
16.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述异常语音数据检测方法的步骤。
17.本技术提供的异常语音数据检测方法、装置、计算机设备及存储介质,通过获取n个业务场景的历史语音数据,并根据n个历史语音数据,获得n个第一语料集合,其中,n为大于0的正整数;获取输入的n个第二语料集合,并根据n个第二语料集合和n个第一语料集合,得到n个代表词集合,其中,n为大于0的正整数,n个第二语料集合与n个第一语料集合一一对应;当对第i个业务场景的当前语音段进行异常检测时,在当前语音段被发送之前,根据第i个业务场景对应的代表词集合,确定当前语音段内是否包含至少一个异常词;当所述当前语音段内包含至少一个异常词时,获取预设的异常处理规则,并基于预设的异常处理规则,对当前语音段进行处理,在本技术中,通过从多个业务场景的历史语音数据中获得与每个业务场景对应的代表词集合,并根据每个业务场景对应的代表词集合确定在每个业务场景对应的当前语音段是否包括至少一个异常词,若当前语音段包括至少一个异常词,则采用预设的异常处理规则对当前语音段进行处理,提高对不同业务场景的异常语音数据的检测效率。
附图说明
18.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1是本技术一实施例中异常语音数据检测方法的一应用环境示意图;
20.图2是本技术一实施例中异常语音数据检测方法的一流程图;
21.图3是本技术一实施例中异常语音数据检测装置的结构示意图;
22.图4是本技术一实施例中计算机设备的一示意图;
23.图5是本技术又一实施例中异常语音数据检测方法的一流程图;
24.图6是本技术又一实施例中异常语音数据检测方法的一流程图;
25.图7是本技术又一实施例中异常语音数据检测方法的一流程图。
具体实施方式
26.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施
例,都属于本技术保护的范围。
27.本技术实施例提供的异常语音数据检测方法,可应用在如图1的应用环境中,如图1所示,系统框架100可以包括终端设备、网络和服务器。网络用以在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
28.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或者发送消息等。
29.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture eperts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture eperts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
30.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
31.需要说明的是,本技术实施例所提供的异常语义数据检测方法由服务器执行,相应地,异常语音数据检测装置设置于服务器中。
32.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和服务器,本技术实施例中的终端设备具体可以对应的是实际生产中的应用系统。
33.在一实施例中,如图2所示,提供一种异常语音数据检测方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤s201至步骤s204:
34.步骤s201:获取n个业务场景的历史语音数据,并根据n个历史语音数据,获得n个第一语料集合,其中,n为大于0的正整数。
35.具体的,可以通过获取客服人员在n个业务场景的通话录音,得到n个业务场景的历史语音数据,其中,业务场景可以有营销业务、售后业务、催债业务等,根据每个业务场景对应的历史语音数据,得到每个业务场景对应的第一语料集合,每个业务场景对应的第一语料集合可以是从每个业务场景对应的历史语音数据中获得的分词,分词的类别形式可以包括单词和/或词组、以及短句等,其中,不同的单词和/或词组、以及短句等还可以表示不同的情绪,此处不对分词的类别形式进行具体限定,其可根据实际应用场景的需求进行调整。
36.另外,在获取n个业务场景的历史语音数据时,若该历史语音数据中的包含至少两段不同特征的音频,则采用dia人声分割方式,将该历史语音数据进行语音分割,得到分组音频集合,基于预设的话术词表,从分组音频集合中筛选出目标音频,将该目标音频作为历史语音数据,其中,预设的话术词表中包含至少一个话术词,话术词可以是客服工作人员常用的话术关键词或话术内容,如,客服工作人员的礼貌用语等。
37.步骤s202:获取输入的n个第二语料集合,并根据n个第二语料集合和n个第一语料集合,得到n个代表词集合,其中,n为大于0的正整数,n个第二语料集合与n个第一语料集合一一对应。
38.具体的,在每个业务场景都存在有对应的标准词,其中,标准词可以是客服工作人
员常用的话术关键词或者话术内容,可以通过人工从客户工作人员的培训内容或者从客服人员在不同的业务场景下的示例内容中抽取话术关键词或话术内容,得到预设的话术词表,将预设的话术词表作为第二语料集合,根据不同的业务场景,可以得到不同的第二语料集合。
39.第二语料集合包括至少一个标准词,标准词可以是话术关键词或者话术内容,第一语料集合包括至少一个分词,基于相似度算法,计算同一业务场景下第一语料集合中的分词与第二语料集合中的标准词的语义相似度,得到话术语义相似度值,若话术语义相似度值大于预设话术语义相似度阈值,则将该分词加入到第二语料集合中,与上述标准词合并,并将第二语料集合作为代表词集合,每个业务场景对应与每个代表词集合一一对应。
40.可选的,还可以通过人工根据预设的分类规则,将第二语料集合中的话术关键词或话术内容进行分类,其中,预设的分类规则可以是根据话术关键词或者话术内容的情绪类别对话术关键词或话术内容进行分类,情绪类别可以是愤怒、友好、冷漠、暴躁等,此处不对情绪类别进行具体限定,其可根据实际应用场景进行定义,示例性的,话术关键词或话术内容的类别形式可以为单词、词组,则预设的分类规则可以是根据话术关键词以及话术内容的类别形式进行第一次分类,得到单词集合和词组集合,再根据话术关键词的或话术内容的情绪类别分别对单词集合和词组结合进行第二次分类。
41.步骤s203:当对第i个业务场景的当前语音段进行异常检测时,在当前语音段被发送之前,根据第i个业务场景对应的代表词集合,确定当前语音段内是否包含至少一个异常词。
42.具体的,当前语音段为客服工作人员在预设时间段内的语音数据,其内容可以是一个字、一个单词、一个词组、一句话、一段话。通过对当前语音段进行语音识别,得到当前语音段对应的当前语音文本数据,通过对当前语音文本数据进行分词处理,得到当前分词列表,当前分词列表包括至少一个关键词,基于相似度算法,计算关键词与第i个业务场景对应的代表词集合中的代表词的语义相似度,得到语义相似度值,若存在至少一个语义相似度值大于预设语义相似度阈值,则确定当前语音段内包含至少一个异常词,其中,i为自然数。
43.步骤s204:当当前语音段内包含至少一个异常词时,获取预设的异常处理规则,并基于预设的异常处理规则,对当前语音段进行处理。
44.具体的,预设的异常处理规则可以为:
45.在对当前语音段进行实时异常检测时,若确定当前语音段内包含至少一个异常词,则对当前语音段进行异常处理,直到检测到当前语音段中的异常处理停止字符时停止异常处理,其中,对当前语音段进行异常处理包括对按照时间的先后顺序对当前语音段进行消音处理,异常处理停止字符可以是当前语音段中的首个句号,例如,在催收场景中,确定当前语音段存在愤怒词汇,就立即对当前语音段进行消音处理,直到检测到当前语音段中的首个句号,停止对当前语音段进行消音处理。
46.在本实施例中,提供一种异常语音数据检测方法,通过获取n个业务场景的历史语音数据,并根据n个历史语音数据,获得n个第一语料集合,其中,n为大于0的正整数;获取输入的n个第二语料集合,并根据n个第二语料集合和n个第一语料集合,得到n个代表词集合,其中,n为大于0的正整数,n个第二语料集合与n个第一语料集合一一对应;当对第i个业务
场景的当前语音段进行异常检测时,在当前语音段被发送之前,根据第i个业务场景对应的代表词集合,确定当前语音段内是否包含至少一个异常词;当当前语音段内包含至少一个异常词时,获取预设的异常处理规则,并基于预设的异常处理规则,对当前语音段进行处理,本技术实施例中,通过从多个业务场景的历史语音数据中提炼每个业务场景中的代表词,通过代表词来确定当前语音段中的异常词,提高了异常语音数据的检测效率。
47.在本实施例的一些可选的实现方式中,步骤s204,根据第i个业务场景对应的代表词集合,确定当前语音段内是否包含至少一个异常词包括:
48.对当前语音段进行语音识别,得到当前语音文本数据。
49.具体的,假设在电话业务场景中,当前语音段的语音内容为“您好,请问您兴趣了解新推出的增值业务吗”,得到的当前语音文本数据即为“您好,请问您兴趣了解新推出的增值业务吗”。
50.对当前语音文本数据进行分词处理,得到当前分词列表,当前分词列表包括至少一个关键词。
51.具体的,可以根据预设的分词词典对当前语音文本数据进行分词处理,得到当前分词列表,其中,预设的分词词典根据历史经验数据分析获得。
52.根据相似度算法,计算关键词与第i个业务场景对应的代表词集合中的至少一个代表词的语义相似度,得到语义相似度值。
53.此处需要说明的是,,本技术中所说的相似度算法可以是余弦相似度、最小编辑距离、欧式距离等。
54.根据语义相似度值和预设语义相似度阈值,确定当前语音段内是否包含至少一个异常词。
55.具体的,若存在至少一个语音相似度值大于预设语义相似度阈值,则确定当前语音段内包含至少一个异常词,若不存在至少一个语音相似度值大于预设语义相似度阈值,则发送当前语音段,其中预设语义相似度值根据对历史数据分析获得。
56.在本实施例中,通过相似度算法计算当前语音段中的关键词与代表词集合中的代表词的语义相似度,有利于快速并准确确定当前语音段中是否存在异常词,从而提高异常语音数据的检测效率。
57.在本实施例的一些可选的实现方式中,请参考图5,步骤s201,根据n个历史语音数据,获得n个第一语料集合包括如下步骤s2010至步骤s2012:
58.步骤s2010:对每个历史语音数据进行语音识别,得到n个历史语音数据对应的n个文本数据。
59.具体的,可以通过语音识别技术对每个历史语音数据进行语音识别,得到n个历史语音数据对应的n个文本数据,其中,语音识别技术可以把语音信号转变为相应的文本,在本技术中,用于将历史语音数据转变为文本数据。
60.步骤s2011:对每个文本数据进行分词处理,得到n个分词文本数据,其中,分词文本数据包括至少一个分词。
61.具体的,可以基于预设的分词词典对每个文本数据进行分词处理,得到n个分词文本数据,其中,预设的分词词典根据对历史经验数据分析获得。
62.步骤s2012:从每个分词文本数据中抽取分词,得到n个第一语料集合。
63.在本实施例中,通过对历史语音数据进行语音识别,得到文本数据,并对文本数据进行分词处理后,抽取分词,得到第一语料集合,该第一语料集合更加快速的检测其对应的业务场景的异常语音数据,进一步提高异常语音数据的检测效率。
64.在本实施例的一些可选的实现方式中,步骤s2011,对每个文本数据进行分词处理,得到n个分词文本数据,其中,分词文本数据包括至少一个分词之后包括:
65.基于预设的停用词词典,确定分词本文数据中的分词是否为无意义分词。
66.具体的,预设的停用词词典根据对历史经验数据分析获得,采用相似度算法计算分词文本数据中的分词与预设的停用词词典中的停用词的语义相似度,得到分词与停用词的语义相似度值,若分词与停用词的语义相似度值大于预设相似度语义阈值,则确定分词为无意义分词。
67.若确定分词文本数据中的分词是无意义分词,则从分词文本数据中剔除分词,否则,保留分词。
68.在本实施例中,通过剔除分词文本数据中的无意义分词,保证分词文本数据中的分词的有效性,进一步提高异常语音数据的检测效率。
69.在本实施例的一些可选的实现方式中,请参考图6,步骤s2012,第一语料集合包括第一类代表词集合和第二类代表词集合,分词包括第一类代表词和第二类代表词;
70.从每个分词文本数据中抽取分词,得到n个第一语料集合包括如下步骤s20120至步骤s20124:
71.步骤s20120:从每个分词文本数据中抽取第一类代表词,并对每个分词文本数据中的第一类代表词进行词频统计,得到每个分词文本数据中第一类代表词的出现频次。
72.具体的,第一类代表词可以是单词,如“这家”、“公司”、“涉嫌”、“诈骗”。
73.步骤s20121:根据每个分词文本数据中第一类代表词的出现频次排序,得到n个第一类代表词词频列表。
74.具体的,可以根据每个分词文本数据中第一类代表词的出现频次,由高到低,将每个分词文本数据中的第一类代表词进行排序,得到n个第一类代表词词频列表。
75.步骤s20122:从每个第一类代表词词频列表中提取m个第一类代表词,得到n个第一类代表词集合,其中,m为大于0的正整数。
76.具体的,可以基于预设的抽取规则,如,提取每个第一类代表词词频列表中前m个出现频次高的第一类代表词,得到n个第一来代表词集合。
77.步骤s20123:根据每个第一类代表词集合中的第一类代表词,从对应的分词文本数据中抽取第二类代表词,得到n个第二类代表词集合。
78.具体的,第二类代表词可以是词组,如“这家公司”、“公司涉嫌”、“涉嫌诈骗”,可以通过相似度算法计算第一类代表和对应的分词文本数据中第二类代表词的相似度值,若计算第一类代表和对应的分词文本数据中第二类代表词的相似度值大于预设相似度值,则从对应的分词文本数据中抽取该第二类代表词,得到n个第二类代表词集合,假设,第一类代表词是“诈骗”,对应的分词文本数据中的第二类代表词为“涉嫌诈骗”,通过相似度算法计算“涉嫌诈骗”与“诈骗”的相似度值,若“涉嫌诈骗”与“诈骗”的相似度值大于预设相似度值,则从对应给你的分词文本数据中抽取“涉嫌诈骗”。
79.步骤s20124:将每个分词文本数据对应的第一类代表词集合和与第一类代表词对
应的第二类代表词集合进行合并,得到n个代表词集合。
80.在本实施例中,通过第一来代表词集合中的第一类代表词抽取第二类代表词,得到第二类代表词集合,将第一类代表词集合和第二类代表词集合进行合并,扩大了代表词数量,有利于更加快速准确的检测与其对应的业务领域的异常语音数据,进一步提高异常语音数据检测的效率。
81.在本实施例的一些可选的实现方式中,请参考图7,步骤s20123,根据每个第一类代表词集合中的第一类代表词,从对应的分词文本数据中抽取第二类代表词,得到n个第二类代表词集合包括如下步骤s201230至步骤s201231:
82.步骤s201230:基于相似度算法,计算每个第一类代表词集合中的第一类代表词与其对应的分词文本数据中的第二类代表词的语义相似度,得到代表词语义相似度值。
83.步骤s201231:若代表词语义相似度大于预设代表词语义相似度阈值,则从分词文本数据中抽取第二类代表词,得到n个第二类代表词集合。
84.具体的,代表词语音相似度阈值根据对历史经验数据分析获得。
85.在本实施例中,通过第一来代表词集合中的第一类代表词抽取第二类代表词,得到第二类代表词集合,有效扩大了代表词数量,有利于更加快速准确的检测与其对应的业务领域的异常语音数据,进一步提高异常语音数据检测的效率。
86.在本实施例的一些可选的实现方式中,步骤s201230,第二类代表词包括前位词组和后位词组;
87.基于相似度算法,计算每个第一类代表词集合中的第一类代表词与其对应的分词文本数据中的第二类代表词的语义相似度,得到代表词语义相似度值包括:
88.计算每个第一类代表词集合中的第一类代表词与其对应的分词文本数据组中的第二类代表词对应的前位词组的相似度,得到代表词语义相似度。
89.以及计算每个第一类代表词集合中的第一类代表词与其对应的分词文本数据组中的第二类代表词对应的后位词组的相似度,得到代表词语义相似度。
90.可选的,计算每个第一类代表词集合中的第一类代表词与其对应的分词文本数据组中的第二类代表词对应的后位词组的相似度,得到代表词语义相似度,若代表词语义相似度值超过预设相似度阈值,则将第二类代表词的前位词组添加到其对应的第一类代表词集合,扩大第一类代表词集合中第一类代表词的数量,有利于提高异常语音数据的检测效率。
91.示例性的,假设第一类代表词集合中的代表词为“呵呵”,第二类代表词为“随便呵呵”,其中,“随便呵呵”中的“随便”是前位词组,“呵呵”是后位词组,基于相似度算法计算“呵呵”与“随便”的语义相似度,得到代表词相似度值,以及基于相似度算法计算“呵呵”与“呵呵”的语义相似度,得到代表词语义相似度,当基于相似度算法计算“呵呵”与“呵呵”的语义相似度,得到代表词语义相似度,且该代表词语义相似度值大于预想相似度阈值时,将“随便”添加至与其对应的第一类代表词集合。
92.在本实施中,通过计算第一类代表词集合中的第一类代表词与第二类代表词的前位词组以及第二类代表词的后位词组的语义相似度,有利于扩展代表词的数量,从而有利于提高异常语音数据的检测效率。
93.在本实施例的一些可选的实现方式中,步骤s202,每个第二语料集合对应一个业
务场景,第二语料集合包括业务场景的至少一个标准词,每个标准词标记有预设标签,第一语料集合包括业务场景的至少一个分词;
94.根据n个第二语料集合和n个第一语料集合,得到n个代表词集合,其中,n为大于0的正整数,n个第二语料集合与n个第一语料集合一一对应包括:
95.计算n个第二语料集合中的标准词和与其对应的第一语料集合中的分词的语义相似度,得到词语相似度值。
96.若词语相似度值大于预设词语相似度值,则采用标准词标记的预设标签对分词进行标记,并将标记后的分词添加至第二语料集合后,将第二语料集合作为代表词集合,得到n个代表词集合。
97.具体的,预设标签可以是情绪标签,如愤怒标签、友好标签,可以通过情绪标签将标准词和分词分类,从而根据标准词和分词所携带的情绪标签,更加快速准确对异常语音数据进行检测。
98.在本实施例中,通过预设标签对第二语料集合中的标准词携带的预设标签对第一语料集合中的分词进行标记,有利于在业务场景中对标准词和分词进行分类,从而根据标准词和分词的类别,更加快速准确的对异常语音数据进行检测,提高异常语音数据检测的效率。
99.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
100.在一实施例中,提供一种异常数据检测装置,该异常数据检测装置与上述实施例中异常数据检测方法一一对应。如图3所示,该异常数据检测装置包括第一语料集合获取模块30、代表词集合获取模块31、第一异常词确定模块32和当前语音段处理模块33。各功能模块详细说明如下:
101.第一语料集合获取模块30,用于获取n个业务场景的历史语音数据,并根据n个历史语音数据,获得n个第一语料集合,其中,n为大于0的正整数。
102.代表词集合获取模块31,用于获取输入的n个第二语料集合,并根据n个第二语料集合和n个第一语料集合,得到n个代表词集合,其中,n为大于0的正整数,n个第二语料集合与n个第一语料集合一一对应。
103.第一异常词确定模块32,用于当对第i个业务场景的当前语音段进行异常检测时,在当前语音段被发送之前,根据第i个业务场景对应的代表词集合,确定当前语音段内是否包含至少一个异常词。
104.当前语音段处理模块33,用于当当前语音段内包含至少一个异常词时,获取预设的异常处理规则,并基于预设的异常处理规则,对当前语音段进行处理。
105.可选的,第一异常词确定模块32包括:
106.当前语音文本数据获取子模块,用于对当前语音段进行语音识别,得到当前语音文本数据。
107.当前分词列表获取子模块,用于对当前语音文本数据进行分词处理,得到当前分词列表,当前分词列表包括至少一个关键词。
108.语义相似度值计算子模块,用于根据相似度算法,计算关键词与第i个业务场景对
应的代表词集合中的至少一个代表词的语义相似度,得到语义相似度值。
109.第二异常词确定子模块,用于根据语义相似度值和预设语义相似度阈值,确定当前语音段内是否包含至少一个异常词。
110.可选的,第一语料集合获取模块30包括:
111.文本数据获取子模块,用于对每个历史语音数据进行语音识别,得到n个历史语音数据对应的n个文本数据。
112.分词文本数据获取子模块,用于对每个文本数据进行分词处理,得到n个分词文本数据,其中,分词文本数据包括至少一个分词。
113.分词抽取子模块,用于从每个分词文本数据中抽取分词,得到n个第一语料集合。
114.可选的,该异常语音数据检测装置还可以包括:
115.无意义分词确定模块,用于基于预设的停用词词典,确定分词本文数据中的分词是否为无意义分词。
116.分词剔除模块,用于若确定分词文本数据中的分词是无意义分词,则从分词文本数据中剔除分词,否则,保留分词。
117.可选的,第一语料集合包括第一类代表词集合和第二类代表词集合,分词包括第一类代表词和第二类代表词;第一语料集合获取模块30包括:
118.第一类代表词抽取子模块,用于从每个分词文本数据中抽取第一类代表词,并对每个分词文本数据中的第一类代表词进行词频统计,得到每个分词文本数据中第一类代表词的出现频次。
119.第一类代表词词频列表获得子模块,用于根据每个分词文本数据中第一类代表词的出现频次排序,得到n个第一类代表词词频列表。
120.第一类代表词集合获得子模块,用于从每个第一类代表词词频列表中提取m个第一类代表词,得到n个第一类代表词集合,其中,m为大于0的正整数。
121.第二类代表词集合获取子模块,用于根据每个第一类代表词集合中的第一类代表词,从对应的分词文本数据中抽取第二类代表词,得到n个第二类代表词集合。
122.代表词集合合并子模块,用于将每个分词文本数据对应的第一类代表词集合和与第一类代表词对应的第二类代表词集合进行合并,得到n个代表词集合。
123.可选的,第二类代表词集合获取子模块包括:
124.代表词语义相似度值计算单元,用于基于相似度算法,计算每个第一类代表词集合中的第一类代表词与其对应的分词文本数据中的第二类代表词的语义相似度,得到代表词语义相似度值。
125.第二类代表词抽取单元,用于若代表词语义相似度大于预设代表词语义相似度阈值,则从分词文本数据中抽取第二类代表词,得到n个第二类代表词集合。
126.可选的,第二类代表词包括前位词组和后位词组;代表词语义相似度值计算单元包括:
127.第一计算子单元,用于计算每个第一类代表词集合中的第一类代表词与其对应的分词文本数据组中的第二类代表词对应的前位词组的相似度,得到代表词语义相似度。以及
128.第二计算子单元,用于计算每个第一类代表词集合中的第一类代表词与其对应的
分词文本数据组中的第二类代表词对应的后位词组的相似度,得到代表词语义相似度。
129.可选的,每个第二语料集合对应一个业务场景,第二语料集合包括业务场景的至少一个标准词,每个标准词标记有预设标签,第一语料集合包括业务场景的至少一个分词;代表词集合获取模块31包括:
130.第三计算子模块,用于计算n个第二语料集合中的标准词和与其对应的第一语料集合中的分词的语义相似度,得到词语相似度值。
131.标记子模块,用于若词语相似度值大于预设词语相似度值,则采用标准词标记的预设标签对分词进行标记,并将标记后的分词添加至第二语料集合后,将第二语料集合作为代表词集合,得到n个代表词集合。
132.其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本技术中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
133.关于异常数据检测装置的具体限定可以参见上文中对于异常数据检测方法的限定,在此不再赘述。上述异常数据检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
134.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储异常数据检测方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种异常数据检测方法。
135.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中异常数据检测方法的步骤,例如图2所示的步骤201至步骤204及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机程序时实现上述实施例中异常数据检测装置的各模块/单元的功能,例如图3所示模块30至模块33的功能。为避免重复,这里不再赘述。
136.处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部
分。
137.存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
138.存储器可以集成在处理器中,也可以与处理器分开设置。
139.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中异常数据检测方法的步骤,例如图2所示的步骤201至步骤204及该方法的其它扩展和相关步骤的延伸。或者,计算机程序被处理器执行时实现上述实施例中异常数据检测装置的各模块/单元的功能,例如图3所示模块30至模块33的功能。为避免重复,这里不再赘述。
140.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
141.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
142.以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。
技术特征:1.一种异常语音数据检测方法,其特征在于,包括:获取n个业务场景的历史语音数据,并根据n个所述历史语音数据,获得n个第一语料集合,其中,n为大于0的正整数;获取输入的n个第二语料集合,并根据n个所述第二语料集合和n个所述第一语料集合,得到n个代表词集合,其中,n为大于0的正整数,n个所述第二语料集合与n个所述第一语料集合一一对应;当对第i个业务场景的当前语音段进行异常检测时,在所述当前语音段被发送之前,根据所述第i个业务场景对应的所述代表词集合,确定所述当前语音段内是否包含至少一个异常词;当所述当前语音段内包含至少一个异常词时,获取预设的异常处理规则,并基于所述预设的异常处理规则,对所述当前语音段进行处理。2.根据权利要求1所述的异常语义数据检测方法,其特征在于,所述根据所述第i个业务场景对应的所述代表词集合,确定所述当前语音段内是否包含至少一个异常词包括:对所述当前语音段进行语音识别,得到当前语音文本数据;对所述当前语音文本数据进行分词处理,得到当前分词列表,所述当前分词列表包括至少一个关键词;根据相似度算法,计算所述关键词与所述第i个业务场景对应的所述代表词集合中的至少一个代表词的语义相似度,得到语义相似度值;根据所述语义相似度值和预设语义相似度阈值,确定所述当前语音段内是否包含至少一个所述异常词。3.根据权利要求1所述的异常语音数据检测方法,其特征在于,所述根据n个所述历史语音数据,获得n个第一语料集合包括:对每个所述历史语音数据进行语音识别,得到n个所述历史语音数据对应的n个文本数据;对每个所述文本数据进行分词处理,得到n个分词文本数据,其中,所述分词文本数据包括至少一个分词;从每个所述分词文本数据中抽取所述分词,得到n个所述第一语料集合。4.根据权利要求3所述的异常语音数据检测方法,其特征在于,所述对每个所述文本数据进行分词处理,得到n个分词文本数据,其中,所述分词文本数据包括至少一个分词之后包括:基于预设的停用词词典,确定所述分词本文数据中的所述分词是否为无意义分词;若确定所述分词文本数据中的所述分词是无意义分词,则从所述分词文本数据中剔除所述分词,否则,保留所述分词。5.根据权利要求3或4所述的异常语音数据检测方法,其特征在于,所述第一语料集合包括第一类代表词集合和第二类代表词集合,所述分词包括第一类代表词和第二类代表词;所述从每个所述分词文本数据中抽取所述分词,得到n个所述第一语料集合包括:从每个所述分词文本数据中抽取所述第一类代表词,并对每个所述分词文本数据中的所述第一类代表词进行词频统计,得到每个所述分词文本数据中所述第一类代表词的出现
频次;根据每个所述分词文本数据中所述第一类代表词的出现频次排序,得到n个第一类代表词词频列表;从每个所述第一类代表词词频列表中提取m个所述第一类代表词,得到n个所述第一类代表词集合,其中,m为大于0的正整数;根据每个所述第一类代表词集合中的所述第一类代表词,从对应的所述分词文本数据中抽取所述第二类代表词,得到n个所述第二类代表词集合;将每个所述分词文本数据对应的所述第一类代表词集合和与所述第一类代表词对应的所述第二类代表词集合进行合并,得到n个所述代表词集合。6.根据权利要求5所述的异常语音数据检测方法,其特征在于,所述根据每个所述第一类代表词集合中的所述第一类代表词,从对应的所述分词文本数据中抽取所述第二类代表词,得到n个所述第二类代表词集合包括:基于相似度算法,计算每个所述第一类代表词集合中的所述第一类代表词与其对应的所述分词文本数据中的第二类代表词的语义相似度,得到代表词语义相似度值;若所述代表词语义相似度大于预设代表词语义相似度阈值,则从所述分词文本数据中抽取所述第二类代表词,得到n个所述第二类代表词集合。7.根据权利要求6所述的异常语音数据检测方法,其特征在于,所述第二类代表词包括前位词组和后位词组;所述基于相似度算法,计算每个所述第一类代表词集合中的所述第一类代表词与其对应的所述分词文本数据中的第二类代表词的语义相似度,得到代表词语义相似度值包括:计算每个所述第一类代表词集合中的所述第一类代表词与其对应的所述分词文本数据组中的第二类代表词对应的所述前位词组的相似度,得到所述代表词语义相似度;以及计算每个所述第一类代表词集合中的所述第一类代表词与其对应的所述分词文本数据组中的第二类代表词对应的所述后位词组的相似度,得到所述代表词语义相似度。8.根据权利要求1所述的异常语音数据检测方法,其特征在于,每个所述第二语料集合对应一个所述业务场景,所述第二语料集合包括所述业务场景的至少一个标准词,每个所述标准词标记有预设标签,所述第一语料集合包括所述业务场景的至少一个分词;所述根据n个所述第二语料集合和n个所述第一语料集合,得到n个代表词集合,其中,n为大于0的正整数,n个所述第二语料集合与n个所述第一语料集合一一对应包括:计算n个所述第二语料集合中的所述标准词和与其对应的所述第一语料集合中的所述分词的语义相似度,得到词语相似度值;若所述词语相似度值大于预设词语相似度值,则采用所述标准词标记的所述预设标签对所述分词进行标记,并将标记后的分词添加至所述第二语料集合后,将所述第二语料集合作为所述代表词集合,得到n个所述代表词集合。9.一种异常语音数据检测装置,其特征在于,所述装置包括:第一语料集合获取模块,用于获取n个业务场景的历史语音数据,并根据n个所述历史语音数据,获得n个第一语料集合,其中,n为大于0的正整数;代表词集合获取模块,用于获取输入的n个第二语料集合,并根据n个所述第二语料集合和n个所述第一语料集合,得到n个代表词集合,其中,n为大于0的正整数,n个所述第二语
料集合与n个所述第一语料集合一一对应;第一异常词确定模块,用于当对第i个业务场景的当前语音段进行异常检测时,在所述当前语音段被发送之前,根据所述第i个业务场景对应的所述代表词集合,确定所述当前语音段内是否包含至少一个异常词;当前语音段处理模块,用于当所述当前语音段内包含至少一个异常词时,获取预设的异常处理规则,并基于所述预设的异常处理规则,对所述当前语音段进行处理。10.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述异常语音数据检测方法的步骤。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述异常语音数据检测方法的步骤。
技术总结本申请公开了一种异常语音数据检测方法、装置、计算机设备及存储介质,应用于语音检测技术领域,该方法包括:获取历史语音数据,并根据历史语音数据,获得第一语料集合,获取第二语料集合,并根据第二语料集合和第一语料集合,得到代表词集合,当对第i个业务场景的当前语音段进行异常检测时,在当前语音段被发送之前,根据第i个业务场景对应的代表词集合,确定当前语音段内是否包含至少一个异常词,当当前语音段内包含至少一个异常词时,获取预设的异常处理规则,并基于预设的异常处理规则,对当前语音段进行处理,提高异常语音数据的检测效率。率。率。
技术研发人员:彭子娇 陈东鹏
受保护的技术使用者:深圳市声扬科技有限公司
技术研发日:2022.06.23
技术公布日:2022/11/1