一种多人声音频处理方法、装置、设备及存储介质与流程

专利2024-08-12  59



1.本公开涉及语音技术领域,尤其涉及一种多人声音频处理方法、装置、设备及存储介质。


背景技术:

2.在重要的线上或线下会议进程中,通常会通过录音笔、录音软件或是会议软件中的录音功能来进行会议记录,然后再通过对录音进行回放,由人工判别会议录音中当前的说话人与说话内容然后进行编辑分类。这种方式不仅记录准确性差、记录时间长、记录内容不完整,而且需要反复地回放确认。


技术实现要素:

3.本公开提供了一种多人声音频处理方法、装置、设备及存储介质,以至少解决现有技术中存在的以上技术问题。
4.根据本公开的第一方面,提供了一种多人声音频处理方法,所述方法包括:获取录音音频数据;识别所述录音音频数据中具有可辨识文本的音频数据,根据所述具有可辨识文本的音频数据和对应的时间段建立音频时序表;提取所述录音音频数据中说话人的声纹特征,与声纹特征库中的声纹特征进行匹配,将产生匹配结果的音频数据和对应的时间段建立声纹时序表;将所述音频时序表的时间段与所述声纹时序表的时间段进行交集处理,根据交集结果和对应的音频数据建立交集时序表;接收并响应播放指令,根据所述交集时序表播放相应的音频数据。
5.在一可实施方式中,在所述获取录音音频数据之前,包括:提取注册用户的声纹特征,根据所述注册用户的声纹特征和注册用户的识别信息建立所述声纹特征库。
6.在一可实施方式中,所述识别所述录音音频数据中具有可辨识文本的音频数据,包括:对所述录音音频数据进行特征提取;将提取的特征通过解码器解码,输出录音音频数据中的文本;输出所述文本对应的音频数据,得到所述具有可辨识文本的音频数据。
7.在一可实施方式中,所述提取所述录音音频数据中说话人的声纹特征,与声纹特征库中的声纹特征进行匹配,将产生匹配结果的音频数据和对应的时间段建立声纹时序表,包括:提取所述录音音频数据中每个说话人的声纹特征,计算所述说话人的声纹特征和所述声纹特征库中的声纹特征的匹配分数;确定所述匹配分数大于预设阈值的所述声纹特征库中的声纹特征对应的注册用户的识别信息;将所述匹配分数大于预设阈值的说话人的声纹特征对应的音频数据标记上相应的所述识别信息,并将该音频数据和对应的时间段建立声纹时序表。
8.在一可实施方式中,所述将所述音频时序表的时间段与所述声纹时序表的时间段进行交集处理,根据交集结果和对应的音频数据建立交集时序表,包括:获取产生交集的时间段,将该时间段与对应的音频数据记录在交集时序表;获取未产生交集时间段,将该时间段对应的音频数据标记为未知用户,并该时间段与对应的音频数据记录在所述交集时序表
中。
9.在一可实施方式中,所述接收并响应播放指令,根据所述交集时序表播放相应的音频数据,包括:所述播放指令包括选中指令和播放音频指令;响应所述选中指令,从所述交集时序表获取至少一个说话人的至少一个音频数据;响应所述播放音频指令,按时间顺序播放选中的音频数据。
10.根据本公开的第二方面,提供了一种多人声音频处理装置,所述装置包括:获取模块,用于获取录音音频数据;识别模块,用于识别所述录音音频数据中具有可辨识文本的音频数据,根据所述具有可辨识文本的音频数据和对应的时间段建立音频时序表;提取模块,用于提取所述录音音频数据中说话人的声纹特征,与声纹特征库中的声纹特征进行匹配,将产生匹配结果的音频数据和对应的时间段建立声纹时序表;交集模块,用于将所述音频时序表的时间段与所述声纹时序表的时间段进行交集处理,根据交集结果和对应的音频数据建立交集时序表;播放模块,用于接收并响应播放指令,根据所述交集时序表播放相应的音频数据。
11.在一可实施方式中,所述装置还包括:建立模块,用于在所述获取录音音频数据之前,提取注册用户的声纹特征,根据所述注册用户的声纹特征和注册用户的识别信息建立声纹特征库。
12.根据本公开的第三方面,提供了一种电子设备,包括:
13.至少一个处理器;以及
14.与所述至少一个处理器通信连接的存储器;其中,
15.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的多人声音频处理方法。
16.根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开所述的多人声音频处理方法。
17.本公开的多人声音频处理方法、装置、设备及存储介质,通过识别录音音频数据中可辨识文本的音频数据和时间段建立音频时序表,同时提取录音音频数据中的声纹特征与声纹特征库进行匹配,将有匹配结果的音频数据和时间段建立声纹时序表,将音频时序表和声纹时序表的时间段进行交集处理,得到交集时序表。由此实现对录音音频数据自动化处理,得到的交集时序表中音频数据将每个说话人和对应的音频准确分类。并且可辨识文本的音频数据和声纹特征的提取同时进行,只需要对录音音频进行一次播放识别,就能得到清楚准确的音频数据。并在生成交集时序表后,还可以接收并响应用户操作产生的指令,从交集时序表中获取并播放相应的音频数据,方便用户根据实际需求,选择需要听取的音频数据。
18.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
19.通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
20.在附图中,相同或对应的标号表示相同或对应的部分。
21.图1示出了本公开一实施例的多人声音频处理方法的实现流程示意图;
22.图2示出了本公开另一实施例的多人声音频处理方法的实现流程示意图;
23.图3示出了本公开一实施例的建立声纹特征库的流程示意图;
24.图4示出了本公开一实施例的识别录音音频数据中具有可辨识文本的音频数据的流程示意图;
25.图5示出了本公开一实施例的建立声纹时序表的流程示意图;
26.图6示出了本公开一实施例的建立交集时序表的流程示意图;
27.图7示出了本公开一实施例的播放选中音频数据的流程示意图;
28.图8a示出了本公开一实施例的单人声音频播放的交互界面示意图;
29.图8b示出了本公开另一实施例的单人声音频播放的交互界面示意图;
30.图9a示出了本公开一实施例的多人声音频播放的交互界面示意图;
31.图9b示出了本公开另一实施例的多人声音频播放的交互界面示意图;
32.图10示出了本公开一实施例的多人声音频处理装置的示意图;
33.图11示出了本公开一实施例一种实现多人声音频处理方法的电子设备的组成结构示意图。
具体实施方式
34.为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
35.声纹识别技术通常可根据目标需求的不同分为两个方面,包括一对多人的说话人辨认(speaker identification)和一对一人的说话人验证(speaker verification)。其中说话人辨认是将语音中的声纹特征在声纹特征库中搜索,判断是否在声纹特征库中。
36.而根据是否需要识别出具体的语音内容,声纹识别技术可分为文本相关识别(text-dependent)和文本不相关识别(text-independent)。文本不相关识别不限定具体说话内容,仅识别说话人声纹特征,应用场景广泛。
37.在一示例中,本公开基于上述一对多人的说话人辨认和文本不相干识别的声纹识别技术,提供一种多人声音频处理方法,如图1所示,该方法包括:
38.步骤101:获取录音音频数据。
39.在本示例中,可以通过音频采集设备进行录音,例如录音笔、录音机、麦克风等;可以通过移动终端中的录音软件进行录音;也可以通过会议软件中的录音功能进行录音。本公开对录音音频数据的获取方式不做限制。
40.步骤102:识别录音音频数据中具有可辨识文本的音频数据,根据具有可辨识文本的音频数据和对应的时间段建立音频时序表。
41.在一段实际录音音频数据中,说话人在讲话过程中出现停顿的无声片段,或者出现环境噪音、背景音乐等无意义的有声片段,对于语音的识别和分割造成困扰,因此需要对录音音频数据中的无声或无意义的音频数据进行消除。
42.获取每个具有可辨识文本的音频数据的起始时间和结束时间,根据始末的时间段和对应音频数据按照时间顺序建立音频时序表。
43.步骤103:提取录音音频数据中说话人的声纹特征,与声纹特征库中的声纹特征进行匹配,将产生匹配结果的音频数据和对应的时间段建立声纹时序表。
44.声纹(voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明,声纹不仅具有特定性,而且有相对稳定性的特点。成年以后,人的声音可保持长期相对稳定不变。实验证明,无论讲话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹却始终不相同。基于声纹的这两个特征,可以利用提前建立好的声纹特征库,对录音音频数据中说话人的声纹特征进行匹配识别。
45.获取有匹配结果的音频数据的起始时间和结束时间,根据始末的时间段和对应音频数据按照时间顺序建立声纹时序表。
46.由于音频时序表和声纹时序表都是以录音音频数据为源音频,在提取具有可辨识文本的音频数据和说话人的声纹特征是分别同时进行的,因此只需要对录音音频数据识别一遍,就能同时构建音频时序表和声纹时序表,节省识别录音音频数据的时间。
47.步骤104:将音频时序表的时间段与声纹时序表的时间段进行交集处理,根据交集结果和对应的音频数据建立交集时序表。
48.步骤105:接收并响应播放指令,根据交集时序表播放相应的音频数据。
49.本公开提供一种多人声音频的处理方法,通过识别录音音频数据中可辨识文本的音频数据和时间段建立音频时序表,同时提取录音音频数据中的声纹特征与声纹特征库进行匹配,将有匹配结果的音频数据和时间段建立声纹时序表,将音频时序表和声纹时序表的时间段进行交集处理,得到交集时序表。由此实现对录音音频数据自动化处理,得到的交集时序表中音频数据将每个说话人和对应的音频准确分类。并且可辨识文本的音频数据和声纹特征的提取同时进行,只需要对录音音频进行一次播放识别,就能得到清楚准确的音频数据。并在生成交集时序表后,还可以接收并响应用户操作产生的指令,从交集时序表中获取并播放相应的音频数据,方便用户根据实际需求,选择需要听取的音频数据。
50.在一示例中,上述步骤101,在获取录音音频数据之前,如图2所示,包括:步骤201:提取注册用户的声纹特征,根据注册用户的声纹特征和注册用户的识别信息建立声纹特征库。其中,建立声纹特征库的过程,如图3所示步骤如下:
51.步骤301:获取注册用户提供的若干条音频。
52.注册用户提供的音频可以是指定文本的音频,也可以是自定义文本的音频。
53.在本示例中,所有的注册用户可以均录入一段相同的文本内容的音频,例如该文本可以是“自性可以借助于原始意象和某些古老的象征而间接地显现出来。上帝的形象,佛陀的形象都可以视为自性的象征性显现;中国传统文化中对圣贤的美化和神化,也都可以视为自性的象征性显现。这实际上是一种心理投射,反过来证明了人人都可以见性成佛,证明了人人皆可以为尧舜”,在本公开中,对于指定文本的内容不做限制。此外,对于注册用户提供的音频还可以是注册用户自定义文本的音频,自定义文本的内容和长短均由注册用户自行决定。当然,注册用户录入音频的文本内容越多,越有利于提高声纹特征的识别精确度。
54.步骤302:对注册用户提供的每条音频进行特征提取。
55.在声纹识别领域中,提取的特征可以是功率正则化倒谱系数(power-normalized cepstral coefficients,pncc)、梅尔倒谱系数(mei-freguencyceptrai coefficients,mfcc)或感知线性预测倒谱系数(perceptual linear prediction,plp)等等声学特征。
56.具体地,以mfcc系数为例,进行特征提取基本流程如下:将语音端点检测(voice activity detection,vad)预处理后的音频信号通过高通滤波器进行预加重;然后对预加重后的音频信号进行分帧,并对每一帧进行加窗,以减少音频信号的频谱泄漏;然后对音频信号进行离散傅里叶变化得到频域信号,并通过梅尔刻度滤波器组过滤得到梅尔频谱,最后对梅尔频谱进行倒谱分析得到mfcc系数。
57.步骤303:根据提取的特征进行建模,得到声纹特征。
58.每条音频提取的特征分别进行声纹建模,即将提取的特征输入声纹编码器,由声纹编码器输出声纹嵌入码。将声纹嵌入码进行聚合得到说话人模型,即注册用户的声纹特征。
59.步骤304:根据注册用户的声纹特征及注册用户的识别信息对应建立声纹特征库。
60.其中,识别信息可以是昵称、身份证号码、注册账号、工号等能够表明注册用户身份的信息。
61.在一示例中,上述步骤102,识别录音音频数据中具有可辨识文本的音频数据的实现过程,如图4所示,具体步骤如下:
62.步骤401:对录音音频数据进行特征提取。
63.首先对录音音频数据进行语音活动检测预处理,并把音频数据进行分帧,并对每一帧进行加窗,消除录音音频数据中的无声片段。
64.然后对消除无声片段的音频数据进行特征提取。在连续语音识别技术领域中,可以进行提取的特征除了前述的mfcc系数、plp系数外,还可以是线性预测系数(linear predictive coding,lpc)、倒谱系数(cepstrum,cep)等等声学特征。
65.步骤402:将提取的特征通过解码器解码,输出录音音频数据中的文本。
66.首先,解码器包括字典、声学模型和语言模型。解码就是通过声学模型、字典和语言模型对音频数据中的声学特征进行文字输出。
67.其中,声学模型(am,acoustic model)声学模型是把音频数据的声学特征分类到对应到音素的模型。常用的声学模型有是隐马尔可夫-高斯混合模型、隐马尔可夫-深度神经网络模型等等。
68.字典是音素到词之间的映射,用于连接声学模型和语言模型。
69.语言模型(language model,lm)根据单个字或词相互关联的概率将每个音素相对应的字或词识别成对应的文本。常用的语言模型可以是n元语言模型(n-gram lm)、二元语言模型(big-gram lm)、三元语言模型(tri-gram lm)等等。
70.步骤403:输出文本对应的音频数据,得到具有可辨识文本的音频数据。
71.能输出文字代表这段音频数据中具有可辨识文本,是由说话人讲话产生的音频数据。通过上述步骤401-403,删除了录音音频数据中无声和无意义的音频数据,保留下的音频片段都是具有可辨识文本的音频数据。
72.在一示例中,上述步骤103,提取录音音频数据中说话人的声纹特征,与声纹特征库中的声纹特征进行匹配,将产生匹配结果的音频数据和对应的时间段建立声纹时序表的
实现过程,如图5所示,包括:
73.步骤501:提取录音音频数据中每个说话人的声纹特征,计算说话人的声纹特征和声纹特征库中的声纹特征的匹配分数。
74.其中,提取说话人的声纹特征的过程与前述步骤302-步骤303的过程一致,在此不再赘述。
75.需要注意的是,在声纹特征提取的过程中会获取到声纹嵌入码,利用说话人的声纹特征的声纹嵌入码和声纹特征库中声纹特征的声纹嵌入码,通过余弦相似度、欧氏距离匹配或基于机器学习模型的匹配方法进行匹配分数的计算。
76.步骤502:确定匹配分数大于预设阈值的声纹特征库中的声纹特征对应的注册用户的识别信息。
77.若声纹特征库中某一声纹特征与说话人音频数据的声纹特征的匹配分数大于预设阈值,则判定二者匹配;若声纹特征库中至少两个声纹特征与说话人的音频数据的声纹特征的匹配分数大于预设阈值时,选取匹配分数最高的声纹特征作为匹配声纹特征。
78.步骤503:将匹配分数大于预设阈值的说话人的声纹特征对应的音频数据标记上相应的识别信息,并将该音频数据和对应的时间段建立声纹时序表。
79.根据上述匹配结果,将说话人声纹特征对应的音频数据标记上在声纹特征库中匹配的识别信息,获取被标记的音频数据的起始时间和结束时间,根据始末的时间段和对应识别信息按照时间顺序建立声纹时序表。
80.在复杂会议场景情况下,整个会议过程会有多个发言人,并且发言过程存在各种各样突发情况,有可能突然被打断被另外发言人进行反驳、或者其他发言人插入式的干扰、存在多人同时发言情景。此时需要对会议语音数据进行语音分离,将会议语音数据分离为与至少两个会议发言人一一对应的发言人语音数据,即各个发言人语音数据相互独立,互不干扰。优选地,基于开源语音识别框架(auto speech recognition tool speech recognition),对产生重叠的音频数据进行分离,并按照每个说话人起始时间或结束时间的先后顺序,对分离后的音频数据进行排序。
81.在一示例中,上述步骤104,将音频时序表的时间段与声纹时序表的时间段进行交集处理,根据交集结果和对应的音频数据建立交集时序表的实现过程,如图6所示,包括:
82.步骤601:获取产生交集的时间段,将该时间段与对应的音频数据记录在交集时序表。
83.若产生交集的时间段,代表这段时间对应的音频数据所对应的声纹特征被记录在声纹特征库中,可以从声纹特征库中匹配到注册用户。
84.步骤602:获取未产生交集时间段,将该时间段对应的音频数据标记为未知用户,并该时间段与对应的音频数据记录在交集时序表中。
85.而若未产生交集的时间段,表明这段时间的音频数据所对应的声纹特征未被记录在声纹特征库,因而无法从声纹特征库中匹配到注册用户。因此,将这段音频数据对应的声纹特征识别为未注册用户,并为该音频数据分配一个新的识别信息。将未产生交集的时间段和标记后的音频数据同样记录在交集时序表中。
86.因此,通过交集时序表中的时间段和说话人的识别信息,能确定出对应的音频数据和说话人。
87.在一个示例中,通过以下举例说明音频时序表、声纹时序表以及交集时序表的建立过程。
88.例如,将一段会议的录音音频数据通过上述步骤401-403删除无声或者无意义的音频,输出具有可辨识文本的音频数据,并将每一段音频数据和对应的时间段按照时间顺序建立如下表1所示的音频时序表。
89.表1
[0090][0091][0092]
其中,“第一段音频”、“第二段音频”仅是为了表示音频数据的时间顺序,无特殊含义。
[0093]
而在建立音频时序表的同时,对上述的录音音频数据中说话人的声纹特征进行提取,将提取的声纹特征与声纹特征库进行计算匹配分数,并根据匹配结果对音频数据标记上在声纹特征库中匹配声纹特征的识别信息,并与对应时间段建立如下表2所示的声纹时序表。
[0094]
表2
[0095]
注册用户时间段张经理(00'05",02'03")小李(02'06",03'01")张经理(02'59",06'17")小陈(06'45",07'28")
[0096]
如表2所示,可知,“小李”和“张经理”第二次讲话的音频数据时间段有重叠的部分,因此,可通过开源语音识别框架对重叠的音频部分进行分离,并按照两者开始说话的先后顺序进行排序,记录在声纹时序表中。
[0097]
根据表2可知在“张经理”第二次讲话之后和“小陈”讲话之前的一段时间内的音频数据,并未记录在声纹时序表中,表示声纹特征库中未记录这段音频数据的声纹特征和识别信息。因此,通过对上述音频时序表和声纹时序表的时间段进行交集处理后,得到如下表3所示的交集时序表。
[0098]
表3
[0099][0100][0101]
其中“未知用户”即为未被记录在声纹特征库中的非注册用户,(06'18",06'44")是未产生交集的时间段,通过交集时序表的“未知用户”和(06'18",06'44")进而能够获取到该“未知用户”对应的音频数据。
[0102]
在一示例中,上述步骤105,接收并响应播放指令,根据交集时序表播放相应的音频数据的实现过程,如图7所示,包括:
[0103]
其中,该播放指令包括选中指令和播放音频指令。
[0104]
步骤701:响应选中指令,从交集时序表获取至少一个说话人的至少一个音频数据。
[0105]
在本示例中,当全部的录音音频数据处理并完成建立交集时序表后,根据交集时序表生成一交互界面。在交互界面中,以每个说话人的第一个音频数据的起始时间从上至下对说话人进行排序显示,然后将属于说话人的每段音频数据按照时间顺序形成音轨并显示在交互界面中。
[0106]
交互界面用于接收用户操作产生相应的选中指令,并响应选中指令从交集时序表中获取相应的音频数据。
[0107]
步骤702:响应播放音频指令,按时间顺序播放选中的音频数据。
[0108]
在一种应用场景中,在进行播放单人音频,选中指定一个说话人音轨中的一个或多个音频数据。
[0109]
若播放选中指定用户的音轨中的一个或部分音频数据时,逐一选择需要播放的音频数据并按照时间顺序依次进行播放。如图8a所示选中用户a的一段音频数据并选择播放。
[0110]
若播放指定说话人音轨中全部的音频数据时,例如在交互界面中选中用户的名称或头像,表示选中该用户的全部音频数据,按照时间顺序依次播放。如图8b所示,选择用户b的头像,按时间顺序播放用户b的所有音频数据。
[0111]
在一种应用场景中,在进行播放多人声音频,接收并响应指定多个说话人音轨的多个音频数据。
[0112]
若播放多个说话人音轨的全部音频数据时,例如在交互界面中选中多个说话人的名称或头像,表示选中指定说话人音轨的的全部音频数据,根据音频数据的起始时间按照时间顺序依次播放。如图9a所示,选择用户a和用户b的头像,按时间顺序依次播放用户a和用户b所有的音频数据。
[0113]
若播放选中多个说话人音轨的部分音频数据,逐一选择需要播放的音频数据并按
照时间顺序依次进行播放。如图9b所示,逐一选中用户a、b、c和d各自的部分音频数据,按时间顺序依次播放被选中的音频数据。
[0114]
为了实现上述多人声音频处理方法,本公开还提供一种了多人声音频处理装置,如图10所示,该装置包括:
[0115]
获取模块1001,用于获取录音音频数据;
[0116]
识别模块1002,用于识别录音音频数据中具有可辨识文本的音频数据,根据具有可辨识文本的音频数据和对应的时间段建立音频时序表;
[0117]
提取模块1003,用于提取录音音频数据中说话人的声纹特征,与声纹特征库中的声纹特征进行匹配,将产生匹配结果的音频数据和对应的时间段建立声纹时序表;
[0118]
交集模块1004,用于将音频时序表的时间段与声纹时序表的时间段进行交集处理,根据交集结果和对应的音频数据建立交集时序表;
[0119]
播放模块1005,用于接收并响应播放指令,根据交集时序表播放相应的音频数据。
[0120]
在一个示例中,该装置还包括:建立模块1006,用于在获取录音音频数据之前,提取注册用户的声纹特征,根据注册用户的声纹特征和注册用户的识别信息建立声纹特征库。
[0121]
在一个示例中,上述识别模块1002,包括:
[0122]
第一提取子模块10021,用于对录音音频数据进行特征提取;
[0123]
解码模块10022,用于将提取的特征通过解码器解码,输出录音音频数据中的文本;
[0124]
输出模块10023,用于输出文本对应的音频数据,得到具有可辨识文本的音频数据。
[0125]
在一个示例中,上述提取模块1003,包括:
[0126]
第二提取子模块10031,用于提取录音音频数据中每个说话人的声纹特征,计算说话人的声纹特征和声纹特征库中的声纹特征的匹配分数;
[0127]
确定模块10032,用于确定匹配分数大于预设阈值的声纹特征库中的声纹特征对应的注册用户的识别信息;
[0128]
标记模块10033,用于将匹配分数大于预设阈值的说话人的声纹特征对应的音频数据标记上相应的识别信息,并将该音频数据和对应的时间段建立声纹时序表。
[0129]
在一个示例中,上述交集模块1004,包括:
[0130]
记录模块10041用于获取产生交集的时间段,将该时间段与对应的音频数据记录在交集时序表;
[0131]
记录模块10041还用于获取未产生交集时间段,将该时间段对应的音频数据标记为未知用户,并该时间段与对应的音频数据记录在交集时序表中。
[0132]
在一个示例中,上述播放模块1005,包括:
[0133]
播放指令包括选中指令和播放音频指令;
[0134]
获取子模块10051,响应选中指令,从交集时序表获取至少一个说话人的至少一个音频数据;
[0135]
播放子模块10052响应播放音频指令,按时间顺序播放选中的音频数据。
[0136]
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
[0137]
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0138]
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(rom)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(ram)1103中的计算机程序,来执行各种适当的动作和处理。在ram 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、rom 1102以及ram 1103通过总线1104彼此相连。输入/输出(i/o)接口1105也连接至总线1104。
[0139]
设备1100中的多个部件连接至i/o接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0140]
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如多人声音频处理方法。例如,在一些实施例中,多人声音频处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由rom 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到ram 1103并由计算单元1101执行时,可以执行上文描述的多人声音频处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行多人声音频处理方法。
[0141]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0142]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0143]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供
指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0144]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0145]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0146]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0147]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0148]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0149]
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。

技术特征:
1.一种多人声音频处理方法,其特征在于,所述方法包括:获取录音音频数据;识别所述录音音频数据中具有可辨识文本的音频数据,根据所述具有可辨识文本的音频数据和对应的时间段建立音频时序表;提取所述录音音频数据中说话人的声纹特征,与声纹特征库中的声纹特征进行匹配,将产生匹配结果的音频数据和对应的时间段建立声纹时序表;将所述音频时序表的时间段与所述声纹时序表的时间段进行交集处理,根据交集结果和对应的音频数据建立交集时序表;接收并响应播放指令,根据所述交集时序表播放相应的音频数据。2.根据权利要求1所述的方法,其特征在于,在所述获取录音音频数据之前,包括:提取注册用户的声纹特征,根据所述注册用户的声纹特征和注册用户的识别信息建立所述声纹特征库。3.根据权利要求1所述的方法,其特征在于,所述识别所述录音音频数据中具有可辨识文本的音频数据,包括:对所述录音音频数据进行特征提取;将提取的特征通过解码器解码,输出录音音频数据中的文本;输出所述文本对应的音频数据,得到所述具有可辨识文本的音频数据。4.根据权利要求2所述的方法,其特征在于,所述提取所述录音音频数据中说话人的声纹特征,与声纹特征库中的声纹特征进行匹配,将产生匹配结果的音频数据和对应的时间段建立声纹时序表,包括:提取所述录音音频数据中每个说话人的声纹特征,计算所述说话人的声纹特征和所述声纹特征库中的声纹特征的匹配分数;确定所述匹配分数大于预设阈值的所述声纹特征库中的声纹特征对应的注册用户的识别信息;将所述匹配分数大于预设阈值的说话人的声纹特征对应的音频数据标记上相应的所述识别信息,并将该音频数据和对应的时间段建立声纹时序表。5.根据权利要求1所述的方法,其特征在于,所述将所述音频时序表的时间段与所述声纹时序表的时间段进行交集处理,根据交集结果和对应的音频数据建立交集时序表,包括:获取产生交集的时间段,将该时间段与对应的音频数据记录在交集时序表;获取未产生交集时间段,将该时间段对应的音频数据标记为未知用户,并该时间段与对应的音频数据记录在所述交集时序表中。6.根据权利要求1或5所述的方法,其特征在于,所述接收并响应播放指令,根据所述交集时序表播放相应的音频数据,包括:所述播放指令包括选中指令和播放音频指令;响应所述选中指令,从所述交集时序表获取至少一个说话人的至少一个音频数据;响应所述播放音频指令,按时间顺序播放选中的音频数据。7.一种多人声音频处理装置,其特征在于,所述装置包括:获取模块,用于获取录音音频数据;识别模块,用于识别所述录音音频数据中具有可辨识文本的音频数据,根据所述具有
可辨识文本的音频数据和对应的时间段建立音频时序表;提取模块,用于提取所述录音音频数据中说话人的声纹特征,与声纹特征库中的声纹特征进行匹配,将产生匹配结果的音频数据和对应的时间段建立声纹时序表;交集模块,用于将所述音频时序表的时间段与所述声纹时序表的时间段进行交集处理,根据交集结果和对应的音频数据建立交集时序表;播放模块,用于接收并响应播放指令,根据所述交集时序表播放相应的音频数据。8.根据权利要求7所述的装置,其特征在于,所述装置还包括:建立模块,用于在所述获取录音音频数据之前,提取注册用户的声纹特征,根据所述注册用户的声纹特征和注册用户的识别信息建立声纹特征库。9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。

技术总结
本公开提供了一种多人声音频处理方法、装置、设备及存储介质,包括:获取录音音频数据;识别所述录音音频数据中具有可辨识文本的音频数据,根据所述具有可辨识文本的音频数据和对应的时间段建立音频时序表;提取所述录音音频数据中说话人的声纹特征,与声纹特征库中的声纹特征进行匹配,将产生匹配结果的音频数据和对应的时间段建立声纹时序表;将所述音频时序表的时间段与所述声纹时序表的时间段进行交集处理,根据交集结果和对应的音频数据建立交集时序表;接收并响应播放指令,根据所述交集时序表播放相应的音频数据。集时序表播放相应的音频数据。集时序表播放相应的音频数据。


技术研发人员:简珮筠 施继泽 王韦翔 施昭宇 洪千茹 廖先翔
受保护的技术使用者:联宝(合肥)电子科技有限公司
技术研发日:2022.07.07
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-9345.html

最新回复(0)