歌声识别模型训练方法、歌声识别方法及相关装置与流程

专利2023-11-03  104



1.本技术涉及音频处理技术领域,特别涉及歌声识别模型训练方法、歌声识别方法及相关装置。


背景技术:

2.随着多媒体产业的发展和短视频的兴起,音乐不再单单是听歌这么简一,还会以更丰富更多元的形式被大众消费。音乐可以作为配乐或背景音乐出现在直播、短视频、户外等各个场景下,这类场景下音频波形中歌声会和一些稳态噪声、环境噪声、瞬态噪声、人声噪声等声音混杂在一起,例如对于不同的录音设备,会使得音频的响度、声场等各种收音效果不同,从而造成音频的频谱分布不同。歌声检测svd(singing voice detection)是mir(music information retrieval,音乐信息检索)领域较为基础的一项任务,然而在真实环境下,其鲁棒性低,抗干扰能力弱,在复杂噪声场景下其性能会急剧下滑。


技术实现要素:

3.有鉴于此,本技术的目的在于提供歌声识别模型训练方法、歌声识别方法及相关装置,使得歌声识别模型具有较强的抗噪声干扰能力,能够准确分辨出歌声。
4.为解决上述技术问题,第一方面,本技术提供了一种歌声识别模型训练方法,包括:
5.获取训练音频和对应的音频标签;其中,所述训练音频包括受噪声干扰的含噪声音频,所述音频标签用于表示所述训练音频为歌声音频或非歌声音频;
6.提取所述训练音频的音频特征,得到训练特征;
7.将所述训练特征输入初始模型,得到训练识别结果;其中,所述初始模型包括第一卷积层和第二卷积层,所述第一卷积层和所述第二卷积层具有矩形卷积核,第一矩形卷积核的长边沿频率轴方向设置,第二矩形卷积核的长边沿时间轴方向设置;
8.利用所述训练识别结果和所述音频标签生成损失值,并利用所述损失值对所述初始模型进行参数调节处理;
9.若检测到满足预设完成条件,则将参数调节后的初始模型确定为歌声识别模型。
10.可选地,所述获取训练音频,包括:
11.获取初始训练音频;
12.对所述初始训练音频进行动态范围控制处理,得到所述训练音频。
13.可选地,所述获取训练音频,包括:
14.获取初始训练音频;
15.确定预设音频长度,并基于所述预设音频长度对所述初始训练音频进行分片处理和/或补零处理,得到所述训练音频。
16.可选地,音频标签的生成过程,包括:
17.确定所述训练音频对应的音频类别;
18.基于所述音频类别生成所述音频标签。
19.可选地,所述提取所述训练音频的音频特征,得到训练特征,包括:
20.对所述训练音频进行以音频帧为粒度的梅尔频谱提取处理和/或梅尔倒谱系数提取处理,得到所述训练特征。
21.可选地,在所述提取所述训练音频的音频特征,得到训练特征之后还包括:
22.将所述训练特征以及对应的音频标签划分为训练集和验证集;
23.相应的,所述将所述训练特征输入初始模型,得到训练识别结果包括:
24.将所述训练集包含的训练特征输入初始模型,得到训练识别结果;
25.所述若检测到满足预设完成条件,则将参数调节后的初始模型确定为歌声识别模型包括:
26.若检测到满足预设训练条件,则利用所述验证集对参数调节后的初始模型进行识别准确率验证;
27.若所述参数调节后的初始模型的识别准确率不满足预设准确率条件,则返回所述将所述训练集包含的训练特征输入初始模型,得到训练识别结果的步骤;直至所述参数调节后的初始模型的识别准确率满足预设准确率条件,则将所述参数调节后的初始模型确定为歌声识别模型。
28.第二方面,本技术还提供了一种歌声识别方法,包括:
29.获取待测音频;
30.提取所述待测音频的音频特征,得到待测特征;
31.将所述待测特征输入歌声识别模型,得到歌声识别结果;其中,所述歌声识别模型基于上述的歌声识别模型训练方法得到。
32.可选地,所述提取所述待测音频的音频特征,得到待测特征,包括:
33.对所述待测音频进行特征提取处理,得到初始音频特征;
34.确定预设音频长度,并基于所述预设音频长度对所述初始音频特征进行分片处理和/或补零处理,得到所述待测特征。
35.可选地,若所述待测特征为多个,则所述将所述待测特征输入歌声识别模型,得到歌声识别结果,包括:
36.分别将各个所述待测特征输入所述歌声识别模型,得到分片识别结果;
37.对所述分片识别结果进行融合处理,得到所述歌声识别结果。
38.可选地,还包括:
39.确定各个所述待测特征相对于所述待测音频的起止时间范围;
40.利用所述起止时间范围对各个所述分片识别结果排序,得到第一序列;
41.对所述第一序列进行相同分类边界融合处理,得到第二序列;
42.基于所述第二序列确定所述待测音频对应的歌声端点。
43.第三方面,本技术还提供了一种电子设备,包括存储器和处理器,其中:
44.所述存储器,用于保存计算机程序;
45.所述处理器,用于执行所述计算机程序,以实现上述的歌声识别模型训练方法,和/或,上述的歌声识别方法。
46.第四方面,本技术还提供了一种计算机可读存储介质,用于保存计算机程序,其
中,所述计算机程序被处理器执行时实现上述的歌声识别模型训练方法,和/或,上述的歌声识别方法。
47.可见,该方法采用了特殊的训练数据和特殊的初始模型实现对含噪声音频的歌曲识别,具有较强的鲁棒性和抗干扰能力。具体的,设置包括含噪声音频作为训练音频,使得模型能够利用训练音频学习如何在噪声干扰下分辨歌声音频。初始模型包括第一卷积层和第二卷积层,两个卷积层的卷积核为矩形,长边沿频率轴方向设置的卷积核能够在更大频域范围上获取频域信息,例如音高、音域,长轴沿时间轴方向设置的卷积核能够在更大的时域范围上获取时域信息,例如节奏、旋律。通过第一卷积层和第二卷积层,使得初始模型能够获得更多信息,有助于抵抗噪声的干扰,实现准确分类。训练完毕后得到的歌声识别模型能够具有较强的抗噪声干扰能力,能够准确分辨出歌声。
48.此外,本技术还提供了歌声识别方法及相关装置,同样具有上述有益效果。
附图说明
49.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
50.图1为本技术实施例提供的一种歌声识别模型训练方法和/或歌声识别方法所适用的硬件组成框架示意图;
51.图2为本技术实施例提供的另一种歌声识别模型训练方法和/或歌声识别方法所适用的硬件组成框架示意图;
52.图3为本技术实施例提供的一种歌声识别模型训练方法的流程示意图;
53.图4为本技术实施例提供的一种动态范围控制效果图;
54.图5为本技术实施例提供的一种第一卷积核和第二卷积核的示意图;
55.图6为本技术实施例提供的一种歌声起始点定位效果图;
56.图7为本技术实施例提供的一种歌声识别流程图。
具体实施方式
57.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
58.为了便于理解,先对本技术实施例提供的歌声识别模型训练方法和/或歌声识别方法对应的方案所使用的硬件组成框架进行介绍。请参考图1,图1为本技术实施例提供的一种歌声识别模型训练方法和/或歌声识别方法所适用的硬件组成框架示意图。其中电子设备100可以包括处理器101和存储器102,还可以进一步包括多媒体组件103、信息输入/信息输出(i/o)接口104以及通信组件105中的一种或多种。
59.其中,处理器101用于控制电子设备100的整体操作,以完成歌声识别模型训练方法和/或歌声识别方法中的全部或部分步骤;存储器102用于存储各种类型的数据以支持在
电子设备100的操作,这些数据例如可以包括用于在该电子设备100上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(static random access memory,sram)、电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、可擦除可编程只读存储器(erasable programmable read-only memory,eprom)、可编程只读存储器(programmable read-only memory,prom)、只读存储器(read-only memory,rom)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。在本实施例中,存储器102中至少存储有用于实现以下功能的程序和/或数据:
60.获取训练音频和对应的音频标签;其中,所述训练音频包括受噪声干扰的含噪声音频,所述音频标签用于表示所述训练音频为歌声音频或非歌声音频;
61.提取所述训练音频的音频特征,得到训练特征;
62.将所述训练特征输入初始模型,得到训练识别结果;其中,所述初始模型包括第一卷积层和第二卷积层,所述第一卷积层和所述第二卷积层具有矩形卷积核,第一矩形卷积核的长边沿频率轴方向设置,第二矩形卷积核的长边沿时间轴方向设置;
63.利用所述训练识别结果和所述音频标签生成损失值,并利用所述损失值对所述初始模型进行参数调节处理;
64.若检测到满足预设完成条件,则将参数调节后的初始模型确定为歌声识别模型。
65.多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口104为处理器101和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于电子设备100与其他设备之间进行有线或无线通信。无线通信,例如wi-fi,蓝牙,近场通信(near field communication,简称nfc),2g、3g或4g,或它们中的一种或几种的组合,因此相应的该通信组件105可以包括:wi-fi部件,蓝牙部件,nfc部件。
66.电子设备100可以被一个或多个应用专用集成电路(application specific integrated circuit,简称asic)、数字信号处理器(digital signal processor,简称dsp)、数字信号处理设备(digital signal processing device,简称dspd)、可编程逻辑器件(programmable logic device,简称pld)、现场可编程门阵列(field programmable gate array,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行歌声识别模型训练方法和/或歌声识别方法。
67.当然,图1所示的电子设备100的结构并不构成对本技术实施例中电子设备的限定,在实际应用中电子设备100可以包括比图1所示的更多或更少的部件,或者组合某些部件。
68.可以理解的是,本技术实施例中并不对电子设备的数量进行限定,其可以是多个电子设备共同协作完成歌声识别模型训练方法和/或歌声识别方法。在一种可能的实施方式中,请参考图2,图2为本技术实施例提供的另一种歌声识别模型训练方法和/或歌声识别方法所适用的硬件组成框架示意图。由图2可知,该硬件组成框架可以包括:第一电子设备
11和第二电子设备12,二者之间通过网络13连接。
69.在本技术实施例中,第一电子设备11与第二电子设备12的硬件结构可以参考图1中电子设备100。即可以理解为本实施例中具有两个电子设备100,两者进行数据交互。进一步,本技术实施例中并不对网络13的形式进行限定,即,网络13可以是无线网络(如wifi、蓝牙等),也可以是有线网络。
70.其中,第一电子设备11和第二电子设备12可以是同一种电子设备,如第一电子设备11和第二电子设备12均为服务器;也可以是不同类型的电子设备,例如,第一电子设备11可以是智能手机或其它智能终端,第二电子设备12可以是服务器。在一种可能的实施方式中,可以利用计算能力强的服务器作为第二电子设备12来提高数据处理效率及可靠性,进而提高模型训练和/或歌曲识别的处理效率。同时利用成本低,应用范围广的智能手机作为第一电子设备11,用于实现第二电子设备12与用户之间的交互。可以理解的是,该交互过程可以为:智能手机从服务器处获取并播放训练音频,并获取音频标签,将音频标签发送至服务器,由服务器利用获取到的音频标签进行后续的模型训练步骤。服务器在生成歌声识别模型后,获取智能手机发送的待测音频,并对其进行歌曲识别。
71.具体的,请参考图3,图3为本技术实施例提供的一种歌声识别模型训练方法的流程示意图。该实施例中的方法包括:
72.s101:获取训练音频和对应的音频标签。
73.其中,训练音频包括受噪声干扰的含噪声音频,除此之外,还可以包括不受噪声干扰的非含噪声音频。受噪声干扰是指在训练音频中除了歌声外,还存在稳态噪声、环境噪声、瞬态噪声、人声噪声等噪声,这使得含噪声音频中的干扰较多,不利于对其进行是否为歌声音频的识别。训练音频的音频内容不做限定,考虑到真实噪声场景的多样性,可以针对不同类别的音频标签收集对应场景下的音频数据。例如,歌声音频标签可以包括带音乐演唱的歌声音频和清唱歌声音频,带音乐演唱的歌声音频的声音数据可以是各种有声音乐、各种乐器弹唱、演唱会、ktv演唱等,清唱歌声音频的声音数据是声伴分离的干声、练唱教学等。此外,非歌声音频的类型更加丰富多样,例如可以包括带音乐说话音频、口白音频、纯音乐音频、纯噪声音频等。其中,带音乐说话音频的声音数据是有声书、影视剧、短视频、综艺等,口白音频的声音数据是朗诵、新闻、会议、聊天、小品、相声等,纯音乐音频的声音数据是乐器独奏、交响乐、伴奏、广告配乐等,纯噪声音频的声音数据是白噪声(水声、雨声等)、笑声、掌声、吃东西声等。训练音频的数据格式不做限定,例如可以为从流媒体获取的ts码流(transport stream码流),或者可以获取音频文件作为训练音频,文件形态的格式可以是mp3、m4a、wav等。
74.音频标签用于表示训练音频为歌声音频或非歌声音频,需要说明的是,音频标签并不用于表示训练音频是否为含噪声音频,即训练音频是否含有噪声,与训练音频是否为歌声音频并不相关。含噪声音频可以为歌声音频也可以为非歌声音频。
75.本技术并不限定训练音频的具体获取方式,在一种实施方式中,训练音频以及音频标签可以被预先生成,并存储在指定的位置,在需要时可以从该指定的位置读取。在另一种实施方式中,可以在训练歌声识别模型时自行生成训练音频,具体的,在一种实施方式中,由于模型输入的长度通常为固定的,因此可以设置训练音频的长度,在获取训练音频时,首先获取初始训练音频。确定预设音频长度,该预设音频长度即为每个训练音频对应的
长度,基于预设音频长度对初始训练音频进行分片处理和/或补零处理,得到训练音频。其中,分片处理是指当初始训练音频的长度大于预设音频长度时,将其分为多个片段,每个片段的长度等于预设音频长度的处理,其中,各个片段之间可以没有重叠或有重叠,即分片时的分片帧移步长可以小于、等于或大于预设音频长度。补零处理,是指当初始训练音频的长度或初始训练音频分片后得到的片段(通常为最后一个片段)的长度小于预设音频长度时,在其后补充零数据使其长度达到预设音频长度。在一种具体的实施方式中,可以用dur’表示预设音频长度,单位可以为毫秒ms。
76.在另一种实施方式中,由于不同的录音设备等因素会影响到音频的响度、声场等各种收音效果,从而造成频谱分布的不同。例如当录音设备远离音源时,采集的音频信号会出现响度较低、声场远的情况,一些声音细节不易被捕获到;相反,当录音设备离音源过近,则会出现响度过大、毛刺、失真等问题。为了解决这个问题,本技术可以利用音频动态范围控制dynamic range control(drc)技术对音频频谱分布进行处理。具体的,首先获取初始训练音频,本实施方式中,初始训练音频是指未经drc处理的音频,对初始训练音频进行动态范围控制处理,即可得到训练音频。
77.本技术并不限定drc处理的具体过程,在一种实施方式中,首先利用音频工具(例如librosa音频工具)获取数字采样后的信号x,即初始训练音频,然后将线性x信号转换成分贝db信号,x
db
=20*log10(x)。将db信号传递到静态特征方程(即drc静态曲线x
sc
)获取差值,进而得到增益曲线gc=x
sc-x
db
,然后对增益曲线的拐点进行平滑过渡得到曲线gs,接着对曲线gs进行增益补偿后得到drc增益控制曲线gm,最后将曲线从db值状态转换回线性值状态,得到g
lin
=10^(gm/20)。最终,对原始音频信号x应用计算出来的增益控制信号g
lin
进行动态调整,得到动态调整后的音频信号y=g
lin
×
x。通过drc处理,可以针对不同阶段(即底噪阶段、中等幅度阶段、较大幅度阶段等)的信号幅度分别进行不同程度的增益调节,最终使声音听起来更加平稳与柔和。请参考图4,图4为本技术实施例提供的一种动态范围控制效果图。乘号左边为信号x,右边为信号g
lin
,等号后为处理后的信号y,即本实施方式中的训练音频。可以看出,经过drc处理,x信号中幅度较大的部分被削弱,而幅度较小的部分被增强。
78.本技术并不限定音频标签的具体生成方式,在一种实施方式中,可以播放各个训练音频并由人工对其进行打标。在另一种实施方式中,可以根据训练音频的类别生成音频标签,如上所述,训练音频可以包括带音乐歌声、清唱、带音乐说话、口白、纯音乐、纯噪声共六个类别,在确定其类别后,可以将带音乐歌声和清唱确定为歌声音频,将其他类型确定为非歌声音频。歌曲类型可以根据训练音频的类别标签确定,即可以利用预先已有类别标签的训练数据,通过将类别标签映射至本技术的音频标签,完成训练标签的获取。需要说明的是,本技术中并不限定音频标签的具体形式,在第一种实施方式中,可以将例如带音乐歌声和清唱的类别标签重新配置为相同的标签,例如标签1,表示歌声音频。或者,在第二种实施方式中,可以将其配置为不同的标签,但是这两类音频对应的标签均属于同一个音频标签,即歌声音频,例如保持类别标签的内容不变,并生成带音乐歌声和清唱这两个类别标签与歌声音频标签的对应关系。可以理解的是,若采用第二种实施方式,则后续歌声识别模型能够以音频类别标签为粒度对音频进行分类,实现细分检测,并可以在后处理过程中将音频类别映射至是否为歌声音频的标签。
79.s102:提取训练音频的音频特征,得到训练特征。
80.在得到训练音频后,通过特征提取,可得到对应的音频特征,即训练特征。本实施例并不限定音频特征的具体方式,在一种实施方式中,对训练音频进行以音频帧为粒度的梅尔频谱提取处理和/或梅尔倒谱系数提取处理,得到训练特征。其中,梅尔频谱(mel spectrogram,mel)是对原始音频信号预加重、分帧和加窗,每帧信号进行短时傅立叶变换,再经过梅尔滤波器组后,得到的一种频谱图,其横坐标代表时间,纵坐标代表频率,其特点在于接近人耳非线性的频率感知,譬如对低频信号的感知要比高频信号敏感。梅尔倒谱系数(mel frequency cepstral coefficients,mfcc)同样是一种频谱图,其刚好是梅尔频率的倒谱系数,特点在于利于声音音色的表征。
81.具体的,可以利用librosa工具对训练音频以音频帧为的那位提取mel特征和mfcc特征。mel特征与人耳听觉非线性感知较为接近,有利于神经网络从听感频率相关性的角度分析音频特征,而mfcc特征包含的频谱包络表征着音色相关信息,从而使神经网络可以学习到从音色维度区分人声、噪声等不同的声音构成。本实施例并不限定两种特征的具体形式,例如,mel特征可以由128
×
n维的矩阵f
mel
构成,mfcc特征由20
×
n维的矩阵f
mfcc
构成,其中均表示音频的帧长(向下取整),dur表示音频的时长,单位ms,对于训练音频来说,这里dur=dur’。sr表示音频读取的采样率,单位hz,hop表示帧移,也即连续帧之间的采样数。将上述mel特征和mfcc特征进行特征拼接,得到148
×
n维度的特征f
input
,该特征f
input
即为训练特征。
82.训练特征可以被保存为文件形式,例如“.npy”的文件格式,
83.s103:将训练特征输入初始模型,得到训练识别结果。
84.初始模型是指参数调节未完成的歌声识别模型,具体可以为基于卷积神经网络搭建的模型。初始模型包括第一卷积层和第二卷积层,第一卷积层和第二卷积层具有矩形卷积核,第一矩形卷积核的长边沿频率轴方向设置,第二矩形卷积核的长边沿时间轴方向设置。即,初始模型具有两个相互正交的特殊尺度的二维卷积层,例如,可以分别是32
×
1维度的时域卷积层和7
×
64维度的频域卷积层,这两个卷积层能够分别在音频特征的时间轴和频率轴上学习到不同程度的时域信息(如节奏、旋律)和频域信息(如音高、音域)。除此第一卷积层和第二卷积层之外,依次堆叠不同组合方式的卷积层以形成初始模型,从而更好的理解音频内容的上下文信息和关联性,最后再由c个神经网络节点构成输出,c即为音频标签的类别,当音频标签为两类(歌声音频和非歌声音频)时,c为2,当音频标签为六类(带音乐歌声、清唱、带音乐说话、口白、纯音乐、纯噪声)时,c为6。
85.请参考图5,图5为本技术实施例提供的一种第一卷积核和第二卷积核的示意图,其中,标注有“频域卷积层”的矩形表示频域卷积层的卷积核,即第一矩形卷积核,标注有“时域卷积层”的矩形表示时域卷积层的卷积核,即第二矩形卷积核。
86.在正向传播的过程中,将音频特征f
input
单个或批量地输入初始模型,经过与初始模型的参数做矩阵运算输出向量z=[z
1,
z2,

,zi],其中zi表示第i个节点的输出值。利用softmax激活函数将上述的输出值转换为一种取值范围在[0,1]并且所有值和为1的概率分布p=[p1,p2,

,pi],其中:
[0087][0088]
激活函数中的c即为输出节点的个数,也即类别标签数。
[0089]
s104:利用训练识别结果和音频标签生成损失值,并利用损失值对初始模型进行参数调节处理。
[0090]
本技术并不限定损失值的具体计算方式,例如可以利用交叉熵损失函数计算损失值。具体的,由交叉熵损失函数计算出每个类别的概率pi与标注类别信息(即音频标签,具体可以为上述的六类类别标签,或者可以为两类音频标签)li熵值的和为loss
softmax
,标注类别信息可以表征为l=[l1,l2…
,li]。反向传播过程是从模型输出损失值loss
softmax
往输入f
input
的方向进行链式求导,更新初始模型的参数。其中:
[0091][0092]
经过m次(m具体大小不限定)正向传播和反向传播过程,初始模型逐渐学会了从音频特征中区分歌声音频和非歌声音频标签的共性和差异性。
[0093]
s105:若检测到满足预设完成条件,则将参数调节后的初始模型确定为歌声识别模型。
[0094]
预设完成条件用于表示初始模型得到了足够的训练,其数量和具体内容不限定,例如可以为对初始模型的识别准确率进行限制的条件,或者可以为对初始模型的训练时长进行限制的条件,或者可以为对初始模型的训练轮次进行限制的条件。当一个、指定数量的或全部的预设完成条件被满足时,可以将参数调节后的初始模型确定为歌声识别模型,表明模型训练过程完毕。
[0095]
在本技术实施例中,为了保证参数调节后的初始模型在实际应用中的识别准确率,可以将模型的训练划分为模型参数调节和模型识别准确率验证两部分内容。因此可以在获取训练音频和对应的音频标签之后,将带有音频标签的训练音频划分为训练集和验证集。也可以在得到训练特征之后,将带有音频标签的训练特征划分为训练集和验证集。
[0096]
例如,可以利用所有带标签的数据构成数据集c
total
,将数据集按预设比例(例如9:1)的比例随机分成c
train
个样本的训练集和c
val
个样本的验证集(即验证数据),在划分过程中,可以尽量保证两者中6个类别标签(即带音乐歌声、清唱、带音乐说话、口白、纯音乐、纯噪声)的音频数量尽量相等。
[0097]
带有标签的数据可以是带有标签的训练音频,此时在获取到训练音频和对应的音频标签之后,将带有标签的训练音频划分为训练集和验证集,然后依据s102的操作,分别提取出训练集中包含的训练音频的音频特征,以及提取出验证集中包含的训练音频的音频特征。
[0098]
带有标签的数据也可以是带有标签的训练特征,此时可以在提取训练音频的音频特征,得到训练特征之后,将带有标签的训练特征划分训练集和验证集。
[0099]
基于训练集和验证集的划分,相应的,预设完成条件可以包括预设训练条件和预
设准确率条件。
[0100]
在模型训练阶段可以将训练集包含的训练特征输入初始模型,得到训练识别结果;利用训练识别结果和训练集包含的音频标签生成损失值,并利用损失值对初始模型进行参数调节处理。
[0101]
若检测到满足预设训练条件,则可以利用验证集对参数调节后的初始模型进行识别准确率验证。
[0102]
预设训练条件可以包括对初始模型的训练时长进行限制的条件,或者可以为对初始模型的训练轮次进行限制的条件,在此不做限定。
[0103]
若参数调节后的初始模型的识别准确率不满足预设准确率条件,则返回将训练集包含的训练特征输入初始模型,得到训练识别结果的步骤;直至参数调节后的初始模型的识别准确率满足预设准确率条件,则将参数调节后的初始模型确定为歌声识别模型。
[0104]
预测准确率条件可以为对初始模型的识别准确率进行限制的条件,例如,初始模型识别出音频所对应的音频标签的准确率到达90%以上。
[0105]
通过划分训练集和验证集可以有效的保证歌声识别模型的识别准确率。
[0106]
在基于上述训练方法训练得到歌声识别模型后,可以利用其处理音频。具体的,获取待测音频,待测音频的长度和具体内容不做限定,其可以为具有歌声的音频,或者可以为不具有歌声的音频,当然,可以为具有噪声的音频,也可以为不具有噪声的音频。待测音频可以为未经处理,直接获得的音频,或者可以为经过动态范围控制drc处理后的音频。提取待测音频的音频特征,得到待测特征,就可以理解的是待测特征的提取方式与上述的训练特征的提取方式应当相同。将待测特征输入歌声识别模型,可以得到歌声识别结果。
[0107]
具体的,由于待测音频的长度可能较长,在这种情况下,需要对其进行分片处理,若待测音频的长度较短,则需要进行补零处理。在进行特征提取是,首先对待测音频进行特征提取处理,得到初始音频特征。可以理解的是,特征提取处理的方式与训练过程相同。确定预设音频长度,并基于预设音频长度对初始音频特征进行分片处理和/或补零处理,得到待测特征。可以理解的是,待测特征的数量可以为一个或多个,初始音频特征的具体分片方式可以参考训练音频生成时的分片方式。在一种实施方式中,获取的单个时长为dur的音频信号作为待测音频,经过音频特征提取后得到初始音频特征f
input
,其维度可以为148
×
n。将初始音频特征f
input
在时间轴上按照音频帧长度进行分片,以满足歌声识别模型的最小时长dur’的输入要求。最后一个分片的宽度若小于音频帧长度n’则进行补零操作,以保证分片后所有音频片段的特征维度一致,最终得到维度为w
×
148
×
n’的音频特征矩阵f
input’,其中包括w个待测特征。将特征f
input’输入到上述训练好的歌声识别模型中,输出w个输出结果,每个输出结果对应于一个分片后得到的待测特征。输出结果的内容与训练时采用的标签内容相关,例如当采用上述的六种类别标签作为音频标签时,则一个输出结果为对应的音频特征在带音乐唱歌、清唱、带音乐说话、口白、纯音乐、纯噪声这六类标签的概率分布向量pw=[p0,p1,

,pi],0≤pi≤1,0≤i≤5,i表示类别标签数。
[0108]
歌声识别结果的具体形式和数量不做限定,当音频特征的数量为多个时,在一种实施方式中,每个音频特征对应的模型输出结果可以作为一个歌声识别结果,表明待测音频在该音频特征对应的时间段上是否为歌声。在另一种实施方式中,可以执行一定的后处理步骤,得到能够表征整个待测音频综合是否为歌声的歌声识别结果。具体的,若待测特征
为多个,则可以分别将各个待测特征输入歌声识别模型,得到分片识别结果,并对分片识别结果进行融合处理,得到歌声识别结果。分片识别结果即为上述的模型输出结果pw。融合处理的具体方式不做限定,例如在一种方式中,可以计算整个音频的歌声平均概率,并基于该歌声平均概率得到歌声识别结果。基于上述f
input’的生成过程继续说明,对w个概率向量纵向取均值,得到一个平均概率向量p
mean
=[p0’
,p1’
,

,p
i’],其中p
i’=p
wi
/w,p
wi
表示第w个向量的第i个类别的概率值。由于带音乐唱歌、清唱均对应于歌声音频的音频标签,因此平均概率向量中p0’
和p1’
概率都代表了歌声,进而可以确定歌声的平均概率p
vocal
=p0’
+p1’
,当待测音频中实际有歌声的部分占比越大,则p
vocal
的值就越高。可以设置有预设阈值,当p
vocal
大于预设阈值时,确定歌声识别结果为歌声,否则确定为非歌声。
[0109]
除此之外,还可以定位待测音频中歌声开始和结束的端点,具体的,首先确定各个待测特征相对于待测音频的起止时间范围,即待测特征在待测音频中所对应的时间范围;利用起止时间范围对各个分片识别结果排序,得到第一序列。第一序列中相邻的分片识别结果可能相同也可能不同,通过对第一序列进行相同分类边界融合处理,将时间上相邻的两个相同分类(此处的类型可以指的是歌声和非歌声,或者可以指上述的六种类别)的分片识别结果中间隔的边界去除,将小的时间分段融合为大的时间分段,将时间上相邻的两个不相同分类的分片识别结果中间隔的边界保留,得到第二序列,可以确定,第二序列中每个边界的两边分别对应于不同的类型,因此第二序列中的每个边界都为歌声的起点或终点,可以统称为端点。因此基于第二序列可以确定待测音频对应的歌声端点。
[0110]
具体的,对于w个概率向量pw来说,计算第w个概率向量的起始和结束时间点分别为t_startw=(w-1)
×
dur’和t_endw=w
×
dur’,每个起始和结束时间点之间作为一个最小单位区间,二者共同构成第w个待测音频对应的起止时间范围。取每个概率向量的最大值索引值index
wi
表示该向量的最大概率类别标签,将邻近且相同的索引值index
wi
对应的最小单位区间融合成一个大的时间区间,就能获取拥有不同时间长度的类别标签区间,每个类别标签区间的起始和结束时间点即为该区间的端点。利用该方式,可以对帧级别的歌声端点进行定位和标识,实现对歌声区域和非歌声区域的划分。或者,在另一种实施方式中,可以更进一步细分成带音乐歌声区域、清唱区域、带音乐说话区域、口白区域、纯音乐区域和纯噪声区域。
[0111]
可以理解的是,dur’越小,则端点定位越准确,粒度越小。请参考图6,图6为本技术实施例提供的一种歌声起始点定位效果图。其中上半部分为按照时间顺序排布的第一序列,每两个相邻的虚线之间的长度为dur’,在经过相同分类边界融合处理后得到下半部分的第二序列。
[0112]
请参考图7,图7为本技术实施例提供的一种歌声识别流程图。在获取到音频信号(即待测音频)后,可以对其进行drc处理,更便于后续进行歌声识别。将drc处理后的音频信号输入特征提取模块,得到待测特征,并将待测特征输入歌声检测模型(即歌声识别模型),进而将歌声识别模型得到的输出结果输入后置处理模块进行后处理。后处理的具体内容参考先前描述。
[0113]
应用本技术实施例提供的歌声识别方法,采用了特殊的训练数据和特殊的初始模型实现对含噪声音频的歌曲识别,具有较强的鲁棒性和抗干扰能力。具体的,设置包括含噪声音频作为训练音频,使得模型能够利用训练音频学习如何在噪声干扰下分辨歌声音频。
初始模型包括第一卷积层和第二卷积层,两个卷积层的卷积核为矩形,长边沿频率轴方向设置的卷积核能够在更大频域范围上获取频域信息,例如音高、音域,长轴沿时间轴方向设置的卷积核能够在更大的时域范围上获取时域信息,例如节奏、旋律。通过第一卷积层和第二卷积层,使得初始模型能够获得更多信息,有助于抵抗噪声的干扰,实现准确分类。训练完毕后得到的歌声识别模型能够具有较强的抗噪声干扰能力,能够准确分辨出歌声。
[0114]
下面对本技术实施例提供的计算机可读存储介质进行介绍,下文描述的计算机可读存储介质与上文描述的歌声识别模型训练方法和/或歌声识别方法可相互对应参照。
[0115]
本技术还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的歌声识别模型训练方法和/或歌声识别方法的步骤。
[0116]
该计算机可读存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0117]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0118]
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应该认为超出本技术的范围。
[0119]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0120]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语包括、包含或者其他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0121]
本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。

技术特征:
1.一种歌声识别模型训练方法,其特征在于,包括:获取训练音频和对应的音频标签;其中,所述训练音频包括受噪声干扰的含噪声音频,所述音频标签用于表示所述训练音频为歌声音频或非歌声音频;提取所述训练音频的音频特征,得到训练特征;将所述训练特征输入初始模型,得到训练识别结果;其中,所述初始模型包括第一卷积层和第二卷积层,所述第一卷积层和所述第二卷积层具有矩形卷积核,第一矩形卷积核的长边沿频率轴方向设置,第二矩形卷积核的长边沿时间轴方向设置;利用所述训练识别结果和所述音频标签生成损失值,并利用所述损失值对所述初始模型进行参数调节处理;若检测到满足预设完成条件,则将参数调节后的初始模型确定为歌声识别模型。2.根据权利要求1所述的歌声识别模型训练方法,其特征在于,所述获取训练音频,包括:获取初始训练音频;对所述初始训练音频进行动态范围控制处理,得到所述训练音频。3.根据权利要求1所述的歌声识别模型训练方法,其特征在于,所述获取训练音频,包括:获取初始训练音频;确定预设音频长度,并基于所述预设音频长度对所述初始训练音频进行分片处理和/或补零处理,得到所述训练音频。4.根据权利要求1所述的歌声识别模型训练方法,其特征在于,音频标签的生成过程,包括:确定所述训练音频对应的音频类别;基于所述音频类别生成所述音频标签。5.根据权利要求1所述的歌声识别模型训练方法,其特征在于,所述提取所述训练音频的音频特征,得到训练特征,包括:对所述训练音频进行以音频帧为粒度的梅尔频谱提取处理和/或梅尔倒谱系数提取处理,得到所述训练特征。6.根据权利要求1所述的歌声识别模型训练方法,其特征在于,在所述提取所述训练音频的音频特征,得到训练特征之后还包括:将所述训练特征以及对应的音频标签划分为训练集和验证集;相应的,所述将所述训练特征输入初始模型,得到训练识别结果包括:将所述训练集包含的训练特征输入初始模型,得到训练识别结果;所述若检测到满足预设完成条件,则将参数调节后的初始模型确定为歌声识别模型包括:若检测到满足预设训练条件,则利用所述验证集对参数调节后的初始模型进行识别准确率验证;若所述参数调节后的初始模型的识别准确率不满足预设准确率条件,则返回所述将所述训练集包含的训练特征输入初始模型,得到训练识别结果的步骤;直至所述参数调节后的初始模型的识别准确率满足预设准确率条件,则将所述参数调节后的初始模型确定为歌
声识别模型。7.一种歌声识别方法,其特征在于,包括:获取待测音频;提取所述待测音频的音频特征,得到待测特征;将所述待测特征输入歌声识别模型,得到歌声识别结果;其中,所述歌声识别模型基于如权利要求1至6任一项所述的歌声识别模型训练方法得到。8.根据权利要求6所述的歌声识别方法,其特征在于,所述提取所述待测音频的音频特征,得到待测特征,包括:对所述待测音频进行特征提取处理,得到初始音频特征;确定预设音频长度,并基于所述预设音频长度对所述初始音频特征进行分片处理和/或补零处理,得到所述待测特征。9.根据权利要求6所述的歌声识别方法,其特征在于,若所述待测特征为多个,则所述将所述待测特征输入歌声识别模型,得到歌声识别结果,包括:分别将各个所述待测特征输入所述歌声识别模型,得到分片识别结果;对所述分片识别结果进行融合处理,得到所述歌声识别结果。10.根据权利要求9所述的歌声识别方法,其特征在于,还包括:确定各个所述待测特征相对于所述待测音频的起止时间范围;利用所述起止时间范围对各个所述分片识别结果排序,得到第一序列;对所述第一序列进行相同分类边界融合处理,得到第二序列;基于所述第二序列确定所述待测音频对应的歌声端点。11.一种电子设备,其特征在于,包括存储器和处理器,其中:所述存储器,用于保存计算机程序;所述处理器,用于执行所述计算机程序,以实现如权利要求1至6任一项所述的歌声识别模型训练方法,和/或,如权利要求7至10任一项所述的歌声识别方法。12.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的歌声识别模型训练方法,和/或,如权利要求7至10任一项所述的歌声识别方法。

技术总结
本申请公开了歌声识别模型训练方法、歌声识别方法及相关装置,该训练方法包括:获取训练音频和对应的音频标签;提取训练音频的音频特征,得到训练特征;将训练特征输入初始模型,得到训练识别结果;其中,初始模型包括第一卷积层和第二卷积层,第一卷积层和第二卷积层具有矩形卷积核,第一矩形卷积核的长边沿频率轴方向设置,第二矩形卷积核的长边沿时间轴方向设置;利用训练识别结果和音频标签生成损失值,并利用损失值对初始模型进行参数调节处理;若检测到满足预设完成条件,则将参数调节后的初始模型确定为歌声识别模型;该方法得到的歌声识别模型具有较强的抗噪声干扰能力。的歌声识别模型具有较强的抗噪声干扰能力。的歌声识别模型具有较强的抗噪声干扰能力。


技术研发人员:龚韬
受保护的技术使用者:腾讯音乐娱乐科技(深圳)有限公司
技术研发日:2022.06.23
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-6132.html

最新回复(0)