哭声检测网络训练方法、装置、电子设备及存储介质与流程

专利2024-07-21  47



1.本发明属于计算机技术领域,尤其涉及一种哭声检测网络训练方法、装置、电子设备及存储介质。


背景技术:

2.为了解决新生代父母的育儿难题,基于ai技术的婴幼儿辅设备智能ipc(ip camera,网络摄像机)应运而生,尤其是针对刚出生的婴儿,哭声是他们与外界唯一的交流方式,为了能够更好地监测婴儿状态,婴儿哭声检测网络训练已经成为当代智能ipc的标配。
3.然而现有的哭声检测算法准确率不高,检测时长相对较长,一般持续30s-40s才能被检测出,而且对应用环境要求比较高,大多数产品只能在安静的室内才能取得理想的检测效果,当环境音稍微复杂,检测性能急剧下降。


技术实现要素:

4.本发明的目的在于提供一种哭声检测网络训练方法、装置、电子设备及存储介质,旨在解决由于现有技术中基于少量数据集训练出的婴儿声音检测模型检测性能不够高的问题。
5.一方面,本发明提供了一种哭声检测网络训练方法,所述方法包括下述步骤:
6.对获取到的包括有婴儿哭声的音频数据进行标注和增广,得到训练数据集;
7.将所述训练数据集输入至预先构建的包括有编码器、解码器以及辅助训练模块的模型训练网络中,对由所述编码器和所述解码器组成的哭声检测网络进行训练,得到训练好的所述哭声检测网络;
8.其中,所述编码器、解码器以及辅助训练模块均为卷积神经网络,所述解码器和辅助训练模块的输入为经过所述编码器处理后的训练数据集。
9.可选地,所述对获取到的包括有婴儿哭声的音频数据进行标注和增广,得到训练数据集的步骤,包括:
10.采用弱标签对所述音频数据进行标注,得到所述音频数据对应的音频级别的弱标签;
11.对每个所述弱标签下对应的音频数据进行第一增广处理;
12.对第一增广处理后的音频数据进行第二增广处理,将所述第二增广处理后的音频数据设置为所述训练数据集。
13.可选地,所述将所述训练数据集输入至预先构建的包括有编码器、解码器以及辅助训练模块的模型训练网络中,对由所述编码器和所述解码器组成的哭声检测网络进行训练,得到训练好的所述哭声检测网络的步骤,包括:
14.利用均方误差损失函数对所述编码器和辅助训练模块进行训练,当所述均方误差损失函数收敛时,采用所述均方误差损失函数和交叉熵损失函数对所述编码器、解码器以
及辅助训练模块进行训练,得到训练好的所述哭声检测网络。
15.可选地,所述编码器包括多个依次连接的二维卷积模块和二维池化模块,其中,所述二维卷积模块包括批归一化层、二维卷积层和激活函数,所述二维池化模块包括二维池化层,所述编码器的输入为经过所述标注和增广处理后得到的训练数据集。
16.可选地,所述解码器包括依次连接的长短期记忆层、全连接层、激活层和时序池化层,所述长短期记忆层用于提取所述解码器接收到的训练数据集中音频的时域特征之间的关联信息,所述全连接层用于对提取到的所述关联信息进行时间帧级别的分类,并利用激活层进行激活处理,以得到所述关联信息对应的时间帧级别的概率值,所述时序池化层用于将所述时间帧级别的概率值转换成音频级别的概率值。
17.可选地,所述辅助训练模块包括多个依次连接的反卷积模块和二维卷积模块,其中,所述反卷积模块包括反卷积层,所述二维卷积模块包括批归一化层、二维卷积层和激活函数,所述辅助训练模块用于对所述编码器处理后的训练数据集进行平滑滤波处理,以使所述解码器学习到音频分类的特征。
18.另一方面,本发明提供了一种哭声检测方法,包括下述步骤:
19.通过训练好的哭声检测网络对获取到的包括有婴儿哭声的音频数据进行检测,得到婴儿哭声的检测结果,所述哭声检测网络通过前述哭声检测网络训练方法训练得到。
20.另一方面,本发明提供了一种哭声检测网络训练装置,所述装置包括:
21.数据集获取单元,用于对获取到的包括有婴儿哭声的音频数据进行标注和增广,得到训练数据集;
22.网络训练单元,用于将所述训练数据集输入至预先构建的包括有编码器、解码器以及辅助训练模块的模型训练网络中,对由所述编码器和所述解码器组成的哭声检测网络进行训练,得到训练好的所述哭声检测网络;
23.其中,所述编码器、解码器以及辅助训练模块均为卷积神经网络,所述解码器和辅助训练模块的输入为经过所述编码器处理后的训练数据集。
24.另一方面,本发明还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
25.另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
26.本发明通过对获取到的包括有婴儿哭声的音频数据进行标注和增广,得到训练数据集,将训练数据集输入至预先构建的包括有编码器、解码器以及辅助训练模块的模型训练网络中,对由该编码器和解码器组成的哭声检测网络进行训练,得到训练好的哭声检测网络,其中,编码器、解码器以及辅助训练模块均为卷积神经网络,解码器和辅助训练模块的输入为经过编码器处理后的训练数据集,从而在哭声检测网络训练时加入辅助训练模块,提高了哭声检测时编码器的特征提取能力,充分保留较为重要的信息用于后续的解码器,且检测时辅助训练模块不参与检测过程,在不增加参数量的前提下提高了哭声检测网络的婴儿哭声检测效果。
附图说明
27.图1a是本发明实施例一提供的哭声检测网络训练方法的实现流程图;
28.图1b示出了本发明实施例一提供的编码器以及辅助训练模块分别输出的特征图;
29.图1c是本发明实施例一提供的模型训练网络的结构示意图;
30.图1d是本发明实施例一提供的哭声检测网络的结构示意图;
31.图2本发明实施例二提供的哭声检测方法的实现流程图;
32.图3是本发明实施例三提供的哭声检测网络训练装置的结构示意图;
33.图4是本发明实施例四提供的哭声检测装置的结构示意图;以及
34.图5是本发明实施例五提供的电子设备的结构示意图。
具体实施方式
35.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
36.以下结合具体实施例对本发明的具体实现进行详细描述:
37.实施例一:
38.图1示出了本发明实施例一提供的哭声检测网络训练方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
39.在步骤s101中,对获取到的包括有婴儿哭声的音频数据进行标注和增广,得到训练数据集。
40.本发明实施例适用于电子设备,该电子设备可以为婴幼儿辅设备智能ipc(ip camera,网络摄像机)、手机、平板电脑、可穿戴设备、车载设备、监控摄像头、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本、个人数字助理(personal digital assistant,pda)等终端设备,本技术实施例对电子设备的具体类型不作任何限制。
41.在本发明实施例中,在对包括有婴儿哭声的音频数据进行标注时,可以根据音频数据中是否包含有婴儿哭声对音频数据进行分类并标注,为了便于描述,标注的标签可以记为第一标签和第二标签,从而得到音频数据的分类标签,即将音频数据分为具有第一标签和第二标签的音频数据,其中,具有第一标签的音频数据表明该音频数据包含婴儿哭声,第二标签的音频数据表明该音频数据不包含婴儿哭声。进一步地,为了便于描述,将第一标签对应的音频数据称为婴儿哭声音频,将第二标签对应的音频数据称为非婴儿哭声音频。在对标注后的音频数据进行增广时,可以对音频数据进行速度调整、加噪、音高调整和音量调整等,以生成与哭声标注的音频数据相似、但又不同的训练数据集,之后,将这些增广后的音频数据作为训练数据集,从而通过对原音频数据进行标注与增广,扩大了训练数据集的规模,提高了后续对哭声检测网络训练时哭声检测网络的泛化能力。
42.在一实施例中,在对获取到的音频数据进行标注之前,可将获取到的音频处理成采样率为16khz、采样精度为16bit的单通道wav格式,使得在节省数据存储空间的同时又能获取到不失真的音频数据。在对处理后的音频数据进行标注时,优选地,采用弱标签对音频
数据进行标注,得到音频数据对应的音频级别的弱标签,从而在降低标注工作量的情况下,更充分、有效地利用输入的音频数据。
43.在一实施例中,优选地,第一增广处理为速度调整,第二增广处理为加噪、音高调整和音量调整,从而在保证音频长度统一的同时又能以较为灵活的增广方式对音频进行增广。具体地,对第一标签下对应的婴儿哭声音频进行速度调整,当调整速度后音频长度小于定长时,可以进行补零操作,大于定长时,可以进行截断操作,对第一增广处理后的婴儿哭声音频进行加噪、音高调整和音量调整,其中,加噪、音高调整和音量调整的顺序和对应的增广比例系数以及增广参数视任务的实际情况而定,从而通过使用不同的增广方式对第一标签下对应的婴儿哭声音频进行增广,能够增加训练用的音频数据的复杂度,提高哭声检测网络的泛化能力。此处需要说明的是,第二标签下对应的非婴儿哭声音频收集相对容易且数量较多,因此,只需对婴儿哭声音频进行增广,无需对非婴儿哭声音频进行增广,当增广后的婴儿哭声音频和非婴儿哭声音频比例不低于预设比例时,即可停止婴儿哭声音频的增广,从而在适度增加婴儿哭声音频数据复杂度、又不过多增加运算量和存储空间的同时,保证哭声检测网络的训练效果。
44.在步骤s102中,将训练数据集输入至预先构建的包括有编码器、解码器以及辅助训练模块的模型训练网络中,对由该编码器和解码器组成的哭声检测网络进行训练,得到训练好的哭声检测网络。
45.在本发明实施例中,模型训练网络用于对哭声检测网络进行训练,哭声检测网络由编码器和解码器组成,而模型训练网络由哭声检测网络中的编码器、解码器以及辅助训练模块组成,其中,编码器、解码器以及辅助训练模块均为卷积神经网络,编码器用于对输入的训练数据集进行不同维度的特征提取,解码器用于对编码器的输出进行时间帧级别的分类,得到时间帧级别的概率值,再将时间帧级别的概率值转换成音频级别的概率输出,辅助训练模块用于对编码器的输出进行平滑滤波,以辅助解码器学习到时间帧级别分类的主要特征。在将经过步骤s101处理得到的训练数据集输入至模型训练网络中进行训练时,首先,利用均方误差损失函数对编码器和辅助训练模块进行训练,通过辅助训练模块帮助编码器更好地学习音频中的关键信息,使得编码器学的更好。之后,当均方误差损失函数收敛时,采用均方误差损失函数和交叉熵损失函数对编码器、解码器以及辅助训练模块同时进行训练,得到训练好的哭声检测网络,从而使哭声检测网络以较快的速度收敛。
46.在一优选实施方式中,模型训练网络包括编码器、解码器和辅助训练模块,解码器和辅助训练模块并行地连接在编码器上,编码器的输出为解码器和辅助训练模块的输入。其中,编码器用于对输入的训练数据集进行不同维度的特征提取,编码器包括多个依次连接的二维卷积模块和二维池化模块,二维卷积模块包括批归一化层、二维卷积层和激活函数,二维池化模块包括二维池化层。解码器用于对编码器的输出进行时间帧级别的分类,得到时间帧级别的概率值,再将时间帧级别的概率值转换成音频级别的概率输出,解码器包括依次连接的长短期记忆层、全连接层、激活层和时序池化层,其中,长短期记忆层用于提取解码器接收到的训练数据集中音频的时域特征之间的关联信息,全连接层用于对提取到的关联信息进行时间帧级别的分类,并利用激活层进行激活处理,以得到关联信息对应的时间帧级别的概率值,时序池化层用于将时间帧级别的概率值转换成音频级别的概率值。辅助训练模块用于对编码器的输出进行平滑滤波,以辅助解码器学习到时间帧级别分类的
特征,辅助训练模块包括多个依次连接的反卷积模块和二维卷积模块,反卷积模块包括反卷积层,二维卷积模块的结构与编码器中的二维卷积模块相同,在此不再赘述。这样,在将训练数据集输入至模型训练网络中进行训练时,首先利用均方误差损失函数只对编码器和辅助训练模块进行训练,通过辅助训练模块使得编码器能更好地学习到分类相关的关键信息,同时也起到了一定的正则作用。之后,当均方误差损失函数收敛时,采用均方误差损失函数和交叉熵损失函数对编码器、解码器以及辅助训练模块同时进行训练,得到训练好的所述哭声检测网络,从而使哭声检测网络以较快的速度收敛。
47.具体地,编码器在进行特征提取时,首先利用批归一化层对输入的训练数据集进行归一化处理,从而提高学习率,进而提高编码器的训练速度,再利用二维卷积对归一化后的训练数据集进行卷积操作,以提升训练数据集中婴儿哭声音频和非婴儿哭声音频的特征差异性,之后利用激活函数对卷积后的训练数据集进行激活处理,以增加编码器中各层之间的非线性关系,从而完成各层对应的不同任务。在对解码器进行训练时,通过长短期记忆层提取音频时域之间的关联信息,通过全连接层对关联信息进行时间帧级别的分类,利用激活层对时间帧级别的分类进行激活处理,得到时间帧级别的概率值,最后通过时序池化层将时间帧级别的概率值转换成音频级别的概率再进行输出,其中时间帧级别与前述进行音频标注后得到的音频级别的帧并非同一概念,作为示例地,假设在对音频进行标注时的音频特征为501*128,经过解码器的全连接层操作后,输出的音频特征为62*2,即标注后得到的分帧对应的是501,通过解码器进行时间帧级别分类后得到的时间帧为62。在对辅助训练模块进行训练时,利用反卷积层对音频频域特征进行反卷积操作,得到音频的时域特征,再对音频的时域特征进行平滑滤波处理,以滤除掉音频中的噪声,获得更多的音频细节特征,从而使音频特征更加平滑,进而有利于解码器对平滑的音频特征进行学习与分类。作为示例地,通过辅助训练模块对编码器处理后的音频进行平滑滤波处理后的效果如图1b所示,图1b的上图为编码器进行音频特征提取后的特征图,下图为辅助训练模块对进行特征提取后的音频进行滤波后得到的特征图,即辅助训练模块的输出。可以看出,辅助训练模块的输出相对于编码器的输出更加平滑。
48.在一具体实施方式中,在利用均方误差损失函数只对编码器和辅助训练模块进行训练时,模型训练网络的损失函数可以表示为loss=loss1,其中,loss表示模型训练网络的损失函数,loss1表示辅助训练模块中的均方误差损失函数,当均方误差损失函数收敛时,采用均方误差损失函数和交叉熵损失函数对模型训练网络的编码器、解码器以及辅助训练模块同时进行训练,此时模型训练网络的损失函数可以表示为loss=loss1*0.001+loss2,其中,loss表示模型训练网络的损失函数,loss1表示辅助训练模块中的均方误差损失函数,loss2表示解码器中的交叉熵损失函数,通过上述的训练方式可以使解码器输出的音频级别的概率更接近第一标签下对应的婴儿哭声音频与第二标签下对应的非婴儿哭声的比值,同时加快了解码器的收敛以及解码器对音频时域特征分类的准确率,进而有助于模型训练网络收敛。
49.作为示例地,图1c示出了本发明实施例提供的模型训练网络的结构,图1d示出了通过图1c所示模型训练网络训练得到的哭声检测网络的结构。如图1c所示,该模型训练网络包括依次连接的编码器、解码器和辅助训练模块,编码器包括多个依次连接的二维卷积模块(block2d)和二维池化模块(pool2d),其中,二维卷积模块(block2d)包括批归一化层
(bn)、二维卷积层(conv2d)和激活函数(relu),二维池化模块包括二维池化层,解码器包括依次连接的长短期记忆层、全连接层、激活层和时序池化层,辅助训练模块包括多个依次连接的反卷积模块和二维卷积模块(block2d),反卷积模块包括反卷积层,二维卷积模块的结构与编码器中的二维卷积模块相同,在此不再赘述。如图1d所示,训练得到的哭声检测网络由编码器和解码器组成,而编码器和解码器则由如图1c所示的模型训练网络训练得到。
50.在本发明实施例中,将训练数据集输入至模型训练网络中进行训练,在训练时先利用均方误差损失函数只对模型训练网络中的编码器和辅助训练模块进行训练,当均方误差损失函数收敛时,采用均方误差损失函数和交叉熵损失函数对模型训练网络中的编码器、解码器以及辅助训练模块同时进行训练,得到训练好的哭声检测网络,通过上述的训练方式能够缩短哭声检测网络的训练时长,加快哭声检测网络收敛,从而提高哭声检测网络的训练效果。
51.实施例二:
52.图2示出了本发明实施例二提供的哭声检测方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
53.在步骤s201中,对获取到的包括有婴儿哭声的音频数据进行标注和增广,得到训练数据集;
54.在步骤s202中,将训练数据集输入至预先构建的包括有编码器、解码器以及辅助训练模块的模型训练网络中,对由编码器和解码器组成的哭声检测网络进行训练,得到训练好的所述哭声检测网络;
55.在本发明实施例中,步骤s201、s202的具体实施方式可参考实施例一中步骤s101、s102的对应描述,在此不再赘述。
56.在步骤s203中,通过训练好的哭声检测网络对获取到的包括有婴儿哭声的音频数据进行检测,得到婴儿哭声的检测结果。
57.在本发明实施例中,通过训练好的哭声检测网络对获取到的包括有婴儿哭声的音频数据进行检测,得到婴儿哭声的检测结果,若检测结果中包含有婴儿哭声,可以将检测结果以及检测到的包括有婴儿哭声的音频数据发送至用户客户端,如手机、上网本或者车载设备等,从而及时地向婴儿的看护人做出提醒操作。
58.实施例三:
59.图3示出了本发明实施例三提供的哭声检测网络训练装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
60.数据集获取单元31,用于对获取到的包括有婴儿哭声的音频数据进行标注和增广,得到训练数据集;
61.网络训练单元32,用于将训练数据集输入至预先构建的包括有编码器、解码器以及辅助训练模块的模型训练网络中,对由编码器和解码器组成的哭声检测网络进行训练,得到训练好的哭声检测网络,其中,编码器、解码器以及辅助训练模块均为卷积神经网络,编码器用于对输入的训练数据集进行不同维度的特征提取,解码器和辅助训练模块的输入为经过编码器处理后的训练数据集。
62.在本发明实施例中,哭声检测网络训练装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制
本发明。哭声检测网络训练装置的各单元的具体实施方式可参考前述方法实施例的描述,在此不再赘述。
63.实施例四:
64.图4示出了本发明实施例四提供的哭声检测装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
65.数据集获取单元41,用于对获取到的包括有婴儿哭声的音频数据进行标注和增广,得到训练数据集;
66.网络训练单元42,用于将训练数据集输入至预先构建的包括有编码器、解码器以及辅助训练模块的模型训练网络中,对由编码器和解码器组成的哭声检测网络进行训练,得到训练好的哭声检测网络,其中,编码器、解码器以及辅助训练模块均为卷积神经网络,编码器用于对输入的训练数据集进行不同维度的特征提取,解码器和辅助训练模块的输入为经过编码器处理后的训练数据集;以及
67.哭声检测单元43,用于通过训练好的哭声检测网络对获取到的包括有婴儿哭声的音频数据进行检测,得到婴儿哭声的检测结果。
68.在本发明实施例中,哭声检测装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。哭声检测装置的各单元的具体实施方式可参考前述方法实施例的描述,在此不再赘述。
69.实施例五:
70.图5示出了本发明实施例五提供的电子设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
71.本发明实施例的电子设备5包括处理器50、存储器51以及存储在存储器51中并可在处理器50上运行的计算机程序52。该处理器50执行计算机程序52时实现上述各方法实施例中的步骤,例如图1a所示的步骤s101至s102。或者,处理器50执行计算机程序52时实现上述各装置实施例中各单元的功能,例如图3所示单元31至32的功能。
72.在本发明实施例中,将训练数据集输入至模型训练网络中进行训练,在训练时先利用均方误差损失函数只对模型训练网络中的编码器和辅助训练模块进行训练,当均方误差损失函数收敛时,采用均方误差损失函数和交叉熵损失函数对模型训练网络中的编码器、解码器以及辅助训练模块同时进行训练,得到训练好的哭声检测网络,通过上述的训练方式能够缩短哭声检测网络的训练时长,加快哭声检测网络收敛,从而提高哭声检测网络的训练效果。
73.实施例六:
74.在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤,例如,图1a所示的步骤s101至s102。或者,该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能,例如图3所示单元31至32的功能。
75.在本发明实施例中,将训练数据集输入至模型训练网络中进行训练,在训练时先利用均方误差损失函数只对模型训练网络中的编码器和辅助训练模块进行训练,当均方误差损失函数收敛时,采用均方误差损失函数和交叉熵损失函数对模型训练网络中的编码器、解码器以及辅助训练模块同时进行训练,得到训练好的哭声检测网络,通过上述的训练
方式能够缩短哭声检测网络的训练时长,加快哭声检测网络收敛,从而提高哭声检测网络的训练效果。
76.本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,rom/ram、磁盘、光盘、闪存等存储器。
77.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种哭声检测网络训练方法,其特征在于,所述方法包括下述步骤:对获取到的包括有婴儿哭声的音频数据进行标注和增广,得到训练数据集;将所述训练数据集输入至预先构建的包括有编码器、解码器以及辅助训练模块的模型训练网络中,对由所述编码器和所述解码器组成的哭声检测网络进行训练,得到训练好的所述哭声检测网络;其中,所述编码器、解码器以及辅助训练模块均为卷积神经网络,所述解码器和辅助训练模块的输入为经过所述编码器处理后的训练数据集。2.如权利要求1所述的方法,其特征在于,所述对获取到的包括有婴儿哭声的音频数据进行标注和增广,得到训练数据集的步骤,包括:采用弱标签对所述音频数据进行标注,得到所述音频数据对应的音频级别的弱标签;对每个所述弱标签下对应的音频数据进行第一增广处理;对第一增广处理后的音频数据进行第二增广处理,将所述第二增广处理后的音频数据设置为所述训练数据集。3.如权利要求1所述的方法,其特征在于,所述将所述训练数据集输入至预先构建的包括有编码器、解码器以及辅助训练模块的模型训练网络中,对由所述编码器和所述解码器组成的哭声检测网络进行训练,得到训练好的所述哭声检测网络的步骤,包括:利用均方误差损失函数对所述编码器和辅助训练模块进行训练,当所述均方误差损失函数收敛时,采用所述均方误差损失函数和交叉熵损失函数对所述编码器、解码器以及辅助训练模块进行训练,得到训练好的所述哭声检测网络。4.如权利要求1所述的方法,其特征在于,所述编码器包括多个依次连接的二维卷积模块和二维池化模块,其中,所述二维卷积模块包括批归一化层、二维卷积层和激活函数,所述二维池化模块包括二维池化层,所述编码器的输入为经过所述标注和增广处理后得到的训练数据集。5.如权利要求1所述的方法,其特征在于,所述解码器包括依次连接的长短期记忆层、全连接层、激活层和时序池化层,所述长短期记忆层用于提取所述解码器接收到的训练数据集中音频的时域特征之间的关联信息,所述全连接层用于对提取到的所述关联信息进行时间帧级别的分类,并利用激活层进行激活处理,以得到所述关联信息对应的时间帧级别的概率值,所述时序池化层用于将所述时间帧级别的概率值转换成音频级别的概率值。6.如权利要求1所述的方法,其特征在于,所述辅助训练模块包括多个依次连接的反卷积模块和二维卷积模块,其中,所述反卷积模块包括反卷积层,所述二维卷积模块包括批归一化层、二维卷积层和激活函数,所述辅助训练模块用于对所述编码器处理后的训练数据集进行平滑滤波处理,以使所述解码器学习到音频分类的特征。7.一种哭声检测方法,其特征在于,所述方法包括下述步骤:通过训练好的哭声检测网络对获取到的包括有婴儿哭声的音频数据进行检测,得到婴儿哭声的检测结果,所述哭声检测网络通过所述权利要求1至6任一所述的哭声检测网络训练方法训练得到。8.一种哭声检测网络训练装置,其特征在于,所述装置包括:数据集获取单元,用于对获取到的包括有婴儿哭声的音频数据进行标注和增广,得到训练数据集;
网络训练单元,用于将所述训练数据集输入至预先构建的包括有编码器、解码器以及辅助训练模块的模型训练网络中,对由所述编码器和所述解码器组成的哭声检测网络进行训练,得到训练好的所述哭声检测网络;其中,所述编码器、解码器以及辅助训练模块均为卷积神经网络,所述解码器和辅助训练模块的输入为经过所述编码器处理后的训练数据集。9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。

技术总结
本发明适用计算机技术领域,提供了一种哭声检测网络训练方法、装置、电子设备及存储介质,该方法包括:对获取到的包括有婴儿哭声的音频数据进行标注和增广,得到训练数据集;将训练数据集输入至预先构建的包括有编码器、解码器以及辅助训练模块的模型训练网络中,对由编码器和解码器组成的哭声检测网络进行训练,得到训练好的哭声检测网络;其中,编码器、解码器以及辅助训练模块均为卷积神经网络,从而在哭声检测网络训练时加入辅助训练模块,提高了哭声检测时编码器的特征提取能力,充分保留较为重要的信息用于后续的解码器,且检测时辅助训练模块不参与检测过程,在不增加参数量的前提下提高了哭声检测网络的婴儿哭声检测效果。提下提高了哭声检测网络的婴儿哭声检测效果。提下提高了哭声检测网络的婴儿哭声检测效果。


技术研发人员:沙露露
受保护的技术使用者:珠海亿智电子科技有限公司
技术研发日:2022.07.08
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-8883.html

最新回复(0)