1.本发明属于深度学习领域,具体涉及一种钢板切头尾时扩充钢板剪切掉落音频数据集的生成方法,用于板带生产线上钢板切头尾时头尾掉落状态的辨识。
背景技术:2.随着智能制造的提出,钢铁制造业正全面面向数字化、无人化、智能化发展。在钢厂板带生产线上钢板切头尾时,判别剪切过程中钢板是否正常掉落的情况,传统模式下主要依靠技术人员的经验判断,不仅耗时,还有现场噪声大、生产效率低、危险指数高等缺点。
3.通过神经网络训练模型可对钢板剪切掉落的声音有不错的实时预测判断,但神经网络需要大量的样本数据进行模型训练。实际情况中,无法采集到大量的数据样本,异常掉落的样本数据更难获取。在此背景下,许多基于深度学习的数据增强算法和数据生成网络应运而生。
4.现有技术中,针对图像生成数据和增强数据的解决方法有:pixelcnn算法是以卷积核的形式不断生成新的像素点,但针对语音数据的波形图像素点的生成有一定的局限性并且生成数据与预测数据差异不大;vae算法是利用灰度值分布的最大期望概率生成数据,但灰度值分布不能很好的作为语音波形图的特征项;生成对抗网络 gan使用较多,但是在一般的gan网络中,生成器无法将图片的真实度提高到最大值。
技术实现要素:5.针对上述技术问题,本发明提供一种钢板切头尾时扩充钢板剪切掉落音频数据集的生成方法,以音频的波形图为对象,将wavenet 语音生成网络与循环一致性生成对抗网络cyclegan相结合,生成与预测数据尽可能相似的音频数据,能够解决钢板剪切掉落音频数据少样本的问题,达到扩充钢板剪切掉落音频数据集的目的。
6.本发明是通过以下技术方案实现的:
7.一种钢板切头尾时扩充钢板剪切掉落音频数据集的数据生成方法,所述方法包括:
8.对获取的钢板剪切掉落的真实数据样本集做膨胀卷积运算,生成预测音频数据集;将所述预测音频数据集输入cyclegan网络,通过 cyclegan网络训练生成与预测音频数据高度相似的生成数据集,以扩充钢板剪切掉落音频数据集。
9.进一步地,所述方法包括以下步骤:
10.步骤一:获取真实数据样本集;所述真实数据样本集包括钢板剪切正常掉落声音的样本和钢板剪切异常掉落声音的样本,且钢板剪切正常掉落声音的样本数多于异常掉落声音的样本数;
11.本步骤获取少量钢板剪切掉落真实数据样本集,大致为50份音频数据。在实际情况中,钢板剪切正常掉落的声音数据易采集,但无法实现模拟钢板剪切异常掉落的情况,因此获取的异常掉落数据会相对较少。
12.步骤二:利用wavenet语音生成网络对所述真实数据样本集做膨胀卷积运算,扩大网络的感受野,根据历史时刻和当前时刻的输入预测下一时刻的波形,不断迭代,依据时间序列生成预测音频数据集;
13.步骤三:将生成的所述预测音频数据集输入cyclegan生成网络中,生成与预测音频数据高度相似的生成数据集,并计算生成数据与预测音频数据之间的损失函数与相似度;
14.步骤四:通过不断修正训练损失函数,提高生成数据和预测数据相似度,判别生成数据与预测音频数据的相似度,当相似度达到一定范围时,数据生成完毕,获得与预测音频数据高度相似的音频波形图,扩充钢板剪切掉落音频波形图的数据集。
15.进一步地,在步骤二中,在所述wavenet语音生成网络中设输入层、输出层和两层隐含层,膨胀卷积扩张率参数分别设为1、2、4;在生成过程中,每生成一个点放到输入层的最后一个点,继续迭代生成下一时刻预测值,直到音频数据的时间序列结束,预测出新的序列数据,获得生成预测音频数据集。
16.进一步地,在步骤三中,所述wavenet语音生成网络生成的预测音频数据集为非配对数据类型,所述预测音频数据集包括钢板剪切正常掉落预测音频和钢板剪切异常掉落预测音频,将生成的所述预测音频数据集输入cyclegan生成网络中,所述预测音频数据集随机分为两组,两组数据同时训练生成器和判别器,计算生成数据与预测音频数据之间的损失函数和相似度,并不断修正训练损失函数优化相似度,确保生成数据能够通过生成器转换成与预测音频数据高度相似的图像。
17.进一步地,所述预测音频数据集随机分为两组,记为a组与b 组,同时训练生成器g1和g2,a组数据经过生成器g1生成数据 cb,再将生成的cb输入到生成器g2中,生成a’;b组数据经过生成器g2生成数据ca,再将生成的ca输入到生成器g1中,生成b’;
18.a组、b两组预测数据通过生成器生成的数据能够通过生成器转换成与预测音频数据相似的图像;
19.d1和d2为判别器,d1判别a和ca、a和a'是否符合相似度范围,d2判别b和cb、b和b'是否符合相似度范围,通过不断计算训练损失函数提高a和ca、a和a’、b和cb、b和b'的相似度。
20.进一步地,在步骤四中,以音频的对数功率谱图特征为判别相似度的标准,当相似度达到0.85-0.95范围内,数据生成完毕。
21.本发明的有益技术效果:
22.本发明所述方法利用wavenet语音生成网络对真实样本数据做膨胀卷积运算,根据历史时刻和当前时刻的输入预测下一时刻的波形,不断迭代,最后利用一系列的密集层结合前面所有的结果,生成预测音频数据集;将预测音频数据集输入到cyclegan网络中, cyclegan网络可避免生成数据与预测数据完全一样,可使生成数据和预测数据属于同一类别(正常掉落或异常掉落)但不完全一样,以此生成更像真实数据的数据集。
23.本发明提出的方法通过两种生成网络的结合使用,首先利用 wavenet网络生成依据时间序列模型预测的音频数据集,将预测音频数据集分为两组,将预测音频数据集近似代替真实数据集;再利用cyclegan网络加以扩充优化数据集,解决钢板剪切掉落音频少样本的问题。
附图说明
24.图1为本发明实施例中钢板剪切掉落音频数据生成方法流程图;
25.图2为本发明实施例中的wavenet膨胀卷积算法原理图;
26.图3为本发明实施例中的cyclegan网络结构图。
具体实施方式
[0027][0028]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
[0029]
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
[0030]
本发明实施例提供一种板带生产线上钢板切头尾时扩充钢板剪切掉落音频数据集的数据生成方法,通过wavenet语音生成网络和 cyclegan生成网络结合使用,解决钢板剪切掉落音频少样本的问题。
[0031]
具体地,利用获取到的少样本真实数据通过wavenet语音生成网络做膨胀卷积运算,依据时间序列生成预测音频数据集;再通过 cyclegan网络训练生成与预测音频数据高度相似的数据集,提高数据的可用性和真实性,解决钢板剪切掉落音频少样本的问题。
[0032]
如图1所示,所述方法包括以下步骤:
[0033]
步骤一:获取真实数据样本集;所述真实数据样本集包括钢板剪切正常掉落声音的样本和钢板剪切异常掉落声音的样本,且钢板剪切正常掉落声音的样本数多于异常掉落声音的样本数;
[0034]
步骤二:如图2所示。在图2中,每个卷积层都对前一层进行卷积,并根据设定的膨胀卷积扩张率参数选择连接的节点,扩大感知范围。在生成过程中,每生成一个点,把该点放到输入层最后一个点继续迭代生成。利用wavenet语音生成网络对所述真实数据样本集做膨胀卷积运算,扩大网络的感受野,根据历史时刻和当前时刻的输入预测下一时刻的波形,不断迭代,依据时间序列生成预测音频数据集。
[0035]
步骤三:将生成的所述预测音频数据集输入cyclegan生成网络中,生成与预测音频数据高度相似的生成数据集,并计算生成数据与预测音频数据之间的损失函数与相似度;
[0036]
在本实施例中,相似度判别范围设为0.85-0.95,具体评判指标项为音频的对数功率谱图。
[0037]
步骤四:通过不断修正训练损失函数,提高生成数据和预测数据相似度,以音频的对数功率谱图特征为判别相似度的标准;判别生成数据与预测数据的相似度,当达到0.85-0.95范围内,数据生成完毕。
[0038]
具体地,在步骤一中,实际情况中,钢板剪切正常掉落的声音数据易采集,但无法实现模拟钢板剪切异常掉落的情况,因此获取的异常掉落数据会相对较少。
[0039]
具体地,在步骤二中,设输入层、输出层和两层隐含层,膨胀卷积扩张率参数分别为1、2、4。在生成过程中,每生成一个点把该点放到输入层最后一个点,继续迭代生成下一时刻预测值,直到音频数据的时间序列结束,预测出新的序列数据,获得生成预测音频数据集。
[0040]
具体地,在步骤三中,将生成的预测音频数据集(包括钢板剪切正常掉落与异常掉落)随机分为两组,记为a组与b组。同时训练生成器g1和g2,a组数据经过生成器g1生成数据cb,再将生成的cb输入到生成器g2中,生成a’;b组数据经过生成器g2生成数据ca,再将生成的ca输入到生成器g1中,生成b’;使得a、b两组预测数据通过生成器生成的数据也可通过生成器转换成与预测数据相似的图像。其中d1和d2为判别器,d1判别a和ca、a和a' 是否符合相似度范围,d2判别b和cb、b和b'是否符合相似度范围,通过不断计算训练损失函数提高a和ca、a和a’、b和cb、b和 b'的相似度,当相似度达到0.85-0.95范围内时,表示生成数据属于预测数据的类别(正常掉落和异常掉落)但与预测数据不完全一样,达到了扩充模型训练数据集的要求。如图3所示。
[0041]
本发明实施例提供的方法在获取样本时,应尽可能多的获取样本数据,但实际情况中,钢板剪切正常掉落的声音数据易采集,但无法实现模拟钢板剪切异常掉落的情况,钢板剪切异常掉落的数据无法过多采集,因此可以在步骤三生成异常掉落数据过程中,将钢厂中可能的背景噪声加入,或者随机增加噪声点和噪声种类(例如高斯噪声),使得生成数据与真实数据更加相似。在wavenet语音生成网络中,设置两层隐含层,避免波形图丢失过多特征;在cyclegan网络的基础上,增加对a和a’、b和b’数据相似度的判别,与a和ca、b和 cb的相似度同样构成判别标准,增强了判别生成数据与预测数据是否高度相似的精准性。
技术特征:1.一种钢板切头尾时扩充钢板剪切掉落音频数据集的数据生成方法,其特征在于,所述方法包括:对获取的钢板剪切掉落的真实数据样本集做膨胀卷积运算,生成预测音频数据集;将所述预测音频数据集输入cyclegan网络,通过cyclegan网络训练生成与预测音频数据高度相似的生成数据集,以扩充钢板剪切掉落音频数据集。2.根据权利要求1所述一种钢板切头尾时扩充钢板剪切掉落音频数据集的数据生成方法,其特征在于,所述方法包括以下步骤:步骤一:获取真实数据样本集:所述真实数据样本集包括钢板剪切正常掉落声音的样本和钢板剪切异常掉落声音的样本,且钢板剪切正常掉落声音的样本数多于异常掉落声音的样本数;步骤二:利用wavenet语音生成网络对所述真实数据样本集做膨胀卷积运算,根据历史时刻和当前时刻的输入预测下一时刻的波形,不断迭代,依据时间序列生成预测音频数据集;步骤三:将生成的所述预测音频数据集输入cyclegan生成网络中,生成与预测音频数据高度相似的生成数据集,并计算生成数据与预测音频数据之间的损失函数与相似度;步骤四:通过不断修正训练损失函数,提高生成数据和预测数据相似度,判别生成数据与预测音频数据的相似度,当相似度达到一定范围时,数据生成完毕,获得与预测音频数据高度相似的音频波形图,不断迭代此过程,达到扩充钢板剪切掉落音频波形图数据集的目的。3.如权利要求2所述一种钢板切头尾时扩充钢板剪切掉落音频数据集的数据生成方法,其特征在于,在步骤二中,在所述wavenet语音生成网络中设输入层、输出层和两层隐含层,膨胀卷积扩张率参数分别设为1、2、4;在生成过程中,每生成一个点放到输入层的最后一个点,继续迭代生成下一时刻预测值,直到音频数据的时间序列结束,预测出新的序列数据,获得生成预测音频数据集。4.如权利要求2所述一种钢板切头尾时扩充钢板剪切掉落音频数据集的数据生成方法,其特征在于,在步骤三中,所述wavenet语音生成网络生成的预测音频数据集为非配对数据类型,所述预测音频数据集包括钢板剪切正常掉落预测音频和钢板剪切异常掉落预测音频,将生成的所述预测音频数据集输入cyclegan生成网络中,所述预测音频数据集随机分为两组,两组数据同时训练生成器和判别器,计算生成数据与预测音频数据之间的损失函数和相似度,并不断修正训练损失函数优化相似度,确保生成数据能够通过生成器转换成与预测音频数据高度相似的图像。5.如权利要求4所述一种钢板切头尾时扩充钢板剪切掉落音频数据集的数据生成方法,其特征在于,所述预测音频数据集随机分为两组,记为a组与b组,同时训练生成器g1和g2,a组数据经过生成器g1生成数据c
b
,再将生成的c
b
输入到生成器g2中,生成a’;b组数据经过生成器g2生成数据c
a
,再将生成的c
a
输入到生成器g1中,生成b’;a组、b两组预测数据通过生成器生成的数据能够通过生成器转换成与预测音频数据相似的图像;d1和d2为判别器,d1判别a和c
a
、a和a'是否符合相似度范围,d2判别b和c
b
、b和b'是否符合相似度范围,通过不断计算训练损失函数提高a和c
a
、a和a’、b和c
b
、b和b'的相似度。
6.如权利要求2所述一种钢板切头尾时扩充钢板剪切掉落音频数据集的数据生成方法,其特征在于,在步骤四中,以音频的对数功率谱图特征为判别相似度的标准,当相似度达到0.85-0.95范围内,数据生成完毕。
技术总结本发明属于深度学习领域,具体涉及一种钢板切头尾时扩充钢板剪切掉落音频数据集的数据生成方法,用于头尾掉落状态的辨识。首先,通过Wavenet语音生成网络对获取到的少样本音频数据集进行膨胀卷积训练,并利用时间序列模型不断迭代生成预测音频数据集;同时,针对生成的未配对类型数据,利用CycleGan网络学习其数据分布并计算生成数据与预测数据之间的损失函数与相似度,生成与真实音频数据高度相似的音频波形数据集。本发明可有效解决钢板剪切掉落音频少样本的问题。落音频少样本的问题。落音频少样本的问题。
技术研发人员:张飞 史瑞 李艳姣 陈娇 郭强 任晓怀 宗胜悦 肖雄 李伟超 毕鹏飞
受保护的技术使用者:北京科技大学
技术研发日:2022.06.08
技术公布日:2022/11/1