1.本发明涉及深度学习与机器视觉等领域,尤其是涉及一种基于小波正则化与对抗训练的鲁棒图像分类方法、装置及存储介质。
背景技术:2.深度学习在过去十年里,取得了巨大应用上的成功,包括但不局限于计算机视觉、自然语言处理、语音识别、机器人等领域。然而,深度神经网络却很容易受到对抗样本的干扰:在计算机视觉中,攻击者对图像进行操纵,改变少量像素,图像语义并没有发生改变,识别图像的神经网络却会发生误分类。对抗样本问题的存在,对当前人工智能应用的可信赖性,提出了巨大的挑战。
3.为了防御对抗攻击,研究人员们提出了对抗训练的方法。这是一种基于博弈的深度学习训练框架,由一个内部问题和一个外部问题所构成。在内部问题中,攻击者用pgd方法(也可以是其他的攻击方法)生成有对抗扰动的训练数据,扰动越大越好;在外部问题中,防御模型进行鲁棒优化,需要实现经验风险最小化(empirical risk minimization,erm)。
4.由于一般神经网络的参数量比较大,在实现erm的同时,还需要实现结构风险最小化(structural risk minimization,srm)。研究与开发人员需要加上一些正则化项,限制可行解的空间。当前,多数的对抗训练的正则化方法都是在时域上进行的。对抗扰动可以被看作一种高频噪声,但是,现有技术并没有从频率原则(frequency principle)角度去解决正则化问题。
技术实现要素:5.本发明的目的就是为了提供一种基于小波正则化与对抗训练的鲁棒图像分类方法、装置及存储介质,提高图像分类器在对抗扰动下的鲁棒性。
6.本发明的目的可以通过以下技术方案来实现:
7.一种基于小波正则化与对抗训练的鲁棒图像分类方法,包括以下步骤:
8.步骤1)获取待分类图像数据;
9.步骤2)对待分类图像数据进行数据增强;
10.步骤3)建立基于小波正则化与对抗训练的鲁棒视觉分类模型,所述鲁棒视觉分类模型包括依次连接的卷积模块、3层残差模块、激活模块、小波平均池化模块、平均池化模块、全连接层和分类判别器,其中,所述小波平均池化模块执行基于频域的小波平均池化,包括以下步骤:
11.确定小波基函数和小波基的尺度函数的连续形式,
12.分别对小波基函数和小波基的尺度函数进行离散化得到离散形式,
13.基于快速小波变换确定小波基函数和小波基的尺度函数的尺度关系式,
14.基于尺度关系式确定逼近信息、水平细节、垂直细节、对角细节,进而确定小波平均池化参数,
15.基于小波平均池化参数进行小波平均池化;
16.步骤4)鲁棒视觉分类模型参数初始化;
17.步骤5)加载经过数据增强的待分类图像数据,并进行归一化处理;
18.步骤6)基于预配置的采样间隔对图像进行采样得到多个批次的图像数据;
19.步骤7)针对每一批次的图像数据,基于pgd攻击方法进行攻击,生成对抗样本;
20.步骤8)计算当前批次的损失函数,并进行反向传播,完成一次最大-最小的对抗训练的优化过程,更新鲁棒视觉分类模型的参数;
21.步骤9)统计训练历次并判断训练历次是否达到预配置次数,若是,则输出鲁棒视觉分类模型的最佳参数,完成训练,若否,则重新执行步骤6)-步骤9);
22.步骤10)基于训练完成的鲁棒视觉分类模型实现图像分类。
23.所述小波基函数的连续形式为:
[0024][0025]
所述小波基的尺度函数的连续形式为:
[0026][0027]
其中,f(x,y)为待分类图像,所述待分类图像的尺寸为m
×
n,m、n表示图像像素坐标位置,i为小波的方向系数,j为小波的尺度系数。
[0028]
所述小波基函数的离散形式为:
[0029][0030]
所述小波基的尺度函数的离散形式为:
[0031][0032]
所述小波基函数的尺度关系式为:
[0033]wψ
[j+1,k]=h
ψ
[-n]*w
ψ
[j,n]|
n=2k,k≤0
[0034]
所述小波基的尺度函数的尺度关系式为:
[0035][0036]
其中,h[-n]为小波基的滤波器函数。
[0037]
所述小波基函数为haar函数。
[0038]
所述小波平均池化参数为:
[0039]wwvltvrgpoig
=(w
ll
+w
lh
+w
hl
+w
hh
)
·
0.25
[0040]
其中,w
wvltvrgpoig
为小波平均池化参数,w
ll
为逼近信息,w
lh
为水平细节,w
hl
为垂直细节,w
hh
为对角细节。
[0041]
所述pgd攻击方法的攻击方式为:
[0042][0043]
其中,为原始样本,为对抗样本,系数实现截断操作,y为数据标签,θ为鲁棒视觉分类模型的参数,l为损失函数,sign为符号函数,proj为投影函数。
[0044]
所述损失函数为:
[0045][0046]
其中,x为图像特征,δ为满足约束的对抗扰动,x+δ为生成的对抗样本,y为数据标签,θ为鲁棒视觉分类模型的参数,d为数据分布,l为损失函数。
[0047]
一种基于小波正则化与对抗训练的鲁棒图像分类装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上述所述的方法。
[0048]
一种存储介质,其上存储有程序,所述程序被执行时实现如上述所述的方法。
[0049]
与现有技术相比,本发明具有以下有益效果:
[0050]
(1)本发明采用基于频域的小波平均池化方法实现小波正则化,针对对抗扰动是一种高频现象这一事实,可以提取更细节的图像特征,有助于提升图像分类器在对抗扰动下的鲁棒性。
[0051]
(2)通过小波基函数的伸缩与平移,本发明可以实现时空局部性和多分辨率分析特性。
[0052]
(3)本发明无论在有扰动情况下还是在无扰动情况下,识别精度都较高,适用范围广。
附图说明
[0053]
图1为本发明的方法流程图;
[0054]
图2为本发明的鲁棒视觉分类模型结构示意图;
[0055]
图3为快速小波变换示意图;
[0056]
图4为快速小波变换效果图,其中,(a)为逼近信息,(b)为水平细节,(c)为垂直细节,(d)为对角细节,(e)为原始图像。
具体实施方式
[0057]
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0058]
一种基于小波正则化与对抗训练的鲁棒图像分类方法,如图1所示,包括以下步骤:
[0059]
步骤1)获取待分类图像数据;
[0060]
步骤2)对待分类图像数据进行数据增强;
[0061]
所述数据增强包括裁剪、旋转、曝光。
[0062]
步骤3)建立基于小波正则化与对抗训练的鲁棒视觉分类模型;
[0063]
所述鲁棒视觉分类模型包括依次连接的卷积模块、3层残差模块、激活模块、小波平均池化模块、平均池化模块、全连接层和分类判别器,如图2所示。
[0064]
其中,所述小波平均池化(wavelet average pooling)模块基于二维离散小波变换,执行基于频域的小波平均池化,包括以下步骤:
[0065]
确定小波基函数和小波基的尺度函数的连续形式,
[0066]
分别对小波基函数和小波基的尺度函数进行离散化得到离散形式,
[0067]
基于快速小波变换确定小波基函数和小波基的尺度函数的尺度关系式,
[0068]
基于尺度关系式确定逼近信息、水平细节、垂直细节、对角细节,进而确定小波平均池化参数,
[0069]
基于小波平均池化参数进行小波平均池化。
[0070]
假设有图像f(x,y),尺寸为m
×
n,m、n表述图像像素坐标位置,i为小波的方向系数,j为小波的尺度系数,有小波基函数ψ与小波尺度函数其连续形式如下:
[0071][0072][0073]
进一步得到离散形式:
[0074][0075][0076]
在实际工程中,基于快速小波变换,得到j和j+1尺度关系式:
[0077][0078][0079]
其中,h[-n]为小波基的滤波器函数。
[0080]
快速小波变换(fast wavlet transform)的矩阵块示意图如图3所示。
[0081]
小波平均池化参数为:
[0082]wwvltvrgpoig
=(w
ll
+w
lh
+w
hl
+w
hh
)
·
0.25
[0083]
其中,w
ll
、w
lh
、w
hl
以及w
hh
分别对应逼近信息(approximation)、水平细节(horizontal detail)、垂直细节(vertical detail)以及对角细节(diagonal detail)。基于快速小波变换对图像进行处理的效果图如图4所示。
[0084]
基于如上述小波平均池化方法构建的隐藏层嵌入图2的模型,形成宽小波残差神经网络模型(即鲁棒视觉分类模型),用于进行对抗训练。
[0085]
本实施例采用的小波基函数为haar函数:
[0086][0087]
haar小波基的尺度函数为:
[0088][0089]
haar小波基的滤波器函数为:
[0090][0091]
可进一步将haar小波基函数写成如下的形式:
[0092][0093]
在图像科学中,小波的应用可以帮助实现图像信号的能量集中化处理,控制子信号的干扰,小波的性质也符合人类视觉系统的对数特征。haar小波因其简洁明了的特性,是所有小波算子中间最常用的一种。
[0094]
步骤4)随机对鲁棒视觉分类模型参数θ初始化;
[0095]
步骤5)加载经过数据增强的待分类图像数据,并进行归一化处理;
[0096]
步骤6)基于预配置的采样间隔对图像进行采样得到多个批次的图像数据;
[0097]
步骤7)针对每一批次的图像数据,基于pgd攻击方法进行攻击,生成对抗样本;
[0098]
所述pgd攻击方法的攻击方式为:
[0099][0100]
其中,为原始样本,为对抗样本,系数实现截断操作,y为数据标签,θ为鲁棒视觉分类模型的参数,l为损失函数,sign为符号函数,proj为投影函数,用于保证输入的每个维度被投影在一个有效的范围内(即[0,1])。设定一定的迭代步数(10步),得到最后的对抗样本
[0101]
步骤8)计算当前批次的损失函数,并进行反向传播,完成一次最大-最小的对抗训练的优化过程,更新鲁棒视觉分类模型的参数θ;
[0102]
基于小波正则化思想构造的宽小波残差神经网络模型进行对抗训练,算法的优化过程基于博弈思想,它由一个内部问题及一个外部问题构成,内部问题需要产生对抗扰动且对抗扰动越大越好,外部问题需要在对抗扰动的基础上实现经验风险最小化。因此,损失函数为
[0103][0104]
其中,x为图像特征,δ为满足约束的对抗扰动,x+δ为生成的对抗样本,生成的对抗扰动对人眼几乎不可见,y为数据标签,θ为鲁棒视觉分类模型的参数,d为数据分布,l为损失函数。当内层达到最优的时候,可以证明在对抗训练内部问题上的最优解近似为外部问题的最优解。
[0105]
步骤9)统计训练历次并判断训练历次是否达到预配置次数,若是,则输出鲁棒视
觉分类模型的最佳参数,完成训练,若否,则重新执行步骤6)-步骤9);
[0106]
步骤10)基于训练完成的鲁棒视觉分类模型实现图像分类。
[0107]
除频域上的小波平均池化的方法外,本实施例还采用其他时域上的正则化方法,包括早停止(early stopping)以及权重衰减(weight decay)。
[0108]
所述鲁棒视觉分类模型实现的伪代码如下所示:
[0109][0110]
在本实施例中,扰动预算设置为ε=0.031,这是之前大多数工作中的一般设置。训练中采用10步pgd迭代攻击方法,验证中采用20步pgd迭代攻击方法。训练的批尺度为128,权重衰减系数为5
×
10-5
,在阶梯式学习率变化的策略下(前100个历次为0.1,101-105个历次为0.01,105-110个历次为0.001),训练110个历次,优化方法为随机梯度下降(stochastic gradient descent,sgd)。
[0111]
在加载图像数据时,根据卷积神经网络的规模进行适配,在本实施例中,图像尺寸为32
×
32,进行裁剪、旋转、曝光等数据增强工作。
[0112]
经历110个历次训练之后,存取鲁棒视觉分类模型的最佳参数,进行鲁棒图像分类实验,验证所述模型在干净样本、fgsm对抗样本、pgd对抗样本、mim对抗样本以及c&w对抗样本上的测试精度。
[0113]
除了前述训练中采取的pgd攻击方法外,还进行:
[0114]
①
快速符号梯度下降(fast gradient sign method,fgsm)攻击方法设置情形下的测试精读验证:
[0115][0116]
②
动量迭代方法(momentum interative method,mim)攻击方法下设置情形的测试精度验证:
[0117]
[0118][0119]
其中g
t
以及g
t+1
为累积的动量值,μ为衰减系数,ε为扰动约束,t为迭代次数。
[0120]
该攻击方法类似pgd攻击方法,该方法会在梯度下降过程进行动量迭代,逃出局部鞍点。
[0121]
③
c&w攻击下设置情形的测试精度验证:
[0122]
该攻击认为距离度量不是完全可微的,标准梯度下降法也不能很好地解决这一问题。优化目标的形式为:
[0123]
minimizec
·
f(x+δ)+|δ|
∞
[0124]
由于梯度下降产生的结果很差,可以使用迭代攻击来解决这个问题:
[0125][0126]
每次迭代后,对于任何的扰动δ,如果所有的i,有δi<τ,可以将τ值减少为0.9;否则,终止搜索。在这一攻击框架中,c和τ代表攻击的系数。
[0127]
表1、表2为本发明在中等类别图像分类以及大类别图像分类数据集上无扰动与不同对抗扰动攻击情形下的识别精度。
[0128]
cifar十分类图像数据集上的测试结果如表1所示。
[0129]
表1 cifar十分类图像数据集测试结果
[0130][0131]
cifar百分类图像数据集上的测试结果如表2所示。
[0132]
表2 cifar一百分类图像数据集测试结果
[0133][0134][0135]
基于表1和表2,可以得出本发明所提出的方法在无扰动和有扰动的情况下均具有较为不错的识别精度。
[0136]
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0137]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案,皆应在权利要求书所确定的保护范围内。
技术特征:1.一种基于小波正则化与对抗训练的鲁棒图像分类方法,其特征在于,包括以下步骤:步骤1)获取待分类图像数据;步骤2)对待分类图像数据进行数据增强;步骤3)建立基于小波正则化与对抗训练的鲁棒视觉分类模型,所述鲁棒视觉分类模型包括依次连接的卷积模块、3层残差模块、激活模块、小波平均池化模块、平均池化模块、全连接层和分类判别器,其中,所述小波平均池化模块执行基于频域的小波平均池化,包括以下步骤:确定小波基函数和小波基的尺度函数的连续形式,分别对小波基函数和小波基的尺度函数进行离散化得到离散形式,基于快速小波变换确定小波基函数和小波基的尺度函数的尺度关系式,基于尺度关系式确定逼近信息、水平细节、垂直细节、对角细节,进而确定小波平均池化参数,基于小波平均池化参数进行小波平均池化;步骤4)鲁棒视觉分类模型参数初始化;步骤5)加载经过数据增强的待分类图像数据,并进行归一化处理;步骤6)基于预配置的采样间隔对图像进行采样得到多个批次的图像数据;步骤7)针对每一批次的图像数据,基于pgd攻击方法进行攻击,生成对抗样本;步骤8)计算当前批次的损失函数,并进行反向传播,完成一次最大-最小的对抗训练的优化过程,更新鲁棒视觉分类模型的参数;步骤9)统计训练历次并判断训练历次是否达到预配置次数,若是,则输出鲁棒视觉分类模型的最佳参数,完成训练,若否,则重新执行步骤6)-步骤9);步骤10)基于训练完成的鲁棒视觉分类模型实现图像分类。2.根据权利要求1所述的一种基于小波正则化与对抗训练的鲁棒图像分类方法,其特征在于,所述小波基函数的连续形式为:所述小波基的尺度函数的连续形式为:其中,f(x,y)为待分类图像,所述待分类图像的尺寸为m
×
n,m、n表示图像像素坐标位置,i为小波的方向系数,j为小波的尺度系数。3.根据权利要求2所述的一种基于小波正则化与对抗训练的鲁棒图像分类方法,其特征在于,所述小波基函数的离散形式为:所述小波基的尺度函数的离散形式为:
4.根据权利要求3所述的一种基于小波正则化与对抗训练的鲁棒图像分类方法,其特征在于,所述小波基函数的尺度关系式为:w
ψ
[j+1,k]=h
ψ
[-n]*w
ψ
[j,n]|
n=2k,k≤0
所述小波基的尺度函数的尺度关系式为:其中,h[-n]为小波基的滤波器函数。5.根据权利要求1所述的一种基于小波正则化与对抗训练的鲁棒图像分类方法,其特征在于,所述小波基函数为haar函数。6.根据权利要求1所述的一种基于小波正则化与对抗训练的鲁棒图像分类方法,其特征在于,所述小波平均池化参数为:w
wvltvrgpoig
=(w
ll
+w
lh
+w
hl
+w
hh
)
·
0.25其中,w
wvltvrgpoig
为小波平均池化参数,w
ll
为逼近信息,w
lh
为水平细节,w
hl
为垂直细节,w
hh
为对角细节。7.根据权利要求1所述的一种基于小波正则化与对抗训练的鲁棒图像分类方法,其特征在于,所述pgd攻击方法的攻击方式为:其中,为原始样本,为对抗样本,系数实现截断操作,y为数据标签,θ为鲁棒视觉分类模型的参数,l为损失函数,sign为符号函数,proj为投影函数。8.根据权利要求1所述的一种基于小波正则化与对抗训练的鲁棒图像分类方法,其特征在于,所述损失函数为:其中,x为图像特征,δ为满足约束的对抗扰动,x+δ为生成的对抗样本,y为数据标签,θ为鲁棒视觉分类模型的参数,d为数据分布,l为损失函数。9.一种基于小波正则化与对抗训练的鲁棒图像分类装置,包括存储器、处理器,以及存储于所述存储器中的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。10.一种存储介质,其上存储有程序,其特征在于,所述程序被执行时实现如权利要求1-8中任一所述的方法。
技术总结本发明涉及一种基于小波正则化与对抗训练的鲁棒图像分类方法、装置及存储介质,其中方法包括:获取待分类图像数据;数据增强;建立基于小波正则化与对抗训练的鲁棒视觉分类模型,所述模型包括基于频域的小波平均池化模块;模型参数初始化;加载图像数据,并进行归一化处理;采样得到多个批次的图像数据;针对每一批次的图像数据,基于PGD攻击方法进行攻击,生成对抗样本;计算损失函数,并进行反向传播,更新模型的参数;统计训练历次并判断训练历次是否达到预配置次数,若是,则输出鲁棒视觉分类模型的最佳参数,完成训练,并基于训练完成的模型实现图像分类。与现有技术相比,本发明提高了图像分类器在对抗扰动下的鲁棒性。提高了图像分类器在对抗扰动下的鲁棒性。提高了图像分类器在对抗扰动下的鲁棒性。
技术研发人员:严俊 尹慧琳 邓潇阳
受保护的技术使用者:同济大学
技术研发日:2022.07.13
技术公布日:2022/11/1