基于特征原型投影的类间相似性知识蒸馏方法与模型与流程

专利2024-07-25  61



1.本发明涉及浮游生物识别和知识蒸馏领域,具体涉及一种基于特征原型投影的浮游生物类间相似性知识蒸馏方法与相关的网络模型。


背景技术:

2.参数量较大的神经网络模型一般能达到更高的识别精度,但在大多数工业应用场景中,由于受到计算资源和资金成本的限制,大模型很难部署应用在普通的硬件设备中。而小模型的参数量少,推理速度快,比大模型更适合用于工程部署,但小模型的识别精度相对较低。知识蒸馏是一种提高小模型识别精度的有效方法,其核心思想是在数据集上训练好“教师”网络(通常是识别性能更好的大模型)后,将其学到的信息作为期望知识提取至“学生”网络,帮助小模型提高识别精度。如图1所示为知识蒸馏方法的通用框架图,知识蒸馏方法主要包括中间层特征或特征间关系蒸馏和分类概率蒸馏。
3.基于分类概率分布的知识蒸馏方法(kd):hinton等人在文献“hinton g,vinyals o,dean j.distilling the knowledge in a neural network[j].computer science,2015,14(7):38-39”中提出基于概率分布输出的知识蒸馏方法,使用“教师”网络分类层输出的分类概率zi作为软标签,并使用退火温度系数τ来平滑概率分布,然后使用kl散度计算zi经过平滑后的结果与“学生”网络分类层输出的概率分布νi经过平滑后的结果之间的差异作为损失函数之一,式(1)。除此以外,还需结合常规的硬标签,即计算“学生”网络输出的分类概率νi与真实标签之间的ce交叉熵损失,两个损失的加权和作为总损失函数,式(2)。该方法涉及两个超参数:退火温度系数τ和软硬标签的比例系数α,在蒸馏实验中,需要针对不同的情况调节参数来使网络达到较好的效果。同的情况调节参数来使网络达到较好的效果。由于该方法的权重α以及温度系数τ是需要人为选择的,具有较大的主观性,因此蒸馏性能易受主观影响并最终影响“学生”网络的识别精度。
[0004]
基于中间层特征的知识蒸馏方法(fitnet):romero等人在文献“romero a,ballas n,kahou s e,et al.fitnets:hints for thin deep nets[c]//in international conference on learning representations,2015.iclr2015”中提出了对网络中间层的特征图进行蒸馏,该方法以“教师”网络的中间层特征作为期望知识。但是,由于“教师”特征的维度与“学生”特征的维度不同,需要将“学生”特征映射到与“教师”特征维度一致的空间中,得到新的“学生”特征;并且,该方法的总损失函数也需要交叉熵损失函数ce的参与,其总损失函数为由此可见该方法也需要人为选定权重α,因此训练过程仍然
受到人为因素的影响。
[0005]
基于个体特征间相似度的知识蒸馏方法(sp):tung等人在文献“tung f,mori g.similarity-preserving knowledge distillation[c]//international conference on computer vision,2019.iccv2019”中,认为不同的输入序列经过网络编码后,其特征之间的相似性无论是在“教师”网络特征空间还是在“学生”网络特征空间应该保持一致性,因此提出基于个体特征间相似性的蒸馏方法来引导网络去学习“教师”空间的特征之间的相似度,该方法的好处就是不需要将“学生”网络的特征映射到与“教师”网络特征维度一致的空间中。但是该方法的总损失函数也需要交叉熵损失函数ce的参与,其总损失函数为由此可见该方法也需要人为选定权重α,因此训练过程仍然受到人为因素的影响。
[0006]
由于浮游生物的原位监测需要实现数据的实时处理,故目标识别的算法需要兼顾准确性和实时性,因此这要求目标识别部分使用的神经网络模型既要识别精度高又要轻量化。


技术实现要素:

[0007]
鉴于此,本发明提出了基于特征原型投影的类间相似性知识蒸馏方法ppd(prototypes projection distillation),将“教师”模型在浮游生物样本上学到的类内和类间相似性信息提取并迁移至参数量更小、推理速度更快的“学生”模型中,以提升“学生”模型的识别精度。
[0008]
一种基于特征原型投影的类间相似性知识蒸馏方法,包括如下步骤:s1、将教师网络编码的类内特征的加权平均值经过l2范数标准化后作为特征原型;s2、使用特征原型分别对教师特征和学生特征进行投影映射计算,对应得到教师特征的类间余弦相似度和学生特征的类间余弦相似度;s3、以教师特征的类间余弦相似度作为期望知识,构建均方误差损失函数来进行知识蒸馏,引导学生网络学习类间相似性分布。
[0009]
进一步地,步骤s1具体包括:s11、使用教师网络对样本进行特征提取,提取出来的特征向量共同构成教师特征空间;s12、对所述教师特征空间内的每一个类别,进行类内特征求和并取平均值,得到相应类别的平均特征;s13、对相应类别的所述平均特征进行l2范数标准化,将向量归一化至[-1,1]范围内,得到相应类别的特征原型。
[0010]
进一步地,步骤s2具体包括:s21、将所有类别的特征原型按行拼接,得到特征原型矩阵;s22、分别使用教师网络和学生网络对样本进行特征提取,对应得到教师特征和学生特征;s23、将教师特征和学生特征经过l2范数标准化后进一步与特征原型矩阵进行内积运算的过程记为映射函数φ,教师特征和学生特征分别经过映射函数φ投影到类别空间,对应得到教师特征的类间余弦相似度和学生特征的类间余弦相似度。
[0011]
更进一步地,步骤s2还包括:将教师特征进行l2范数标准化后与特征原型做内积,得到教师特征与特征原型之间的余弦相似度;将学生特征进行l2范数标准化后与特征原型做内积,得到学生特征与特征原型之间的余弦相似度;根据教师特征与特征原型之间的余弦相似度以及学生特征与特征原型之间的余弦相似度的计算表达式定义所述映射函数φ。
[0012]
更进一步地,教师特征和学生特征分别经过映射函数φ投影到类别空间的步骤包括:
其中,φ(ti)、φ(si)分别代表教师特征的类间余弦相似度和学生特征的类间余弦相似度,ti、si分别为教师特征和学生特征,c
t
表示特征原型矩阵c的转置,t
i,j
表示教师特征向量ti中的第j个元素,s
i,j
表示学生特征向量si中的第j个元素;d是教师特征向量ti中的元素总个数,其等于学生特征向量si中的元素总个数。
[0013]
进一步地,步骤s3具体包括:计算φ(ti)和φ(si)之间的均方误差损失,并对学生网络进行梯度回传,更新学生网络的网络参数,引导学生网络学习个体样本在教师网络编码下与各个类别之间的相似度。
[0014]
更进一步地,所述均方误差损失函数为:其中,n为样本总数。
[0015]
本发明还提出一种基于特征原型投影的类间相似性知识蒸馏模型,包括:教师编码器、学生编码器、特征原型构建模块、教师特征映射模块、学生特征映射模块以及损失函数构建模块;所述教师编码器的输出以及所述特征原型构建模块的输出均连接至所述教师特征映射模块的输入,所述学生编码器的输出以及所述特征原型构建模块的输出均连接至所述学生特征映射模块的输入;所述教师特征映射模块的输出与所述学生特征映射模块的输出同时连接于所述损失函数构建模块的输入;所述教师编码器和所述学生编码器分别接收样本输入并进行特征提取,对应得到教师特征和学生特征;所述特征原型构建模块用于计算教师网络编码的类内特征的加权平均值并经过l2范数标准化后,以获得特征原型;所述教师特征映射模块用于利用特征原型对教师特征进行投影映射计算,得到教师特征的类间余弦相似度;所述学生特征映射模块用于利用特征原型对学生特征进行投影映射计算,得到学生特征的类间余弦相似度;所述损失函数构建模块用于以教师特征的类间余弦相似度作为期望知识,构建用于知识蒸馏的均方误差损失函数,以引导学生网络学习类间相似性分布。
[0016]
本发明另还提出一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时能实现前述方法的步骤。
[0017]
本发明技术方案的有益效果在于:利用特征原型为聚类中心,能够避免浮游生物分类训练集中被人工错误分类或是生物特征不清晰的样本数据影响网络的识别性能;并且只使用了一个类间相似性损失函数,无需额外增加分类概率损失计算,因而无需设置损失函数间的权重系数,避免手工调节权重系数而影响蒸馏性能。将教师网络在浮游生物样本上学到的类内和类间相似性信息提取并迁移至参数量更小、推理速度更快的学生网络中,通过对照实验验证了本发明方法相对于其他蒸馏方法能够带来最大幅度的识别性能提升,
保证系统应用的实时性和准确性。
附图说明
[0018]
图1为知识蒸馏方法的通用框架图。
[0019]
图2为南海浮游生物教师特征空间pca降维可视化效果图。
[0020]
图3为南海浮游生物个体特征与特征原型的类间相似度矩阵热图。
[0021]
图4为本发明实施例提出的基于特征原型投影的浮游生物类间相似性知识蒸馏方法的工作流程图。
具体实施方式
[0022]
下面结合附图和具体的实施方式对本发明作进一步说明。
[0023]

浮游生物监测设备上需要识别精度高的轻量化网络模型,但易于部署的轻量化模型由于参数量较少往往精度不高;

常用于提高轻量化模型识别精度的知识蒸馏方法往往需要人工设定损失函数间的权重系数,引入了过多主观因素;

训练集中人工错误分类的数据以及生物特征不清晰的数据会影响网络的识别性能。针对以上三方面的问题,本发明实施例提出了一种基于特征原型投影的浮游生物类间相似性知识蒸馏方法,使得用于部署的轻量化网络模型也能获得较高的准确度。
[0024]
图4是本发明实施例提出的基于特征原型投影的浮游生物类间相似性知识蒸馏方法(后续简称“ppd”方法)的工作流程图。如图4所示,本发明实施例的ppd方法包括:以教师网络(教师编码器)编码的类内特征的加权平均值经过l2范数标准化后作为特征原型,使用特征原型分别对教师特征和学生特征进行投影映射计算得到对应的类间余弦相似度,以教师的类间余弦相似度的矩阵作为期望知识,构建均方误差损失函数对知识进行蒸馏,引导学生网络学习类间相似性分布,从而提升学生网络的识别精度。这里损失函数起到了引导学生网络的作用,因为神经网络是以最小化损失函数为目标来指导模型进行参数优化,而本发明在学生网络的训练中引入了带有教师网络信息(教师网络给出的类间余弦相似度)的损失函数,学生网络能以最小化这个损失函数为目标不断地向教师网络靠近,即,尽量输出与教师网络的类间余弦相似度接近的结果,从而学习类间余弦相似度的分布。
[0025]
神经网络的工作可以理解为将数据样本空间χ映射至高维特征表达空间t。设定总共有n个样本、k个类别构成样本空间χ={x1,x2,...,xn},类别标签yi∈{1,2,...,k},每个类别包含有mk(k=1,2,

,k)个样本,即:类别标签为yi=1的类别包含m1个样本,类别标签为yi=2的类别包含m2个样本,依此类推,类别标签为yi=k的类别包含mk个样本,因此n=m1+m2+

+mk。神经网络的编码器对输入样本xi(i=1,2,

,n)进行处理得到对应的特征fi。样本空间内任意两个特征经过l2范数标准化后进行内积可得到余弦相似度σ,计算公式如式3.1所示:其中,σ
i,q
为任意两个样本xi和xq的余弦相似度。
[0026]
在分类任务中,理想情况下,不同类别的特征向量是正交的,即两个特征向量的余
弦相似度σ
i,q
=0(yi≠yq);相同类别的特征向量是同向的,即向量的余弦相似度σ
i,q
=1(yi=yq)。网络的目标是将不同类别的特征区分开来,也就是尽可能减小类间相似性,同时尽可能增大类内相似性。
[0027]
在特征空间中,同一类别的特征向量的相似性足够接近,不同类别特征向量之间的相似性足够远离,以同一类别特征向量的平均值作为数学期望特征来表征该类别,该平均特征经过l2范数标准化后被称之为该类别的特征原型。
[0028]
设定总共有n个样本构成样本空间其中共有k个类别,类别标签yi∈{1,2,...,k},(k=1,2,

,k)表示类别标签yi=k的样本所组成的教师样本子空间,教师样本子空间包含有mk个样本,n=m1+m2+

+mk。使用ce损失(交叉熵损失)对教师网络进行充分训练,得到教师编码器记为在数据标签充足的情况下,教师网络应该具有足够的区分特征类别的能力。因此,将经过教师编码器映射得到的特征在各个维度上分别加权取平均值,所得到的平均特征经过l2范数标准化后作为该类别的特征原型是符合统计学思想的。此外,以平均特征经过l2范数标准化后作为特征原型还有一个优点,就是可以避免个别离群值的干扰,减小噪声数据对分类性能的损伤。
[0029]
因为接下来的工作只需要将教师编码器作为一个特征提取器,不需要对其进行梯度回传更新操作,所以在特征提取阶段,将教师网络的参数固定住即可。使用教师编码器对所有样本进行特征提取(式3.2):其中,ti是指教师编码器提取出的样本特征,称为教师特征。提取出来的特征向量共同构成教师特征空间其中表示类别标签yi=k的特征所组成的类别特征子空间(此处右上角的t代表“教师”)。设定的特征数目为mk,对子空间内的所有特征求和取平均值,得到平均特征tk′
(式3.3),以tk′
作为的类别中心。
[0030]
对tk′
进行l2范数标准化,将向量归一化至[-1,1]范围内,得到相应的特征原型ck(式3.4):
[0031]
上式中t'
k,j
是指t'k向量中的第j个元素,d为t'k向量中总的元素个数。
[0032]
将所有类别的特征原型按行(矩阵的“行hang”)拼接,得到特征原型矩阵c(式3.5):c=concat((c1,c2,...,ck),dim=0)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3.5)
[0033]
将教师特征ti进行l2范数标准化后,与特征原型ck做内积,得到ti与ck的余弦相似
度(式3.6):
[0034]
学生编码器为样本xi经过学生编码器之后,得到学生特征si(式3.7):
[0035]
将学生特征si进行l2范数标准化后,与特征原型ck做内积,得到si与ck的余弦相似度(式3.8):
[0036]
基于上述教师特征ti与特征原型ck之间的余弦相似度以及学生特征si与特征原型ck之间的余弦相似度的计算表达式以及矩阵乘法可以得出:教师特征ti与所有特征原型c1~ck的余弦相似度可以用ti经过l2范数标准化后的结果与特征原型矩阵c进行点乘运算一次性得到,同样地,学生特征si与所有特征原型c1~ck的余弦相似度可以用si经过l2范数标准化后的结果与特征原型矩阵c进行点乘运算一次性得到,在此将“教师特征/学生特征经过l2范数标准化后的结果与特征原型矩阵c进行点乘运算一次性得到教师特征/学生特征与所有特征原型c1~ck的余弦相似度”的过程记为映射函数φ。教师特征ti和学生特征si分别经过映射函数φ投影到类别空间,得到相应的类间相似度φ(ti)(式3.9)和φ(si)(式3.10):)(式3.10):其中,φ(ti)、φ(si)分别代表教师特征的类间余弦相似度和学生特征的类间余弦相似度,c
t
表示特征原型矩阵c的转置,t
i,j
表示教师特征向量ti中的第j个元素,s
i,j
表示学生特征向量si中的第j个元素,d既是教师特征向量ti中的元素总个数,也是学生特征向量si中的元素总个数。
[0037]
计算φ(ti)和φ(si)之间的均方误差损失,并对学生网络进行梯度回传,更新网络参数,引导学生网络学习个体样本在教师网络编码下与各个类别之间的相似度。ppd(prototypes projection distillation)方法的均方误差损失函数表达式如3.11
所示:
[0038]
本发明实施例提出的方法可以用于浮游生物水下光学成像仪中目标识别模型的研发,使得模型的占用内存少、处理速度快,从而提升成像仪的实时性并可以降低对其硬件设备的要求。用于训练模型的数据集通常需要高精度,但是浮游生物形态各异,成像尺度跨越微米和厘米级别,且由于水下成像条件的影响其成像效果不会特别理想,因此人为制作数据集的过程难免会有错误分类的问题。而本发明对这种数据集中的“噪声数据”有较强的抵抗性,能很大程度上降低噪声对网络性能的损伤。因此,本发明对于含有一定噪声的数据集有很强的适用性。
[0039]
此外,本发明也可以引用于医疗领域有许多需要目标检测的场景,例如:肺小结节检测、眼底病变检测等,在开发专门的医疗仪器的过程中,实时性和精度肯定是重要指标,因此识别模型的精度和轻量化必然是研究重点之一。而本发明能在使网络轻量化的同时降低人工错误分类的数据对网络性能的影响,从而给网络带来最大幅度的性能提升,因而对其有一定的借鉴意义。
[0040]
下面通过一个具体的例子来验证本发明的有效性。
[0041]
对南海浮游生物样本空间经过教师网络编码后得到的教师特征空间t
(t)
,采用主成分分析方法(pca)将特征从1024维降低至2维,降维后的特征空间可视化效果如图2所示,可以看到,同一类别的特征基本都聚类在了一起,且类与类之间都有一定的距离,但也有个别的离群值,这些离群值大多是在人工建库时被错误分类的,或是生物特征不清晰的样本。五角星表示类内平均特征,每个类的平均特征都位于对应的聚类簇中心,因此以平均特征经过l2范数标准化后作为特征原型是符合数学期望的,避免了离群值的干扰,减少了噪声数据对网络分类性能的损伤。
[0042]
图3是浮游生物个体特征经过特征原型投影后的类间余弦相似度矩阵热图,左边的0-11代表分别从类别0-类别11中各抽取一张样本对应的特征,下边的0-11代表类别0-类别11的特征原型,热图上所有数字都表示个体特征与特征原型的类间相似度,例如第0行第1列的0.12就表示类别为0的个体特征与类别为1的特征原型的类间相似度。可以看到,个体特征与同类别的特征原型的相似度是最大的,与其他类的相似度较小,而这些相似度并不是呈绝对的0或1,实际上各类浮游生物在物理形态上也确实存在相似和相异的地方,因此比起普通分类训练使用0或1这样的硬标签,引导网络学习类间特征相似性这样的软标签更符合物理实际,也更能提升网络的识别和泛化性能。
[0043]
以南海浮游生物分类数据集(3万张样本,12种浮游生物类别)作为实验数据。选取swin-b(swin transformer base)作为教师网络,其在南海浮游生物数据集上的识别正确率达到了最高的94.34%,swin-b的参数量为87m,推理速度为每秒26张样本。由于每一类的特征原型都是通过将“教师”网络输出的类内特征经过加权平均后进行l2范数标准化得到的,所以其维度与“教师”网络的输出特征维度一致。而计算学生特征与特征原型的类间相似度时包含向量的内积运算,这就要求学生特征需与特征原型的维度一致,也就是需与“教师”网络的输出特征维度一致。本实验中分别选取5个不同参数量级和不同架构的深度神经网络模型作为学生网络。其中,shnetv2的输出特征维度与swin-b一致,因此不需要特别处
理,而其他“学生”网络输出的特征向量维度与swin-b不同,故为了完成“学生”个体特征与特征原型的相似度计算操作,需要将“学生”网络输出的特征投影至与“教师”网络输出的特征维度一致的空间,因此本实验中在其他四个“学生”网络中添加了一个多层感知机结构(mlp),即一层全连接层加一层gelu激活函数来完成维度转换。实验结果如表1所示。表1五种知识蒸馏方法对各网络浮游生物分类性能的对比
[0044]
以5种不同参数量级和架构的神经网络作为学生网络,分别对比本发明ppd方法与其他3种知识蒸馏方法对于浮游生物识别性能的提升效果。表1中,第一列ce表示采用标准的交叉熵损失函数进行分类训练的方法,没有使用知识蒸馏方法进行辅助训练,这里以ce训练所达到的识别正确率作为基线参照。本发明提出的方法在4种学生网络上的正确率提升幅度均达到最优或与其他蒸馏方法持平的效果。
[0045]
shnetv2(shufflenet v2)从92.35%提升至93.13%,超越了resnet50普通训练得到的93.02%,而其参数量仅为res50的二十分之一,推理速度是res50的四倍。swin-t(swin transformer tiny)从93.82%提升至94.21%,略低于“教师”网络swin-b,但它的参数量仅为swin-b的三分之一,推理速度是swin-b的三倍。由上述实验结果可知,本发明的方法能够利用大模型的知识提升小模型的识别性能,进而提升推理速度,降低模型的部署难度。
[0046]
此外,本发明的另一实施例还提出一种基于特征原型投影的类间相似性知识蒸馏模型,包括:教师编码器、学生编码器、特征原型构建模块、教师特征映射模块、学生特征映射模块以及损失函数构建模块。所述教师编码器的输出以及所述特征原型构建模块的输出均连接至所述教师特征映射模块的输入,所述学生编码器的输出以及所述特征原型构建模块的输出均连接至所述学生特征映射模块的输入;所述教师特征映射模块的输出与所述学生特征映射模块的输出同时连接于所述损失函数构建模块的输入;所述教师编码器和所述学生编码器分别接收样本输入并进行特征提取,对应得到教师特征和学生特征;所述特征原型构建模块用于计算教师网络编码的类内特征的加权平均值并经过l2范数标准化后,以
获得特征原型;所述教师特征映射模块用于利用特征原型对教师特征进行投影映射计算,得到教师特征的类间余弦相似度;所述学生特征映射模块用于利用特征原型对学生特征进行投影映射计算,得到学生特征的类间余弦相似度;所述损失函数构建模块用于以教师特征的类间余弦相似度作为期望知识,构建用于知识蒸馏的均方误差损失函数,以引导学生网络学习类间相似性分布。
[0047]
再者,本发明另一实施例还提出了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,能实现本发明前述实施例所述的基于特征原型投影的类间相似性知识蒸馏方法的步骤。本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0048]
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

技术特征:
1.一种基于特征原型投影的类间相似性知识蒸馏方法,其特征在于,包括如下步骤:s1、将教师网络编码的类内特征的加权平均值经过l2范数标准化后作为特征原型;s2、使用特征原型分别对教师特征和学生特征进行投影映射计算,对应得到教师特征的类间余弦相似度和学生特征的类间余弦相似度;s3、以教师特征的类间余弦相似度作为期望知识,构建均方误差损失函数来进行知识蒸馏,引导学生网络学习类间相似性分布。2.如权利要求1所述的知识蒸馏方法,其特征在于,步骤s1具体包括:s11、使用教师网络对样本进行特征提取,提取出来的特征向量共同构成教师特征空间;s12、对所述教师特征空间内的每一个类别,进行类内特征求和并取平均值,得到相应类别的平均特征;s13、对相应类别的所述平均特征进行l2范数标准化,将向量归一化至[-1,1]范围内,得到相应类别的特征原型。3.如权利要求2所述的知识蒸馏方法,其特征在于,步骤s2具体包括:s21、将所有类别的特征原型按行拼接,得到特征原型矩阵;s22、分别使用教师网络和学生网络对样本进行特征提取,对应得到教师特征和学生特征;s23、将教师特征和学生特征经过l2范数标准化后进一步与特征原型矩阵进行内积运算的过程记为映射函数φ,教师特征和学生特征分别经过映射函数φ投影到类别空间,对应得到教师特征的类间余弦相似度和学生特征的类间余弦相似度。4.如权利要求3所述的知识蒸馏方法,其特征在于,步骤s2还包括:将教师特征进行l2范数标准化后与特征原型做内积,得到教师特征与特征原型之间的余弦相似度;将学生特征进行l2范数标准化后与特征原型做内积,得到学生特征与特征原型之间的余弦相似度;根据教师特征与特征原型之间的余弦相似度以及学生特征与特征原型之间的余弦相似度的计算表达式定义所述映射函数φ。5.如权利要求3所述的知识蒸馏方法,其特征在于,教师特征和学生特征分别经过映射函数φ投影到类别空间的步骤包括:函数φ投影到类别空间的步骤包括:其中,φ(t
i
)、φ(s
i
)分别代表教师特征的类间余弦相似度和学生特征的类间余弦相似度,t
i
、s
i
分别为教师特征和学生特征,c
t
表示特征原型矩阵c的转置,t
i,j
表示教师特征向量t
i
中的第j个元素,s
i,j
表示学生特征向量s
i
中的第j个元素;d是教师特征向量t
i
中的元素总
个数,其等于学生特征向量s
i
中的元素总个数。6.如权利要求5所述的知识蒸馏方法,其特征在于,步骤s3具体包括:计算φ(t
i
)和φ(s
i
)之间的均方误差损失,并对学生网络进行梯度回传,更新学生网络的网络参数,引导学生网络学习个体样本在教师网络编码下与各个类别之间的相似度。7.如权利要求6所述的知识蒸馏方法,其特征在于,所述均方误差损失函数为:其中,n为样本总数。8.一种基于特征原型投影的类间相似性知识蒸馏模型,其特征在于,包括:教师编码器、学生编码器、特征原型构建模块、教师特征映射模块、学生特征映射模块以及损失函数构建模块;所述教师编码器的输出以及所述特征原型构建模块的输出均连接至所述教师特征映射模块的输入,所述学生编码器的输出以及所述特征原型构建模块的输出均连接至所述学生特征映射模块的输入;所述教师特征映射模块的输出与所述学生特征映射模块的输出同时连接于所述损失函数构建模块的输入;所述教师编码器和所述学生编码器分别接收样本输入并进行特征提取,对应得到教师特征和学生特征;所述特征原型构建模块用于计算教师网络编码的类内特征的加权平均值并经过l2范数标准化后,以获得特征原型;所述教师特征映射模块用于利用特征原型对教师特征进行投影映射计算,得到教师特征的类间余弦相似度;所述学生特征映射模块用于利用特征原型对学生特征进行投影映射计算,得到学生特征的类间余弦相似度;所述损失函数构建模块用于以教师特征的类间余弦相似度作为期望知识,构建用于知识蒸馏的均方误差损失函数,以引导学生网络学习类间相似性分布。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时能实现权利要求1-7任一项所述方法的步骤。

技术总结
本发明公开了基于特征原型投影的类间相似性知识蒸馏方法与模型,该方法包括:将教师网络编码的类内特征的加权平均值经过L2范数标准化后作为特征原型;使用特征原型分别对教师特征和学生特征进行投影映射计算,对应得到教师特征的类间余弦相似度和学生特征的类间余弦相似度;以教师特征的类间余弦相似度作为期望知识,构建均方误差损失函数来进行知识蒸馏,引导学生网络学习类间相似性分布。该方法相对于其他蒸馏方法能够带来最大幅度的识别性能提升,保证系统应用的实时性和准确性。保证系统应用的实时性和准确性。保证系统应用的实时性和准确性。


技术研发人员:程雪岷 龙玉璞 陈振帅 毕洪生 蔡中华 应轲臻
受保护的技术使用者:深圳市绿洲光生物技术有限公司
技术研发日:2022.07.07
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-8962.html

最新回复(0)