1.本发明属于计算机视觉、人工智能领域,涉及一种基于视觉的物体可用性少样本分类方法。
背景技术:2.目前,计算机视觉领域有很多关于功能可用性方面的研究,主要分为两大类:基于像素级别的可用性检测、基于物体级别的可用性分类。前者的工作侧重于预测图像像素级的标签,主要基于图像语义分割模型;后者侧重于预测物体级的功能可用性标签,本发明属于后者。
3.早期,farhadi a等人
1.提出用属性来描述对象,t.hermans等人
2.认为物理属性和视觉属性提供了一个更合适的中级表征,功能可用性更可能与物体的属性相关。y.sun等人
3.提出了一种新方法,使智能机器人从人类演示中学习对象的交互功能。y.zhu等人
4.使用了知识库表示来对物体的可用性进行推理,使用3种属性(视觉、物体、类别)并将其作为中间表示,在物体间进行知识迁移,从而预测没见过物体的功能可用性,缺点是它的泛化性能不高。varadarajan和vincze等人
5.提出了深度学习和暗示激活(pdlsa)的混合并行架构,以克服深度学习和单模态和序列化等问题,根据功能可用性的特征对对象进行分类。给定了基本的功能可用性,ugur等人
6.提出了一种bootstrapping方法,通过关系可用性或所谓的配对对象可用性来学习复杂的功能可用性。他们用一个真正的机器人,对各种形状的物体进行评估,比如盒子、球体和圆柱体。此外,他们还训练机器人执行侧戳和堆叠等动作。m.hjelm等人
7.将这定义为一个简单的分类问题,为一整张图片预测一个功能可用性类别。zheng,x等人
8.的工作则是提出了一种基于深度卷积神经网络的高级目标可用性检测方法,将物体检测出来再将它分类为一个可用性类别。深度学习的发展突飞猛进,但是以上这些关于物体可用性分类的方法中很少有使用特征提取的方法,这是因为深度学习算法依赖大量的标注的数据,而目前没有专门为物体功能可用性使用的大型标注数据集。
4.少样本分类模型可以只用少量标记的训练数据对新的图像类别进行分类,解决了因训练数据过少而出现的过拟合现象。现有的少样本分类方法有两个主要分支:基于优化的方法、基于度量的方法。基于优化的方法的目标是将模型参数有效地适应少样本状态下的新任务;本发明的方法与基于度量的方法更相关,通过在特征空间中适当的表示样本,并用距离度量来区分不同类别的数据。基于度量学习的方法主要依赖于学习一个相似度度量,代表性工作孪生网络
9.、匹配网络
10.、原型网络
11.和关系网络
12.。具体来说,为了将基于度量的方法引入到少样本学习中,g koch等人
9.最初利用siamese神经网络来学习强大的判别表示,然后将它们推广到看不见的类中。这是第一个引入了距离度量方式来解决少样本分类问题的方法,但是该方法具有很大的局限性,它对于两个图像之间的位置差异和颜色差异非常敏感,解决这个问题的办法是利用更深层的卷积神经网络来使提取特征更加抽象。为此,o.vinyals等人
10.将episode训练机制引入到少样本学习中,提出了将注意力和记忆结合起来的匹配网络,它采用带有注意力和记忆模块的深层神经网络,将样本的特
征信息映射到更高维、更抽象的特征空间中。该方法分类较好,迁移能力强大,但是,受非参量化算法的限制,随着支持集的增大,每次迭代的计算量也会随之快速增长,导致计算速度降低。在此基础上,j.snell等人
11.提出了一个原型网络,以每个类的均值作为其对应的原型表示来学习度量空间。采用平方欧式距离作为距离度量方式,取代了常用的余弦函数,使原型网络在多个数据集上表现优异。但它的神经网络结构过于简单,无法保证提取的特征信息足够抽象。考虑到查询图像和类图像之间的关系,与人为设置的度量方式不同,sung等人提出了一种关系网络
12.,完全通过神经网络来学习度量,并使用元学习的训练方式,在多个数据集上取得了不错的成绩。li等人
13.提出了深度最近邻网络,与其他基于度量学习的方式不同,通过比较图像与类别之间的局部描述子,来寻找与输入图像最接近的类别。hou等人
14.发现支持图像和查询图像之间的注意经常不一致,所以使用一个交叉注意模块来缓解这个问题,提出了一个名为交叉注意网络的模型。除此之外,还有采用自注意力机制的hui
15.提出的自注意关系网络(sarn),该网络能够发现非局部信息,并允许远程依赖。不同于之前的将整张图片映射到一个特征空间,zhang
16.等提出的deepemd少样本算法则是将图片拆分成多个图块,然后引入一种新的度量方式陆地移动距离来表示支持集图像与查询集图像的相似程度。近几年,还有很多模型和方法被提出以解决少样本学习问题,比如zhao
17.提出了一种新的领域对抗原型网络(dapn)模型,hong
18.提出了在骨干网中装备一个注意力代理,并通过强化学习训练注意力代理。
5.关系网络是一个典型的少样本分类模型,但是对于物体可用性图片的分类作用有限。原因有两个,一是关系网络的特征提取器提取的特征可能会丢失一些我们需要的细节信息,二是关系网络是将输入网络的图片整体进行比较,对于物体可用性分类并不十分有效,我们需要网络更加关注类别中相似特征的区域。
6.常用的图像信息表示多采用神经网络提取图像特征,由此得到的特征具有高级的语义信息但同时还存在细节不足的问题,因此在物体可用性类别分类问题上表现欠缺。
技术实现要素:7.为了解决上述问题,本发明提供本发明采用的技术方案是:
8.一种基于视觉的物体可用性少样本分类方法,包括以下步骤:
9.构建用于物体可用性分类的数据集;
10.对数据集进行预处理,得到预处理后的数据集;
11.将预处理后的数据集划分为类别互斥的训练集、验证集和测试集;
12.构建可用性少样本分类模型;
13.将训练集数据输入到可用性少样本分类模型中,对可用性少样本分类模型进行训练,得到训练好的可用性少样本分类模型;
14.将测试集数据输入到训练好的可用性少样本分类模型中,得到物体可用性少样本的分类。
15.进一步地:所述可用性少样本分类模型包括多尺度特征提取模块、基于自注意力的双重注意力模块和相关性模块;
16.所述多尺度特征提取模块用于对样本特征进行提取;
17.所述基于自注意力的双重注意力模块包括位置注意子模块和通道注意子模块;
18.所述位置注意子模块对提取后的样本特征采用自注意力,通过所有位置处的特征加权和来选择性地聚合每个位置的特征,使类似的特征彼此相关,得到样本位置特征;
19.所述通道注意子模块分别通过整合所有通道映射之间的相关特性来选择性地强调相互依赖的通道映射,进而得到样本通道特征;
20.将样本位置特征与样本通道特征进行相加,得到相加后特征图;
21.将相加后的特征图输入到相关性模块中,得到样本图片的相似度。
22.进一步地:所述预处理指将数据集里图片尺寸统一到448
×
448。
23.进一步地:所述多尺度特征提取模块采用基于深度学习的多尺度特征融合卷积神经网络进行特征提取,去除与分类任务高度相关的全连接层,输出为图像特征。
24.进一步地:所述多尺度特征提取模块采用基于深度学习的多尺度特征融合卷积神经网络进行特征提取,去除与分类任务高度相关的全连接层,输出为图像特征的过程如下:
25.对输入的图像通过第一卷积层进行卷积操作,即对输入的图像进行批归一化、非线性激活函数relu以及最大池化操作,输出卷积操作后得图片;
26.卷积操作后得图片分别依次通过第一残差层、第二残差层、第三残差层和第四残差层,得到三个不同阶段输出的不同尺度特征图像;
27.三个不同阶段输出的不同尺度特征图像按照自顶向下的顺序进行融合,得到得是融合后特征。
28.进一步地:所述第一残差层、第二残差层、第三残差层和第四残差层均包括:两个基本块模块,对于每个残差层的基本块,都是将输入经过两次的3
×
3卷积、批归一化和非线性激活函数操作后与输入进行跳跃连接,再通过非线性激活函数relu得到每个基本块的输出。
29.进一步地:所述第一残差层有64个滤波器、第二残差层有128个滤波器、第三残差层有256个滤波器和第四残差层有512个滤波器。
30.一种基于视觉的物体可用性少样本分类装置,包括:
31.构建模块i:用于构建用于物体可用性分类的数据集;
32.预处理模块:用于对数据集进行预处理,得到预处理后的数据集;将预处理后的数据集划分为类别互斥的训练集、验证集和测试集
33.构建模块ii:用于构建可用性少样本分类模型;
34.训练模块:用于将训练集数据输入到可用性少样本分类模型中,对可用性少样本分类模型进行训练,得到训练好的可用性少样本分类模型;
35.分类模块,用于将测试集数据输入到训练好的可用性少样本分类模型中,得到物体可用性少样本的分类。
36.一种计算机可读存储介质,所述计算机可读存储介质中存储有包括计算机程序,其中,所述计算机程序运行时,执行所述的一种基于视觉的物体可用性少样本分类方法。
37.本发明提供的一种基于视觉的物体可用性少样本分类方法,本发明主要提出一种基于视觉的物体可用性少样本分类模型,构建了一个专门用于物体可用性分类的数据集,在缺乏大量标注数据的情况下,根据少量的样本标注实现物体级的功能可用性分类。本发明采用多尺度特征提取及融合的方法来完善图像信息的表征同时,改善了由于物体可用性类别类内差异大所带来的分类效果差的问题,提高了分类精度。同时,采集的数据集可以为
物体可用性分类提供数据基础。
38.首先采用深度神经网络resnet18提取不同层次网络输出的图像特征,根据实验找寻最优的特征融合方式。对于定位物体可用性类别相似特征区域的问题,引入了双重注意力机制(danet),基于自注意力机制来分别捕获空间维度和通道维度中的特征依赖关系,即捕捉物体可用性类别中的共同特征,例如“挥拍”类中“羽毛球拍”、“网球拍”和“乒乓球拍”的拍身部分。
39.本发明以关系网络为基础模型,将四层卷积的特征提取模块替换成多尺度特征提取模块来提取更有效特征,与双重注意网络相结合,改善了由于物体可用性数据集类内差异大所带来的分类效果不佳的问题。
40.将经过多尺度融合特征提取后的支持集和查询集特征,输入到双重注意力模块,使模型更加关注支持集与查询集相似的特征部分;
41.经过双重注意力模块后,每张支持集图片都与同一张查询图片做拼接,最后输入到相关性模块中,计算相关得分,得分最高的一类就是查询图片所属的类别。
42.该方法的输出结果为未标注的查询图像的预测类别,该方法减少了由于类别分布不平衡且样本有限带来的过拟合现象。
附图说明
43.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
44.图1是方法的流程图;
45.图2是物体可用性少样本分类模型的结构图;
46.图3是以resnet18为基础的多尺度特征提取模块结构图;
47.图4是resnet18残差层的结构图。
具体实施方式
48.需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合,下面将参考附图并结合实施例来详细说明本发明。
49.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
50.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
51.除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当清楚,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任向具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
52.在本发明的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制:方位词“内、外”是指相对于各部件本身的轮廓的内外。
53.为了便于描述,在这里可以使用空间相对术语,如“在
……
之上”、“在
……
上方”、“在
……
上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而,示例性术语“在
……
上方”可以包括“在
……
上方”和“在
……
下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。
54.此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本发明保护范围的限制。
55.功能可用性描述的是物体和执行者之间存在的的交互,或执行者在某一场景下可以利用该物体进行哪些动作。比如,刀可以用来切,椅子可以用来坐。当我们想要坐下休息的时候,在没有椅子的情况下也可以找到其他带物体来代替,比如沙发、板凳等。所以,一个功能可用性类别包含多种对象类别。
56.虽然物体可用性分类可以当做是传统的分类问题来解决,但是传统的图像分类任务拥有千万级别的数据集,使用深度学习就可以很好的训练一个分类模型,但是目前存在的功能可用性数据集都没有达到这个级别。目前公开的数据集中,有用于像素级的可用性检测的iit-affordance数据集,还有用于复杂场景下可用性检测的padv2数据集,但是这些都不适合用于物体可用性分类。标注一个大型数据集,不仅费时费力,而且可能在经济上很昂贵,在类别分布不平衡且样本有限的情况下,使用传统的分类模型容易出现过拟合现象。除此之外,传统的视觉分类问题,是通过从视觉感知中提取特征进行识别,然而,提供相同物体可用性的物体在外观、形状等特征上可能会存在较大的差异性,比如,沙发、长椅、秋千、摇椅有共同的功能可用性“坐”。
57.以5个类,每个类有1个样本的(5-way 1-shot)分类任务为例,5张支持集图片(从训练集随机选择5个类别,每个类别取1张图片构成支持集)和75张查询集图片(从选出的5
个类别剩余的图片中分别选出15张图片构成查询集);
58.图1是方法的流程图;
59.一种基于视觉的物体可用性少样本分类方法,其特征在于:包括以下步骤:
60.s1:构建用于物体可用性分类的数据集;
61.s2:对数据集进行预处理,得到预处理后的数据集;
62.将预处理后的数据集划分为类别互斥的训练集、验证集和测试集,分别将训练集和测试集;
63.s3:构建可用性少样本分类模型;
64.s4:将训练集数据输入到物体可用性少样本分类模型中,对物体可用性少样本分类模型进行训练,得到训练好的物体可用性少样本分类模型;
65.s5:将测试集数据输入到训练好的物体可用性少样本分类模型中,得到物体可用性分类。
66.s1、s2、s3、s4、s5顺序执行;
67.本发明提出的数据集图片大多收集自padv2数据集、iit_affordance数据集,为了增加数据集的多样性,还从互联网上收集了一些图片。最后,本发明提出的数据集包含4794张图像,覆盖38个功能可用性类别和88种对象类别,并为每个对象类别(如“自行车”、“凳子”、“网球拍”、“沙发”、“电脑”、“马克杯”、“雨伞”)分配功能可用性类别标签,为本发明的数据集建立一个层次结构,所有功能可用性类别的描述以及它所包含的对象类别个数不等,数据集具体信息见表1。
68.表1数据集类别信息
69.[0070][0071]
一个功能可用性类别可以涵盖多个物体类别,例如,具有“坐”这一标签的物体包含“凳子”、“沙发”、“长凳”、“秋千”、“轮椅”、“摇椅”等物体,它们在大小、几何形状、材料和外观都不一样,但是它们具有相同的内在功能。
[0072]
按照少样本学习常用的miniimagenet数据集的划分比例,将本发明提出的数据集38个功能可用性类别进行了一个划分,其中24个类用于训练,6个类用于验证,8个类用于测试,并将数据集中所有图片的尺寸调整到448
×
448。
[0073]
所有的网络使用adam优化器进行优化,物体可用性少样本分类模型端到端训练并进行随机初始化。对于n个类,每个类有k个样本的少样本分类任务,
[0074]
将训练集数据随机采样成e个少样本分类任务组成的集合:
[0075][0076]dtrain
由支持集和查询集构成,
[0077]
其中:表示第i个少样本任务中来自第j类的支持图像中的第k张图像,表示第i个少样本任务中第h个查询图像(n个类别中剩余的图片中随机选出h张查询图像),表示第i个少样本任务中第h个查询图像的类别。
[0078]
网络训练过程中,每一个少样本任务包括n
×
k个支持图像和h个查询图像共同参与;
[0079]
对于测试数据集,按照与划分训练集类似步骤,随机采样e’个少样本测试任务任务组成集合:
[0080][0081]
其中:d
test
与d
train
存在两个不同点:(1)图像来源不同,即测试集与数据集类别不相交;(2)d
test
中不包括查询图像的类别信息,即该类别信息只用来作为标准衡量物体可用性少样本分类模型的好坏,而不参与计算。
[0082]
本发明按照现有的少样本模型所采用的标准设置,采用两种分类任务,第一种5-way 1-shot,即在训练集随机选取5种类别,每个类别中选1张作支持集,然后在每个类别剩余的图像中各选取15张构成查询集,构成一个episode(即少样本分类任务),在测试集随机选取5种类别,每个类别中选1张作支持集,然后在每个类别剩余的图像中各选取1张构成查询集,也构成一个episode,以此构建多个随机episodes;第二种采用5-way 5-shot,即在训练集随机选取5种类别,每个类别中选5张作支持集,然后在每个类别剩余的图像中各选取15张构成查询集,在测试集随机选取5种类别,每个类别中选5张作支持集,然后在每个类别剩余的图像中各选取1张构成查询集,以此构建多个随机episodes;
[0083]
所述可用性少样本分类模型包括多尺度特征提取模块、基于自注意力的双重注意力模块和相关性模块;
[0084]
所述多尺度特征提取模块用于对样本特征进行提取;所述基于自注意力的双重注意力模块包括位置注意子模块和通道注意子模块;
[0085]
所述位置注意子模块对提取后的样本特征采用自注意力,通过所有位置处的特征加权和来选择性地聚合每个位置的特征,使类似的特征彼此相关,得到样本位置特征;
[0086]
所述通道注意子模块分别通过整合所有通道映射之间的相关特性来选择性地强调相互依赖的通道映射,进而得到样本通道特征;
[0087]
将样本位置特征与样本通道特征进行相加,得到相加后特征图;
[0088]
将相加后的特征图输入到相关性模块中,得到样本图片的相似度。
[0089]
进一步地,所述多尺度特征提取模块用于对样本特征进行提取;提取更有效的特征;
[0090]
以5-way 1-shot分类任务为例,将支持集(5张图片)和查询集(75张图片)输入到多尺度融合特征提取模块,
[0091]
多尺度融合特征提取模块使用resnet18的结构,即18层残差网络,所述18层残差网络包含五个卷积块:卷积块1、卷积块2、卷积块3、卷积块4、卷积块5,其中卷积块3的输出特征尺寸为112
×
112,通道为128;卷积块5的输出特征尺寸为28
×
28,通道为512,接下来,对卷积块5卷积块提取的特征进行反卷积(deconv)操作,通过128个步长为4的反卷积,将卷积块5输出的特征的尺寸扩充到112
×
112,通道数降到128,与卷积块3的特征尺寸和通道数相同,将扩充后的卷积块5与卷积块3按元素相加,最终得到融合后的特征卷积块3&5。因此,每一张输入图片都会得到大小为128
×
112
×
112的特征图,接着通过一个卷积卷积块6,得到大小为64
×
112
×
112的特征;
[0092]
所述基于自注意力的双重注意模块由位置注意子模块和通道注意子模块两部分构成,它可以同时捕捉空间和通道维度中的全局特征依赖关系。该模块将经过多尺度融合特征提取模块产生的特征图送入这两个平行的注意力子模块中,最后汇总两个注意力子模块的输出特征,以获得更好的特征表示。
[0093]
所述位置注意力子模块这一部分采用自注意力,通过所有位置处的特征加权和来选择性地聚合每个位置的特征,使类似的特征彼此相关。具体的实现是将经过特征提取的特征图a(64
×
112
×
112)通过卷积得到三个特征图b(8
×
112
×
112)、c(8
×
112
×
112)、d(64
×
112
×
112),其中b经过改变形状(reshape)&转置(transpose)得到大小为12544
×
8的特征图,与改变形状后的特征图c(8
×
12544)相乘,经过softmax函数得到空间注意图s(12544
×
12544)。特征图d改变形状后(64
×
12544)和s之间执行矩阵乘法,再乘以尺度系数α,改变形状为原来形状(64
×
112
×
112),与a相加得到最后的输出e1(64
×
112
×
112)。其中α初始化为0,并逐渐地学习得到更大的权重。
[0094]
所述通道注意力子模块,这一部分通过整合所有通道映射之间的相关特性来选择性地强调相互依赖的通道映射,每个通道的最终特征是所有通道和原始特征的加权和。这一部分具体的实现是分别对经过特征提取的特征图a(64
×
112
×
112)改变形状(64
×
12544)和改变形状(reshape)&转置(transpose)(12544
×
64)两个操作,将得到的两个特征图相乘,通过softmax函数得到通道注意图x(64
×
64),接着将x与改变形状的a(64
×
12544)做矩阵乘法,得到的结果乘以尺度系数β,改变形状为原来形状(64
×
112
×
112),与a相加得到通道注意子模块的输出e2(64
×
112
×
112),其中β初始化为0,并逐渐学习得到更大的权重。
[0095]
将位置注意力子模块的输出e1与通道注意力子模块的输出e2相加,得到双重注意力模块的最终输出特征图(64
×
112
×
112)。所述通道注意子模块分别通过整合所有通道映射之间的相关特性来选择性地强调相互依赖的通道映射,进而得到样本通道特征;
[0096]
通过双重注意力模块后,将查询特征与5个支持特征分别进行拼接,拼接后的特征图大小为128
×
112
×
112;
[0097]
将得到的大小为128
×
112
×
112的特征图输入到相关性模块,所述相关性模块包
含五个卷积块:卷积块7、卷积块8、卷积块9、卷积块10、卷积块11和两个全连接层,记作全连接层1(fc1)和全连接层2(fc2)。
[0098]
卷积块7、卷积块8、卷积块9、卷积块10分别由一组卷积、批归一化、relu激活函数、最大池化组成,卷积块11由卷积组成。全连接层1维度是8,采用relu激活函数,全连接层2的维度为1,采用的是sigmoid激活函数。最后输出关系分数,将分数最大的那一个标签分配给未标注的查询集图片。
[0099]
所述多尺度特征提取模块采用基于深度学习的特征提取方法,去除与分类任务高度相关的全连接层,采用卷积块的输出为图像特征。对于图像特征提取,采用resnet18,即18层残差网络,
[0100]
图3是以resnet18为基础的多尺度特征提取模块结构图;首先对输入的图像进行7
×
7的卷积操作,并对特征图进行批归一化、非线性激活函数以及最大池化操作,然后依次通过4个残差层(layer1、layer2、layer3、layer4)。
[0101]
其中第一残差层layer1有64个滤波器,第二残差层layer2有128个滤波器,第三残差层layer3有256个滤波器,第四残差层layer4有512个滤波器,网络一共有17个卷积层,与之前的少样本网络所用的4层卷积相比,resnet18网络的深度和复杂度大大增加,这使得网络有能力提取到深层抽象特征。每个残差层的详细结构如图4所示,包含了两个基本块(basicblock),对于每个残差层的基本块,都是将输入经过两次的3
×
3卷积、批归一化和非线性激活函数操作后与输入进行跳跃连接,再通过非线性激活函数relu得到每个基本块的输出。通过添加跳跃连接的方式可以抑制由于网络复杂度的增加和训练样本过少而产生的过拟合现象。
[0102]
但是如果使用resnet18作为特征提取网络,只使用提取到的深层特征,这就会导致最终输出特征信息表征不全,部分图像物体无法被分类或识别的问题。在神经网络中,不同层次的特征有着不同的意义,浅层特征有着较强的泛化性,即更为复杂的整体性信息,而深层次的特征有着较强的语义性。因此,为了提取到更有效的特征,本发明引入了多尺度特征提取与融合技术,通过结合浅层网络的细节信息与深层网络的高级语义信息,提高网络性能。
[0103]
图2是物体可用性少样本分类模型的结构图;
[0104]
具体做法是将不同层次的特征进行组合,找到最优的组合方式,为物体可用性少样本分类模型提供一个更有效的特征提取器。首先将数据集的图片尺寸统一到448
×
448作为模型的输入,经过resnet18网络(移除全连接层),分别取第二残差层、第三残差层和第四残差层结束时的输出作为不同尺度特征,得到三个不同阶段输出的图像特征图,表示为卷积块3(conv3)、卷积块4(conv4)、卷积块5(conv5),其中卷积块3(conv3)的输出特征尺寸为112
×
112,通道为128;卷积块4(conv4)的输出特征尺寸为56
×
56,通道为256;卷积块5(conv5)的输出特征尺寸为28
×
28,通道为512,
[0105]
本发明的特征融合参考了特征金字塔(fpn)融合方法,,将不同尺度的特征按照自顶向下的顺序进行融合。对于卷积块5特征和卷积块4特征的合并,首先要将卷积块5提取的特征处理为与卷积块4提取的特征尺寸和通道数相同,再进行操作,具体的做法为,对于尺寸为28
×
28通道为512的卷积块5的输出特征,采用256个步长为2维数为512的反卷积,将特征扩充到卷积块4的输出特征相同的尺寸和通道数,然后将特征按元素相加得到融合后的
新的特征,记为卷积块4&5(conv4&5);卷积块5的特征与卷积块3的特征的融合情况类似,同样对卷积块5提取的特征进行反卷积操作,通过128个步长为4的反卷积,将特征的尺寸扩充到112
×
112,通道数降到128,与卷积块3的特征尺寸和通道数相同,同样地,将扩充后的卷积块5的特征与卷积块3的特征按元素相加,最终得到融合后的特征卷积块3&5(conv3&5)。同时,我们也会保留卷积块5(conv5)的直接输出作为实验对照。
[0106]
本发明采用的损失函数(loss function)又叫做代价函数(cost function),是用来评估模型的预测值与真实值不一致的程度,是衡量预测模型预测期望结果表现的指标,也是神经网络中优化的目标函数,神经网络训练或者优化的过程就是最小化损失函数的过程,损失函数越小,说明模型的预测值就越接近真实值,模型的健壮性也就越好。
[0107]
网络训练过程中,训练集中查询集q中的样本xb与支持集s中的样本通过多尺度特征提取模块生成与然后将这两个特征映射输入到双重注意力模块h
θ
生成新的特征映射与然后进行组合其中假定c(
·
,
·
)为深度特征映射级联。
[0108]
接下来组合后的特征映射输入到相关性模块中,记作最终产生一个0到1的标量,用来表示与xb之间的相似度,也称为关系得分。将输出的关系得分看做是一个0到1之间的数值,0代表完全不相似,1代表完全相似。因此,在c-way one-shot设置中,就可以生成c个关系分数r表示一个查询样本x与支持集中样本之间的关系:
[0109][0110]
在目标函数及其优化阶段,则直接采用均方误差mse作为网络训练的损失函数,可以表示为:
[0111][0112]
其中,在c-way k-shot设置中,m=n
×
k,n为在一次少样本任务中查询图像的个数,代表支持样本的类别,yb代表查询样本xb的类别。将关系得分回归为一个标注:匹配时相似度为1,不匹配时相似度为0。
[0113]
一种基于视觉的物体可用性少样本分类装置,包括:
[0114]
构建模块i:用于构建用于物体可用性分类的数据集;
[0115]
预处理模块:用于对数据集进行预处理,得到预处理后的数据集;将预处理后的数据集划分为类别互斥的训练集、验证集和测试集
[0116]
构建模块ii:用于构建可用性少样本分类模型;
[0117]
训练模块:用于将训练集数据输入到可用性少样本分类模型中,对可用性少样本分类模型进行训练,得到训练好的可用性少样本分类模型;
[0118]
分类模块,用于将测试集数据输入到训练好的可用性少样本分类模型中,得到物体可用性少样本的分类。
[0119]
一种计算机可读存储介质,所述计算机可读存储介质中存储有包括计算机程序,
其中,所述计算机程序运行时,执行所述的一种基于视觉的物体可用性少样本分类方法。
[0120]
为了验证本发明提出方法在物体可用性图像分类的性能,在构建的物体可用性数据集上进行实验,表2总结了本发明的一种基于视觉的物体可用性少样本分类方法和其他方法在两种少样本学习任务上的性能比较。
[0121]
其中o.vinyals等人提出的匹配网络在5-way 1-shot和5-way 5-shot任务的准确率分别为28.50%和39.30%;
[0122]
j.snell等人提出的原型网络在5-way 1-shot和5-way 5-shot任务的准确率分别为29.75%和40.94%;
[0123]
sung等人提出的关系网络(我们方法的基础模型)在5-way 1-shot和5-way 5-shot任务的准确率分别为35.69%和45.05%;
[0124]
对于li等人提出的深度最近邻网络,根据特征提取模块的不同我们做了两组实验,以四层卷积作为特征提取器的深度最近邻网络在5-way 1-shot和5-way 5-shot任务的准确率分别为30.45%和41.45%;
[0125]
以resnet-256作为特征提取器的深度最近邻网络在5-way 1-shot和5-way 5-shot任务的准确率分别为30.79%和40.97%;
[0126]
hui等人提出的自注意力关系网络在5-way 1-shot和5-way 5-shot任务的准确率分别为38.14%和46.97%;
[0127]
本发明基于视觉的物体可用性少样本分类方法在5-way 1-shot和5-way 5-shot任务的准确率分别为41.12%和52.92%,优于其他方法,由此验证了该方法对于物体可用性图像分类的有效性。
[0128]
表2本发明的方法和其他方法在两种少样本学习任务上的准确性比较表
[0129]
模型5-way 1-shot(%)5-way 5-shot(%)匹配网络28.5039.30原型网络29.7540.94关系网络35.6945.05深度最近邻神经网络(四层卷积)30.4541.45深度最近邻神经网络(resnet256)30.7940.97自注意力关系网络38.1446.97本发明的方法41.1252.92
[0130]
本发明提出了用多尺度特征融合的办法来提取更高效的特征,对各个特征层的组合进行不同的实验,并对组合结果进行分析,得到较好的组合方式。
[0131]
首先,提取出三个特征层,包括卷积块3,卷积块4和卷积块5,以卷积块5的特征作为后续网络的输入得到的准确率作为基准,分别把卷积块3的特征、卷积块4的特征与卷积块5的特征融合,进行实验,计算准确率。
[0132]
从表3的实验结果可以看到,以卷积块5的特征作为后续网络的输入在5-way 1-shot和5-way 5-shot两个任务中得到的准确率分别为37.83%和48.16%,将卷积块4与卷积块5结合后的特征作为后续网络的输入在5-way 1-shot和5-way 5-shot两个任务中得到的准确率分别为38.02%和49.23%;而将卷积块3与卷积块5结合后的特征作为后续网络的输入在5-way 1-shot和5-way 5-shot两个任务中得到的准确率分别为39.67%和51.06%,
分析发现,对比采用卷积块5特征的实验结果,卷积块4与卷积块5的组合(卷积块4&5)对于分类精度并没有取得较大的提升,而对于卷积块3与卷积块5的特征组合(卷积块3&5),其实验结果提升较为明显,尤其是5-shot,提升了大约三个百分点。综上,多尺度特征提取模块的最佳组合是卷积块5+卷积块3(卷积块3&5)。
[0133]
从实验结果(见表3)可以看出,融合特征卷积块3&5作为特征提取的输出对物体可用性的分类更有效。
[0134]
表3多尺度特征组合实验
[0135][0136][0137]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
[0138]
1.farhadi,a.,et al."describing objects by their attributes."ieee(2009).
[0139]
2.hermans t,rehg j m,bobick a.affordance prediction via learned object attributes.2011.
[0140]
3.ren,s.,and s.yu."human-object-object-interaction affordance."robot vision ieee,2013.
[0141]
4.zhu,y.,a.fathi,and f.f.li."reasoning about object affordances in a knowledge base representation."european conference on computer vision springer international publishing,2014.
[0142]
5.karthik mahesh varadarajan and markus vincze.2013.parallel deep learning with suggestive activation for object category recognition.inproceedings of the international conference on computer vision systems.springer,354
–
363.
[0143]
6.emre ugur,sandor szedmak,and justus piater.2014.bootstrapping paired-object afordance learning with learned single-afordance features.inproceedings of the joint ieee international conferences on development and learning and epigenetic robotics(icdl-epirob’14).ieee,476
–
481.
[0144]
7.hjelm,m.,et al."invariant feature mappings for generalizing affordance understanding using regularized metric learning."(2019).
[0145]
8.zheng,x.,z.zeng,and j.zhang."high-level object affordance recognition."2018 ieee international conference on information and automation
(icia)ieee,2018.
[0146]
9.g koch,r zemel,and r salakhutdinov."siamese neural networks for one-shot image recognition.".
[0147]
10.vinyals,o.,et al."matching networks for one shot learning."2016.
[0148]
11.snell j,swersky k,zemel r s.prototypical networks for few-shot learning[j].2017.
[0149]
12.flood sung,yongxin yang,li zhang,tao xiang,philip h.s.torr,and timothy m.hospedales.learning to compare:relation network for few-shot learning.in proceedings of the ieee conference on computer vision and pattern recognition(cvpr),2018.
[0150]
13.li,w.,et al."revisiting local descriptor based image-to-class measure for few-shot learning."2019ieee/cvf conference on computer vision and pattern recognition(cvpr)ieee,2019.
[0151]
14.hou,r.;chang,h.;bingpeng,m.;shan,s.;and chen,x.2019.cross attention network for few-shot classifification.in neurips.
[0152]
15.hui,b.,et al."self-attention relation network for few-shot learning."2019 ieee international conference on multimedia&expo workshops(icmew)ieee,2019.
[0153]
16.zhang,c.;cai,y.;lin,g.;and shen,c.2020.deepemd:few-shot image classifification with differentiable earth mover’s distance and structured classififiers.in proceedings of the ieee/cvf conference on computer vision and pattern recognition,12203
–
12213.
[0154]
17.zhao,a.,et al."domain-adaptive few-shot learning."2021 ieee winter conference on applications of computer vision(wacv)ieee,2021.
[0155]
18.hong,j.,et al."reinforced attention for few-shot learning and beyond."(2021).
技术特征:1.一种基于视觉的物体可用性少样本分类方法,其特征在于:包括以下步骤:构建用于物体可用性分类的数据集;对数据集进行预处理,得到预处理后的数据集;将预处理后的数据集划分为类别互斥的训练集、验证集和测试集;构建可用性少样本分类模型;将训练集数据输入到可用性少样本分类模型中,对可用性少样本分类模型进行训练,得到训练好的可用性少样本分类模型;将测试集数据输入到训练好的可用性少样本分类模型中,得到物体可用性少样本的分类。2.根据权利要求1所述的一种基于视觉的物体可用性少样本分类方法,其特征在于:所述可用性少样本分类模型包括多尺度特征提取模块、基于自注意力的双重注意力模块和相关性模块;所述多尺度特征提取模块用于对样本特征进行提取;所述基于自注意力的双重注意力模块包括位置注意子模块和通道注意子模块;所述位置注意子模块对提取后的样本特征采用自注意力,通过所有位置处的特征加权和来选择性地聚合每个位置的特征,使类似的特征彼此相关,得到样本位置特征;所述通道注意子模块分别通过整合所有通道映射之间的相关特性来选择性地强调相互依赖的通道映射,进而得到样本通道特征;将样本位置特征与样本通道特征进行相加,得到相加后特征图;将相加后的特征图输入到相关性模块中,得到样本图片的相似度。3.根据权利要求1所述的一种基于视觉的物体可用性少样本分类方法,其特征在于:所述预处理指将数据集里图片尺寸统一到448
×
448。4.根据权利要求1所述的一种基于视觉的物体可用性少样本分类方法,其特征在于:所述多尺度特征提取模块采用基于深度学习的多尺度特征融合卷积神经网络进行特征提取,去除与分类任务高度相关的全连接层,输出为图像特征。5.根据权利要求1所述的一种基于视觉的物体可用性少样本分类方法,其特征在于:所述多尺度特征提取模块采用基于深度学习的多尺度特征融合卷积神经网络进行特征提取,去除与分类任务高度相关的全连接层,输出为图像特征的过程如下:对输入的图像通过第一卷积层进行卷积操作,即对输入的图像进行批归一化、非线性激活函数relu以及最大池化操作,输出卷积操作后得图片;卷积操作后得图片分别依次通过第一残差层、第二残差层、第三残差层和第四残差层,得到三个不同阶段输出的不同尺度特征图像;三个不同阶段输出的不同尺度特征图像按照自顶向下的顺序进行融合,得到得是融合后特征。6.根据权利要求1所述的一种基于视觉的物体可用性少样本分类方法,其特征在于:所述第一残差层、第二残差层、第三残差层和第四残差层均包括:两个基本块模块,对于每个残差层的基本块,都是将输入经过两次的3
×
3卷积、批归一化和非线性激活函数操作后与输入进行跳跃连接,再通过非线性激活函数relu得到每个基本块的输出。7.根据权利要求1所述的一种基于视觉的物体可用性少样本分类方法,其特征在于:所
述第一残差层有64个滤波器、第二残差层有128个滤波器、第三残差层有256个滤波器和第四残差层有512个滤波器。8.一种基于视觉的物体可用性少样本分类装置,其特征在于:包括:构建模块i:用于构建用于物体可用性分类的数据集;预处理模块:用于对数据集进行预处理,得到预处理后的数据集;将预处理后的数据集划分为类别互斥的训练集、验证集和测试集构建模块ii:用于构建可用性少样本分类模型;训练模块:用于将训练集数据输入到可用性少样本分类模型中,对可用性少样本分类模型进行训练,得到训练好的可用性少样本分类模型;分类模块,用于将测试集数据输入到训练好的可用性少样本分类模型中,得到物体可用性少样本的分类。9.一种计算机可读存储介质,所述计算机可读存储介质中存储有包括计算机程序,其中,所述计算机程序运行时,执行所述权利要求1-7任一项所述的一种基于视觉的物体可用性少样本分类方法。
技术总结本发明一种基于视觉的物体可用性少样本分类方法,属于计算机视觉、人工智能领域,包括以下步骤:构建用于物体可用性分类的数据集;对数据集进行预处理,得到预处理后的数据集;将预处理后的数据集划分为类别互斥的训练集、验证集和测试集,分别将训练集和测试集;构建可用性少样本分类模型;将训练集数据输入到可用性少样本分类模型中,对可用性少样本分类模型进行训练,得到训练好的可用性少样本分类模型;将测试集数据输入到训练好的可用性少样本分类模型中,得到物体可用性少样本的分类;该方法的输出结果为未标注的查询图像的预测类别,该方法减少了由于类别分布不平衡且样本有限带来的过拟合现象。限带来的过拟合现象。限带来的过拟合现象。
技术研发人员:屈雯 赵萌
受保护的技术使用者:大连海事大学
技术研发日:2022.07.07
技术公布日:2022/11/1