1.本发明涉及目标检测领域,尤其涉及一种细长柔性物体检测方法、终端设 备及存储介质。
背景技术:2.细长柔性物体在现实场景中十分常见,例如在电力、建筑和工矿等行业的 作业人员视频监控场景中,常常需要对作业人员的安全带系挂情况和翻越围栏 围网进行检测,其中的安全带和围网就属于细长柔性物体。我们将细长柔性物 体定义为具有极端长宽比,且几何外观动态可变的物体。
3.实施例分割是一种用于预测图像或视频中物体的类别和边界框并进行像素 级别分割的技术,目前最先进的方法为通过回归水平边界框来检测物体。对于 长宽比较为规则的目标(例如:汽车、飞机、篮球、水杯等),使用水平边界框 能够较好地框选出物体的边界。而细长柔性物体被目前的检测算法所忽视,并 且大部分检测算法对于细长柔性物体的检测精度出现大幅的下降。
4.因此,细长柔性物体的检测很大程度上仍然是一个尚未得到探索的领域。 对于细长柔性物体检测目前存在三大挑战:
5.(1)水平边界框不能提供准确的物体外观和边界信息。目前主流的检测方 法采用的是水平边界框标注,水平边界框标注方法能够简单便捷地框定指定的 目标对象。但是由于细长柔性物体存在动态可变的几何外观,具有形状不规则、 易于弯曲或折叠等特性,这导致细长物体的水平边界框内将包含更多的背景像 素,从而使得细长物体的分类比定位更困难。
6.(2)iou(intersection-over-union)的计算与评价指标不统一。目标检测算 法将物体的检测问题转化为ground truth边界框与预测边界框之间的回归问题。 在测试阶段,iou已被广泛用作评估指标,用于评估检测器的检测性能。但在 训练阶段,常用l1、l2或平滑l1距离损失作为回归损失来评估ground-truth 边界框与预测边界框之间的距离。这导致训练阶段与测试阶段的损失函数之间 没有很强的相关性。
7.(3)没有考虑物体之间的相关关系特征。传统实施例分割对每个候选框独 立进行目标分类和边界框回归,没有考虑到候选框之间的空间位置关系。而物 体之间的相关关系特征是一种重要的特征,有助于物体的识别。
技术实现要素:8.为了解决上述问题,本发明提出了一种细长柔性物体检测方法、终端设备 及存储介质。
9.具体方案如下:
10.一种细长柔性物体检测方法,包括以下步骤:
11.s1:采集细长柔性物体图像并对其中的细长柔性物体进行标注,基于标注 后的图
像构建训练集;
12.s2:构建细长柔性物体检测模型,通过训练集对模型进行训练;
13.模型包括特征提取网络、候选框生成网络、多实例关系加权网络和边界框 预测网络;
14.输入图像通过特征提取网络得到有效特征层后,通过候选框生成网络生成 候选框并进行归一化处理后得到归一化的候选框,通过多实例关系加权网络计 算不同候选框内实例之间的关系特征,通过关系特征能够判断不同候选框内实 例之间是否存在关系,边界框预测网络根据不同候选框内实例之间的关系特征 预测得到边界框和边界框内物体的类别;
15.s3:通过训练后的模型对图像中的细长柔性物体进行检测。
16.进一步的,特征提取网络的结构包括resnet101网络和特征金字塔网络, resnet101网络提取输入图像的特征并生成特征图后,特征金字塔网络对特征图 进行多次下采样并融合,分别获得经过两次、三次、四次和五次压缩的四个有 效特征层。
17.进一步的,候选框生成网络的结构包括区域建议网络和roi align层,特征 提取网络输出的有效特征层输入区域建议网络生成候选框后,再将生成的候选 框输入roi align层进行归一化处理。
18.进一步的,多实例关系加权网络输出的每个实例的关系特征的计算公式为:
[0019][0020]
其中,fn表示第n个实例的关系特征,表示第n个实例的外观特征,concat 函数表示拼接,表示第nr个多实例关系加权模块中的第n个实例的加权特 性,nr为超参数,表示多实例关系加权网络中接入的多实例关系加权模块的个 数;
[0021]
第n个实例的加权特性fr(n)的计算公式为:
[0022][0023]
其中,m和n分别表示多实例关系加权网络输入的实例集中的第m个实例 和第n个实例,ω
mn
表示第m个实例与第n个实例的关系权重,表示第m个 实例的外观特征,wv表示线性变换矩阵;
[0024]
第m个实例与第n个实例的关系权重ω
mn
的计算公式为:
[0025][0026]
其中,表示第m个实例与第n个实例的几何权重,表示第m个实 例与第n个实例的外观权重,exp表示以自然常数e为底的指数函数,k表示 实例的序号,第k个实例与第n个实例的几何权重,表示第k个实例与 第n个实例的外观权重;
[0027]
第m个实例与第n个实例的外观权重的计算公式为:
[0028][0029]
其中,dot表示点积运算,表示第n个实例的外观特征,wk、wq分别表示将和投影到低维空间的矩阵,dk表示投影后的特征维度;
[0030]
第m个实例与第n个实例的几何权重的计算公式为:
[0031][0032]
其中,max表示求最大值,分别表示第m个实例和第n个实例的几 何特征,εg函数表示将几何特征通过余弦和正弦函数嵌入到高维空间,wg表示 将高维空间中的几何特征转换为标量的矩阵。
[0033]
进一步的,边界框预测网络预测得到边界框的损失函数l
reg
为:
[0034][0035]
其中,a表示真实的边界框,b表示预测的边界框,c表示真实的边界框与 预测的边界框的最小包含框,iou表示边界框a与b之间的交并比。
[0036]
一种细长柔性物体检测终端设备,包括处理器、存储器以及存储在所述存 储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程 序时实现本发明实施例上述的方法的步骤。
[0037]
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序, 所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。
[0038]
本发明采用如上技术方案,可以应用于智能监控系统中有效识别细长柔性 物体,可以达到较高的检测精度,可以有效提高对作业人员的安全监护效率。
附图说明
[0039]
图1所示为本发明实施例一的流程图。
[0040]
图2所示为该实施例中图像标注的示意图。
[0041]
图3所示为该实施例中细长柔性物体检测模型的网络结构示意图。
[0042]
图4所示为该实施例中区域建议网络的网络结构示意图。
[0043]
图5所示为该实施例中多实例关系加权网络的网络结构示意图。
[0044]
图6所示为该实施例中多实例关系加权模块的网络结构示意图。
[0045]
图7所示为该实施例中mask的生成过程示意图。
[0046]
图8所示为该实施例中广义重叠比例的计算过程示意图。
[0047]
图9所示为该实施例中mask iou的计算过程示意图。
具体实施方式
[0048]
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容 的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例 的运作原理。配合
参考这些内容,本领域普通技术人员应能理解其他可能的实 施方式以及本发明的优点。
[0049]
现结合附图和具体实施方式对本发明进一步说明。
[0050]
实施例一:
[0051]
本发明实施例提供了一种细长柔性物体检测方法,如图1所示,所述方法 包括以下步骤:
[0052]
s1:采集细长柔性物体图像并对其中的细长柔性物体进行标注,基于标注 后的图像构建训练集。
[0053]
本实施例中从某公司采集了细长柔性物体图像,其中包含安全带、围栏围 网和作业人员的图像。图像类型可以分为两类,第一类图像是由现场巡查人员 通过相机拍摄的,数量有5250张,这类图像的分辨率较大,大小为5184
×
3888 像素,拍摄角度相对于目标物体通常为水平或仰视的角度;第二类图像是从电 网监控摄像头上截取的,数量有1300张,这类图像的像素相对小(像素大小为 1280
×
720或1920
×
1080),拍摄角度相对于目标物体为俯视视角。
[0054]
为了提高后续模型训练的准确度,本实施例中还包括对采集的图像进行数 据清洗。数据清洗的工作主要分为两部分:一是去除与细长柔性物体无关的图 像;二是将剩下的图像进行分类,并进一步剔除掉目标遮挡严重、目标大小过 小等影响识别的图像。经过数据清洗后,得到1499张图像符合所需。
[0055]
进一步的,由于采集到的图像的像素大小不一,在进行模型训练时,需要 把输入图像的大小归一化到统一尺寸,方便模型对输入的图像做计算。若图像 尺寸相同,那么输入时可以将多张图像合成一个batch,提高gpu的利用率。因 此,本实施例中还对图像进行了剪裁和缩放处理,以对图像的尺寸进行统一(具 体统一归一化为1280
×
800像素),减少训练时用于图像预处理所花费的时间。
[0056]
图像标注是一个在图像上绘制标签的一个过程,在被检测物体的周围绘制 多边形边界框并标注上该物体的类别,多边形边界框定义了该物体在图像中的 位置。本实施例中采用最新的交互式分割自动标注工具eiseg来标注图像,eiseg 通过基于region seed的交互式分割技术实现半自动化标注。其先用预训练模型 对图像进行预标注,对于标注不精准、有误差的地方,再通过一系列绿色点(前 景)和红色点(背景)对目标对象边缘进行精准的调整,从而实现精细化标注, 如图2所示。
[0057]
本实施例中经过图像清洗和标注后,最终得到细长柔性物体的图像共2368 张,共3个类别,分别是人(human)、渔网型围网(seine)和安全带(safetybelt)。 将数据集划分为训练集、验证集和测试集,划分的比例分别为80%、19%和1%。
[0058]
s2:构建细长柔性物体检测模型,通过训练集对模型进行训练。
[0059]
细长柔性物体检测模型的网络结构如图3所示,依次包括特征提取网络、 候选框生成网络、多实例关系加权网络和边界框预测网络。
[0060]
(1)输入图像通过特征提取网络来提取有效特征层。由于resnet神经网 络在imagenet数据集上取得了优异的分类效果,因此,本实施例中使用 resnet101作为特征提取网络的主干网络用于提取输入图像的特征并得到特征 图,在resnet101之后经过特征金字塔网络(feature pyramid network,fpn)对特 征图进行多次下采样并融合,分别获得经过两次、三次、四次和五次压缩的四 个有效特征层。
[0061]
(2)候选框生成网络的结构包括区域建议网络(rpn)和roi align层, 特征提取网络输出的有效特征层送入区域建议网络后,通过候选框生成网络生 成候选框并进行归一化处理后得到归一化的候选框。
[0062]
如图4所示,区域建议网络是一个轻量级的网络,其通过滑动窗口来遍历 特征图上所有的候选框,并寻找可能存在物体的潜在区域,从而生成候选框。 每个候选框分别有3种大小,每种大小的候选框均有3种不同的长宽比(例如5
×
7 和7
×
5),因此共有9种不同的候选框。每个特征图上共会覆盖大约20万个候选 框。将特征提取网络输出的有效特征层送入区域建议网络后,通过区域建议网 络来扫描所有的候选框,来预测k个候选框,每个候选框包括4个坐标信息(x,y, w,h),以及2个分类类别(前景或背景)。
[0063]
将得到的候选框送入roi align层归一化,即采用roi align将rpn生成的 不同大小的候选框映射到统一大小的特征图上。roi align利用双线性插值来获 得像素的浮点坐标,可以有效地保留目标边缘的像素特征,从而获得更准确的 边缘分割结果。
[0064]
(3)多实例关系加权网络用于计算不同候选框内实例之间的关系特征,多 候选框生成网络输出的归一化的候选框输入多实例关系加权网络后,输出各候 选框内实例的关系特征。
[0065]
如图5所示,多实例关系加权网络输出的每个实例的关系特征为nr个多实 例关系加权模块拼接在一起后与累加的结果,具体计算公式为:
[0066][0067]
其中,fn表示第n个实例的关系特征,表示第n个实例的外观特征,concat 函数表示拼接,表示第nr个多实例关系加权模块中的第n个实例的加权特 性,nr为超参数,表示多实例关系加权网络中接入的多实例关系加权模块的个 数,本实施例中设定nr=16。
[0068]
多实例关系加权模块用于提取候选框中各实例的外观特征fa和几何特征fg, 并提出实例关系加权函数fr(n)建模了候选框中各实例之间的空间关系,如图6 所示。
[0069]
由于大多数采用目标相互关系的实例检测将目标相互关系的判断作为后处 理步骤,检测出目标的坐标信息后,通过计算物体之间的几何关系(如质心位 置的距离等)来判断是否相关,但是这种方法带来了额外的计算量,并且不能 被深层神经网络端到端地训练。各实例之间的相互关系特征是一个很重要的特 征,例如在施工场景中检测出工人时,则图像中更可能检测到安全带和围网等 物体。为了使神经网络能够学习各实例相互关系的特征,本实施例中引入了多 实例关系加权模块,不仅考虑了各实例的几何特征fg,也考虑了各实例的外观 特征fa,而且加权模块将图像中所有的实例视为一组相互影响的物体作为输入进 行识别,实例与实例之间的关系权重为ω
mn
,而不是将图像中的实例视为一个 个独立的个体。
[0070]
本实施例中多实例关系加权模块的设计基于自注意力机制。注意力机制能 够对序列中的每个元素建立依赖关系模型,而无需考虑元素之间的距离。注意 力模块的输入包括维度为dk的queries和keys,以及维度为dv的values。对一个 query和所有的keys之间进行点积操作来计算query和keys之间的相关性系数α。 然后应用softmax函数来获取values
的权值。给定一个queryq,并将所有的keys 打包到矩阵k,将values打包到矩阵v中,输出的value是输入values的加权 平均值,即输出的v包含了q和k之间的关系信息:
[0071][0072]
设一个实例包括几何特征fg和外观特征fa,fg是一个四维的物体边界框,包 含了物体的边界框坐标(xmin,ymin,xmax,ymax),其中(xmin,ymin)表示边界 框左上角的坐标,(xmax,ymax)表示边界框右下角的坐标;fa是实例的特征, 可以经过卷积神经网络采集得到。
[0073]
给定一个包含n个实例的输入集关于第n个实例,全部实例 集的加权特性fr(n)的计算公式如下:
[0074][0075]
其中,wv是线性变换矩阵,用于对进行线性变换,相当于公式(1)中的v。 而第m个实例与第n个实例的关系权重(relation weight)ω
mn
表示来自其他物体的 影响,其计算公式如下:
[0076][0077]
关系权重由外观权重(appearance weight)和几何权重(geometry weight)组成, 第m个实例与第n个实例的外观权重的计算公式如下:
[0078][0079]
其中,wk和wq相当于公式(1)中的k与q,它将原先的特征和投影到 低维空间去计算他们的相关性,投影后的特征维度为dk维。
[0080]
第m个实例与第n个实例的几何权重的计算公式如下:
[0081][0082]
几何权重的计算分两步。第一步,将实例的几何特征通过余弦(cosine)和 正弦(sine)函数嵌入到高维空间,记为εg。第二步,再将高维空间中的几何特 征通过矩阵wg转换为标量。
[0083]
多实例关系加权网络添加在候选框生成网络之后。候选框生成网络通过扫 描输入图像的特征图,预测图像中潜在区域的候选框。而多实例关系加权网络 通过计算候选框之间的上下文关系,从而提升目标检测的性能。
[0084]
(4)边界框预测网络根据不同候选框内实例之间的关系特征(即多实例关 系加权网络的输出结果)预测得到边界框和边界框内物体的类别。
[0085]
进一步的,本实施例中还包括通过掩膜mask分支将预测的边界框进行分割 操作得到物体像素级的掩膜,从而实现更加精细化的细长柔性物体检测。
[0086]
边界框预测网络包括:将调整后的局部特征层传入到分类回归模型中,分 类回归模型主要有两个分支:(1)分类分支判断候选框是否真实包含物体;(2)边 界框回归分支用于回归预测边界框的结果,对候选框进行调整后成为预测框, 完成目标检测。接着进入到掩膜mask语义分割分支中,用先前获取的对内部包 含物体的局部特征层进行语义分割,提高整体模型的预测速度,mask的生成过 程如图7所示。
[0087]
目标检测和实例分割算法将物体的检测问题转化为真实的边界框与预测的 边界框之间的回归问题。为了解决目标函数与评价指标不统一问题,将目标函 数改为广义重叠比例损失函数即可使二者统一。所提出的广义重叠比例计算公 式如下:
[0088][0089]
其中,r(a,b)表示边界框a与b之间的重叠比例,a表示真实的边界框, b表示预测的边界框,c表示真实的边界框与预测的边界框的最小包含框,iou表 示边界框a与b之间的交并比。
[0090]
广义重叠比例具有尺度不变性,当矩形a和b相交时,广义重叠比例与目 标函数具有很强的相关性;当矩形a和b不相交时,a和b之间的距离也能被 计算。而且与iou只关注重叠区域不同的是,广义重叠比例不仅关注重叠区域, 还关注其他的非重合区域(d1和d2),如图8所示,能够更好的反映边界框之间 的重合度,对于细长物体的边界框偏移更加敏感。
[0091]
改进的广义重叠比例边界框回归损失函数定义为:
[0092]
l
reg
=lr=1-r(a,b)
[0093]
实例分割算法使用mask iou评价指标衡量实施例分割所生成的mask的优 劣。如图9所示,深色多边形框为人工标注的真实的边界框,浅色多边形框为 通过模型预测出的预测框,mask iou的值是真实多边形框的区域g和预测多边 形框的区域p之间的交集与并集之比,公式如下:
[0094][0095]
通过设置mask iou阈值可以判定模型预测的正确性。当计算得到的maskiou值超过阈值时,说明真实框被预测框命中。当mask iou值小于或等于阈值 时,说明遗漏了目标或者可能并未命中真实框。
[0096]
实例分割使用平均精度均值map作为评价指标,ap表示单个类别的平均 精度,map表示所有类别的平均精度取均值(mean averaged precision)。ap50和 ap75分别表示iou阈值为0.5和0.75时的map测量值。aps、apm和ap
l
分别 表示像素面积小于322、322-962之间和大于962像素的目标框的map测量值。
[0097]
模型训练中的损失函数用于评估模型预测的输出与ground truth之间的差异。 损失函数越小表示预测的输出越接近真实情况。模型的损失函数可分为两部分, 第一部分是rpn网络的损失,rpn用于生成候选框并调整其边界框,因此包括 rpn前景/背景分类损失l
rpn_cls
和rpn目标边界框回归损失l
rpn_reg
;第二部分 是网络损失,包括分类损失l
cls
、边界框回归损失l
reg
和像素分割损失l
mask
, 以及mask iou网络损失,即预测掩膜交并比损失l
maskiou
。模型的总损失函数 为各个损失之和:
[0098]
l=l
rpn
+l
cls
+l
reg
+l
mask
+l
maskiou
[0099]
rpn网络的损失函数如下:
[0100][0101]
其中,rpn网络分类损失函数采用二分类交叉熵损失。pi表示第i个anchor 中的物体是目标物体的预测概率。p
i*
表示第i个anchor中的物体是目标物体的 真实标签,当待检测物体在第i个anchor中时,p
i*
为1,否则p
i*
为0。由于rpn 只负责检测目标的存在而不是对目标进行分类,所以每个anchor的类别为0或 1。ti表示预测的边界框,t
i*
表示标注的边界框。n
obj
为minibatch的数量,设为 256。n
reg
为anchor的数量,设为2400。rpn网络的分类损失和边界框回归损失 由n
obj
和n
reg
所归一化。由于n
obj
和n
reg
之间的数量差距过大,故引入一个超参数λ 来平衡两个损失函数之间的影响,设λ的值为10。
[0102]
分类损失函数l
cls
的公式如下:
[0103][0104]
改进的广义重叠比例边界框回归损失函数l
reg
公式为:
[0105]
l
reg
=lr=1-r(a,b)
[0106]
l
mask
是预测掩膜的损失:
[0107][0108]
l
maskiou
是预测掩膜交并比的损失,使用均方误差来计算预测的mask与其 匹配的ground truth的回归损失。
[0109]
s3:通过训练后的模型对图像中的细长柔性物体进行检测。
[0110]
本发明实施例具有以下有益效果。
[0111]
(1)针对细长柔性物体,采用实例分割的方法,不仅可以对图像中的每个 目标进行定位和分类,还可以对目标进行像素级的分割,实现更加精细化的检 测。
[0112]
(2)将边界框回归损失从平滑l1损失改进为本发明所提出的广义重叠比 例损失函数,使训练目标函数与评价函数得到统一。
[0113]
(3)在实例分割网络中设计多实例关系加权模块。先通过深层卷积神经网 络提取各实例的外观特征和几何特征,通过多实例关系加权模块端到端地学习 图像中所有目标之间的相互关系的特征,提升了实例分割的精度,特别是小目 标的精度。
[0114]
实施例二:
[0115]
本发明还提供一种细长柔性物体检测终端设备,包括存储器、处理器以及 存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行 所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。
[0116]
进一步地,作为一个可执行方案,所述细长柔性物体检测终端设备可以是 桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述细长柔性物 体检测终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以 理解,上述细长柔性物体检测终端设备的组成结构仅仅是细长柔性物体检测终 端设备的示例,并不构成对细长柔性物体
检测终端设备的限定,可以包括比上 述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述细长柔 性物体检测终端设备还可以包括输入输出设备、网络接入设备、总线等,本发 明实施例对此不做限定。
[0117]
进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(centralprocessing unit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignal processor,dsp)、专用集成电路(application specific integrated circuit, asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可 编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可 以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述 细长柔性物体检测终端设备的控制中心,利用各种接口和线路连接整个细长柔 性物体检测终端设备的各个部分。
[0118]
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或 执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的 数据,实现所述细长柔性物体检测终端设备的各种功能。所述存储器可主要包 括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功 能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外, 存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、 内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(securedigital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或 其他易失性固态存储器件。
[0119]
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有 计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述方法的步 骤。
[0120]
所述细长柔性物体检测终端设备集成的模块/单元如果以软件功能单元的形 式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介 质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也 可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一 计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方 法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程 序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所 述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、 记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom, read-only memory)、随机存取存储器(ram,random access memory)以及 软件分发介质等。
[0121]
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员 应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式 上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
技术特征:1.一种细长柔性物体检测方法,其特征在于,包括以下步骤:s1:采集细长柔性物体图像并对其中的细长柔性物体进行标注,基于标注后的图像构建训练集;s2:构建细长柔性物体检测模型,通过训练集对模型进行训练;模型包括特征提取网络、候选框生成网络、多实例关系加权网络和边界框预测网络;输入图像通过特征提取网络得到有效特征层后,通过候选框生成网络生成候选框并进行归一化处理后得到归一化的候选框,通过多实例关系加权网络计算不同候选框内实例之间的关系特征,通过关系特征能够判断不同候选框内实例之间是否存在关系,边界框预测网络根据不同候选框内实例之间的关系特征预测得到边界框和边界框内物体的类别;s3:通过训练后的模型对图像中的细长柔性物体进行检测。2.根据权利要求1所述的细长柔性物体检测方法,其特征在于:特征提取网络的结构包括resnet101网络和特征金字塔网络,resnet101网络提取输入图像的特征并生成特征图后,特征金字塔网络对特征图进行多次下采样并融合,分别获得经过两次、三次、四次和五次压缩的四个有效特征层。3.根据权利要求1所述的细长柔性物体检测方法,其特征在于:候选框生成网络的结构包括区域建议网络和roialign层,特征提取网络输出的有效特征层输入区域建议网络生成候选框后,再将生成的候选框输入roialign层进行归一化处理。4.根据权利要求1所述的细长柔性物体检测方法,其特征在于:多实例关系加权网络输出的每个实例的关系特征的计算公式为:其中,f
n
表示第n个实例的关系特征,表示第n个实例的外观特征,concat函数表示拼接,表示第n
r
个多实例关系加权模块中的第n个实例的加权特性,n
r
为超参数,表示多实例关系加权网络中接入的多实例关系加权模块的个数;第n个实例的加权特性f
r
(n)的计算公式为:其中,m和n分别表示多实例关系加权网络输入的实例集中的第m个实例和第n个实例,ω
mn
表示第m个实例与第n个实例的关系权重,表示第m个实例的外观特征,wv表示线性变换矩阵;第m个实例与第n个实例的关系权重ω
mn
的计算公式为:其中,表示第m个实例与第n个实例的几何权重,表示第m个实例与第n个实例的外观权重,exp表示以自然常数e为底的指数函数,k表示实例的序号,第k个实例与第n个实例的几何权重,表示第k个实例与第n个实例的外观权重;
第m个实例与第n个实例的外观权重的计算公式为:其中,dot表示点积运算,表示第n个实例的外观特征,w
k
、w
q
分别表示将和投影到低维空间的矩阵,d
k
表示投影后的特征维度;第m个实例与第n个实例的几何权重的计算公式为:其中,max表示求最大值,分别表示第m个实例和第n个实例的几何特征,ε
g
函数表示将几何特征通过余弦和正弦函数嵌入到高维空间,w
g
表示将高维空间中的几何特征转换为标量的矩阵。5.根据权利要求1所述的细长柔性物体检测方法,其特征在于:边界框预测网络预测得到边界框的损失函数l
reg
为:其中,a表示真实的边界框,b表示预测的边界框,c表示真实的边界框与预测的边界框的最小包含框,iou表示边界框a与b之间的交并比。6.一种细长柔性物体检测终端设备,其特征在于:包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~5中任一所述方法的步骤。7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1~5中任一所述方法的步骤。
技术总结本发明涉及一种细长柔性物体检测方法、终端设备及存储介质,该方法中包括:采集细长柔性物体图像并构建训练集;构建细长柔性物体检测模型,通过训练集对模型进行训练;输入图像通过特征提取网络得到有效特征层后,通过候选框生成网络生成候选框并进行归一化处理后得到归一化的候选框,通过多实例关系加权网络计算不同候选框内实例之间的关系特征,通过关系特征能够判断不同候选框内实例之间是否存在关系,边界框预测网络根据不同候选框内实例之间的关系特征预测得到边界框和边界框内物体的类别;通过训练后的模型对图像中的细长柔性物体进行检测。本发明可以应用于智能监控系统中有效识别细长柔性物体。中有效识别细长柔性物体。中有效识别细长柔性物体。
技术研发人员:苏鹭梅 陈鑫强 陈玮浩 李天友 吴家俊 黄志豪
受保护的技术使用者:厦门理工学院
技术研发日:2022.05.09
技术公布日:2022/11/1