一种头部姿态估计方法及系统

专利2023-09-18  113



1.本发明属于头部姿态检测领域,更具体地,涉及一种头部姿态估计方法及系统。


背景技术:

2.头部姿态检测技术有着广泛的应用领域,例如:疲劳检测、自动驾驶等。一方面,虽然利用深度图像可以使得头部姿态估计取得非常良好的结果,但对于rgb图像而言,头部姿态的估计方法仍然存在角度预测不连续的问题,这限制了头部姿态估计的应用。
3.真实环境中,人物往往存在大范围的面部遮挡、大角度的头部偏转;其所处的背景环境,光线的明暗也大不相同。基于传统的机器学习的方法很难在此种情况下检测出人物头部,而且对于不同身份的人也不具有鲁棒性,无法完成正常的头部姿态估计任务。
4.相对于一般的机器学习方法,深度学习方法在图像领域有着较优的表现,比机器学习方法更适用于真实场景下的头部姿态估计,具体表现在以下三点:(1)对不同身份的人展现出良好的鲁棒性;(2)对于人物的背景变化不敏感;(3)可以从单个图像进行头部姿态估计任务,使得实时检测成为可能。
5.同时,深度学习方法在进行头部姿态估计任务时也存在一定的缺陷:(1)头部姿态估计的现有方法中,三种角度的参数调节互相干扰,模型的预测效果难以平衡;(2)采用交叉熵损失函数和均方差损失函数简单相加,导致角度预测出现不连续性。


技术实现要素:

6.针对现有技术的缺陷,本发明的目的在于提供一种头部姿态估计方法及系统,旨在解决现有头部姿态估计的三种角度的参数调节互相干扰,且角度预测不连续的问题。
7.为实现上述目的,第一方面,本发明提供了一种头部姿态估计方法,包括如下步骤:
8.确定包含人脸的图像;
9.将所述图像输入到预先训练好的分层预测网络,预测得到人脸姿态朝向的俯仰角、偏航角以及翻滚角,以估计人脸头部姿态;所述分层预测网络包括:骨干网络、特征金字塔网络、降维模块以及分层预测模块;所述骨干网络用于提取不同尺寸的图像空间特征,所述特征金字塔网络用于将不同尺寸图像空间特征融合,得到融合特征,所述降维模块用于对所述融合特征进行三种不同维度的降维,得到图像三种维度的空间特征,不同维度对应不同的图像通道数;所述分层预测模块包括:三个全连接层;所述三个全连接层分别对所述三种维度的空间特征进行预测,每个全连接层预测得到人脸姿态朝向的一个角度,以使所述分层预测网络预测人脸姿态朝向三个角度各自关注的图像区域不同,减少三个角度预测之间的相互干扰;所述尺寸以像素为单位。
10.在一个可选的示例中,所述分层预测网络训练过程中的损失函数采用自调节的损失限制系数,以在三个全连接层预测角度的平均绝对误差小于阈值时,校正由预测角度的交叉熵损失项大于预测角度的均方差损失项而带来损失大小扭转问题,并在三个全连接层
预测角度的平均绝对误差不小于阈值时,增大由上述两个损失项所带来的误差惩罚,使得训练过程中分层预测网络以更快的速度收敛;设在三个全连接层预测角度的平均绝对误差小于阈值时,分层预测网络的误差惩罚为第一惩罚,设三个全连接层预测角度的平均绝对误差不小于阈值时,分层预测网络的误差惩罚为第二惩罚,校正损失大小扭转问题指控制第一惩罚小于第二惩罚,保证分层预测网络能够正常训练学习。
11.在一个可选的示例中,所述骨干网络包括四个残差块;人脸图像依次经过所述四个残差块处理,依次得到四种尺寸递减的图像空间特征;
12.上述四种尺寸递减的图像空间特征被所述特征金字塔网络融合,融合策略为先将第一种尺寸空间特征与第二种尺寸空间特征进行融合、将第一种尺寸空间特征与第三种尺寸空间特征进行融合,分别得到新的第二种尺寸空间特征和新的第三种尺寸空间特征,之后将新的第二种空间特征与新的第三种尺寸空间特征进行融合、将新的第二种尺寸空间特征与第四种尺寸空间特征进行融合,分别得到再次更新的第三种尺寸空间特征和新的第四种尺寸空间特征,最后将再次更新的第三种尺寸空间特征和新的第四种尺寸空间特征进行融合,得到第四种尺寸的融合特征;其中,第一种尺寸到第四种尺寸的尺寸大小逐级递减;
13.所述降维模块包括三个卷积核;所述第四种尺寸的融合特征依次经过所述三个卷积核处理,每个卷积核对输入的图像特征进行一次降维,依次得到尺寸不变且通道数逐级递减的三种维度的空间特征。
14.在一个可选的示例中,所述分层预测网络对预测的三个角度的调节公式为:
[0015][0016]
其中,以及分别表示俯仰角、偏航角以及翻滚角的预测值;k1、k2以及k3分别为三个卷积核的权重因子;γ1、γ2以及γ3为所述融合特征经过降维模块三个卷积核得到的三种维度的空间特征;
[0017]
γ1,γ2,γ3之间的关系满足如下公式:
[0018]
其中,w1是降维模块第一个卷积核向第二个卷积核的反馈参数,w2是降维模块第二个卷积核向第三个卷积核的反馈参数,b4是经第一个卷积核向第二个卷积核降维带来的新偏差项,b5是经第二个卷积核向第三个卷积核降维带来的新偏差项。
[0019]
在一个可选的示例中,所述分层预测网络的损失函数为:
[0020][0021][0022]
其中,是分层预测网络对头部姿态预测得到的值,y是图像中人脸头部姿态的真实值,β为损失限制系数,是由均方差损失和交叉熵损失的同大同小关系构建得出,k为角度
类别数,σ是sigmod函数,l
mse
代表均方差损失,y
ic
代表根据角度类别所形成的one-hot编码,是预测角度所属的类别。
[0023]
第二方面,本发明提供了一种头部姿态估计系统,包括:
[0024]
人脸图像确定单元,用于确定包含人脸的图像;
[0025]
头部姿态估计单元,用于将所述图像输入到预先训练好的分层预测网络,预测得到人脸姿态朝向的俯仰角、偏航角以及翻滚角,以估计人脸头部姿态;所述分层预测网络包括:骨干网络、特征金字塔网络、降维模块以及分层预测模块;所述骨干网络用于提取不同尺寸的图像空间特征,所述特征金字塔网络用于将不同尺寸图像空间特征融合,得到融合特征,所述降维模块用于对所述融合特征进行三种不同维度的降维,得到图像三种维度的空间特征,不同维度对应不同的图像通道数;所述分层预测模块包括:三个全连接层;所述三个全连接层分别对所述三种维度的空间特征进行预测,每个全连接层预测得到人脸姿态朝向的一个角度,以使所述分层预测网络预测人脸姿态朝向三个角度各自关注的图像区域不同,减少三个角度预测之间的相互干扰;所述尺寸以像素为单位。
[0026]
在一个可选的示例中,所述头部姿态估计单元所用的分层预测网络训练过程中的损失函数采用自调节的损失限制系数,以在三个全连接层预测角度的平均绝对误差小于阈值时,校正由预测角度的交叉熵损失项大于预测角度的均方差损失项而带来损失大小扭转问题,并在三个全连接层预测角度的平均绝对误差不小于阈值时,增大由上述两个损失项所带来的误差惩罚,使得训练过程中分层预测网络以更快的速度收敛;设在三个全连接层预测角度的平均绝对误差小于阈值时,分层预测网络的误差惩罚为第一惩罚,设三个全连接层预测角度的平均绝对误差不小于阈值时,分层预测网络的误差惩罚为第二惩罚,校正损失大小扭转问题指控制第一惩罚小于第二惩罚,保证分层预测网络能够正常训练学习。
[0027]
在一个可选的示例中,所述头部姿态估计单元所用的骨干网络包括四个残差块;人脸图像依次经过所述四个残差块处理,依次得到四种尺寸递减的图像空间特征;上述四种尺寸递减的图像空间特征被所述特征金字塔网络融合,融合策略为先将第一种尺寸空间特征与第二种尺寸空间特征进行融合、将第一种尺寸空间特征与第三种尺寸空间特征进行融合,分别得到新的第二种尺寸空间特征和新的第三种尺寸空间特征,之后将新的第二种空间特征与新的第三种尺寸空间特征进行融合、将新的第二种尺寸空间特征与第四种尺寸空间特征进行融合,分别得到再次更新的第三种尺寸空间特征和新的第四种尺寸空间特征,最后将再次更新的第三种尺寸空间特征和新的第四种尺寸空间特征进行融合,得到第四种尺寸的融合特征;其中,第一种尺寸到第四种尺寸的尺寸大小逐级递减;所述降维模块包括三个卷积核;所述第四种尺寸的融合特征依次经过所述三个卷积核处理,每个卷积核对输入的图像特征进行一次降维,依次得到尺寸不变且通道数逐级递减的三种维度的空间特征。
[0028]
在一个可选的示例中,所述头部姿态估计单元所用的分层预测网络对预测的三个角度的调节公式为:其中,以及分别表示俯仰角、偏航角以及翻滚角的预测值;k1、k2以及k3分别为三个卷积核的权重因子;γ1、γ2以及γ3为所述融合特征经过降维模块三个卷积核得到的三种维度的空间特征;
γ1,γ2,γ3之间的关系满足如下公式:其中,w1是降维模块第一个卷积核向第二个卷积核的反馈参数,w2是降维模块第二个卷积核向第三个卷积核的反馈参数,b4是经第一个卷积核向第二个卷积核降维带来的新偏差项,b5是经第二个卷积核向第三个卷积核降维带来的新偏差项。
[0029]
在一个可选的示例中,所述头部姿态估计单元所用的分层预测网络的损失函数为:
[0030][0031][0032]
其中,是分层预测网络对头部姿态预测得到的值,y是图像中人脸头部姿态的真实值,β为损失限制系数,是由均方差损失和交叉熵损失的同大同小关系构建得出,k为角度类别数,σ是sigmod函数,l
mse
代表均方差损失,y
ic
代表根据角度类别所形成的one-hot编码,是预测角度所属的类别。
[0033]
其中,k为角度类别数,具体地,本发明实施例中将-99
°
到99
°
按照3
°
为一个区间,划分为66个角度区间,对应的角度类别数为66个。此外,本领域技术人员可根据实际需要对角度进行不同类别数的划分,本发明不对此做进一步限定说明。
[0034]
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
[0035]
本发明提供一种头部姿态估计方法及系统,将与头部姿态估计视为同一任务的三个分支,融入特征金字塔和多任务卷积思想,相较于传统的头部姿态估计方法,降低了三种角度调节间的相互干扰,使得头部姿态估计的结果拥有更小的偏差。传统方法采用交叉熵与均方差损失简单相加的方式进行头部姿态估计的训练,而本发明在分析传统损失函数弊端的基础上,进行了损失优化,解决了因损失函数自身的不连续性而带来的角度估计损失断续问题,使得头部姿态估计的结果进一步提升。该方法与最新的基于旋转矩阵的头部姿态估计方法具有相容性,这为日后进一步提升头部姿态估计精确度提供了可能。
附图说明
[0036]
图1为本发明实施例提供的头部姿态估计方法流程图;
[0037]
图2为本发明实施例提供的头部姿态估计方法实施框图;
[0038]
图3为本发明实施例提出的头部姿态估计模型框架图;
[0039]
图4为本发明实施例提供的角度预测不连续问题说明图;
[0040]
图5为本发明实施例提出的不同角度关注差异热图;
[0041]
图6为本发明实施例提供的额外注意力原理图;
[0042]
图7为本发明实施例提供的头部姿态估计效果图;
[0043]
图8为本发明实施例提供的头部姿态估计系统架构图。
具体实施方式
[0044]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0045]
图1为本发明实施例提供的头部姿态估计方法流程图,如图1所示,包括如下步骤:
[0046]
s101,确定包含人脸的图像;
[0047]
s102,将所述图像输入到预先训练好的分层预测网络,预测得到人脸姿态朝向的俯仰角、偏航角以及翻滚角,以估计人脸头部姿态;所述分层预测网络包括:骨干网络、特征金字塔网络、降维模块以及分层预测模块;所述骨干网络用于提取不同尺寸的图像空间特征,所述特征金字塔网络用于将不同尺寸图像空间特征融合,得到融合特征,所述降维模块用于对所述融合特征进行三种不同维度的降维,得到图像三种维度的空间特征,不同维度对应不同的图像通道数;所述分层预测模块包括:三个全连接层;所述三个全连接层分别对所述三种维度的空间特征进行预测,每个全连接层预测得到人脸姿态朝向的一个角度,以使所述分层预测网络预测人脸姿态朝向三个角度各自关注的图像区域不同,减少三个角度预测之间的相互干扰;所述尺寸以像素为单位。
[0048]
具体地,本发明采用以下技术方案:提供一种分层预测下损失自适应调整的头部姿态估计方法,其中,分层预测指的是采用不同的网络层分离三种角度的预测任务;损失自适应调整是根据损失函数本身添加限制,从损失函数的角度使得角度预测不连续问题得到解决,具体包括以下步骤:
[0049]
(一)、将单张人物rgb图像,或是标准数据集中的图像,进行人脸裁剪,裁剪后的图片尺寸为224
×
224,由于数据预处理的方法较为普遍,且原理较为简单,故此处不多作赘述;
[0050]
(二)、在模型中利用特征金字塔对不同网络层提取到的不同尺度的图片特征进行融合,并采用动态自适应空间特征融合策略,使融合的特征权重自动分配。采用resnet 50作为骨干网络,结合特征金字塔策略,融合过程中只对跨越2个阶层尺度内的特征进行融合,超过此比例的不做融合处理。将提取到的不同尺寸的图片特征融合之后,得到一个融合后的汇总特征,将该特征通过三次降维形成三种空间分辨率相同,但通道数不同的特征,分别用于三种角度的头部姿态估计任务。
[0051]
(三)、将(二)步骤中得到的三种特征分别与全连接层进行连接,累计三个全连接层,特征与全连接层之间形成一对一的连接关系。此时,模型有了为yaw,pitch,roll三种角度单独调节的空间,三种角度调节之间的相互影响得到降低。yaw表示绕y轴旋转的角度,称为偏航角;pitch表示绕x轴旋转的角度俯仰角,称为;roll表示绕z轴旋转的角度,称为翻滚角。
[0052]
(四)、将(三)步骤中形成的三个分支,分别配备额外注意力机制,使得模型在参数调解中所关注的特征更加集中,且具有身份鲁棒性。外部注意力使得模型关注的特征集中在不同身份人的相同特征上,这使得三种角度的预测形成了各自独特的特征关注点。
[0053]
(五)、将(四)步骤中经过外部注意力提取后的三种特征,利用交叉熵损失和均方差损失加以训练。特别的,本发明提出了一种动态自调节的损失约束项,解决了传统训练过程中存在的角度预测不连续问题,具体做法为:利用均方差和交叉熵损失之间存在的同大同小关系,以均方差来约束交叉熵损失,使得训练中模型的预测损失与产生的真实角度损失保持同一增减趋势。
[0054]
本发明各步骤涉及的思路总体介绍如下:首先,通过裁剪得到人脸图像,去除了无关背景因素的干扰,图片尺寸的减小也减轻了模型的计算负担。其次,通过特征金字塔融合策略,使得不同尺度的特征都发挥一定作用,融合后的特征兼具细节和整体两个方面,消除了由于卷积层太深导致的高级特征趋于关注整体的弊端。更进一步的,采用特征降维形成的阶梯式头部姿态预测,兼顾了传统特征融合与多任务预测的优势,使得三种角度能够在一个模型上达到良好的协调。同时,配备注意力机制使得模型提取的特征具有普适性。最后,利用优化的损失函数使头部姿态估计整体呈现出一种连续性,头部姿态估计的准确度大大提升。
[0055]
经过上述五个步骤后,本发明所提出的头部姿态估计方法,解决了传统头部姿态预测过程中的角度相互影响,角度预测不连续问题,而由采用特征金字塔所带来的额外计算力消耗也通过降维操作得到了减轻。经在标准数据集上的验证,本发明所提出的头部姿态估计方法对于具有不同身份的人,或是同一人物的不同的姿态,均表现出鲁棒性。
[0056]
本发明提供了一种分层预测下损失自适应调整的头部姿态估计方法,其具体实施步骤如下:
[0057]
图2为本发明一种分层预测下损失自适应调整的头部姿态估计方法实施框图,如图2所示,本发明所提出的头部姿态估计方法整体包含以下几个模块:(1)图像输入模块;(2)特征融合模块;(3)分层预测模块;(4)损失限制模块。各模块涉及的具体操作步骤如下:
[0058]
一、图像输入模块:首先,获取待检测头部姿态的人物图像或视频,进行预处理操作,具体的操作过程包括但不限于:进行人脸裁剪,得到去除背景后的人物头部图片。将图片进行resize,将图片的尺寸调节为224
×
224像素大小;将视频中的图片按照帧序排列(fps=60),将图片集中的图片按照顺序排列;需要注意的是,图片的尺寸调节与图片的排序两个步骤无特定的先后顺序要求。完成前需处理后,需要对所有图片进行随机遮挡处理,此处理的目的是为了防止训练过程中模型过于关注局部特征而导致模型的通用性降低。图像输入模块的输出是一批已经处理的人物头部标准化图像。
[0059]
二、特征融合模块:如图2所示,特征融合模块位于图像输入模块的下方,用于接收图像输入模块所输出的标准化图像,以及向分层预测模块输入经融合后的特征。对于特征融合模块的详细示意可见图3所示,其包含的操作步骤有:将标准图像经由骨干网络resnet-50提取特征,对于不同block提取的特征,只采用下采样策略。在特征融合方面,对于空间尺度比例为2:1的情况,本发明用步长为2,卷积核大小为3
×
3的卷积层来保证空间尺度一致;对于空间尺度比例为4:1的情况,本发明先采用步长为2的maxpooling进行最大池化,再利用一层步长为2,卷积核大小3
×
3的卷积层来保证空间尺度一致。而对于8:1的空间尺度比,由于特征相差过多,本发明不对其采用空间融合策略。用s来代表每个阶段,则上述特征融合的过程可以被描述为:
[0060][0061]
其中sj|j=3,4表示最后两个block阶段,

j表示以当前block的特征空间尺度为标准进行融合,γ为融合权值。当j=1或2时,γ2或γ3对应的值为0,即此时只进行两个阶段的特征融合。同时,本发明强迫γ1+γ2+γ3=1|γ1,γ2,γ3∈[0,1]。为了实现这一目的,本发明采用三个1
×
1的卷积层来计算权重,公式如下:
[0062][0063]
为第一尺度特征对应的权值,为第二尺度特征对应的权值,为第三尺度特征对应的权值,γ1为经过类似sigmod加权计算后得到的占比,最终使得γ1+γ2+γ3=1。
[0064]
经特征融合后,模型既对细小特征有所保留,又能够关注到图像的整体部分。在下一阶段中,该融合特征将被进一步降维,以形成阶梯式的分层预测。
[0065]
在一个具体的实施例中,将224
×
224大小的图像输入到卷积神经网络中,经过一次卷积核大小为3
×
3的卷积运算,图像的空间尺寸变为112
×
112。之后,经过骨干网络resnet-50中的四个block时,形成大小分别为56
×
56,28
×
28,14
×
14以及7
×
7的图像空间特征。将这个四维度的空间特征利用特征金字塔进行融合,融合时需保持空间尺寸一致,融合策略为:对于56
×
56大小的空间特征,采用一层最大池化,使空间特征变为28
×
28大小,再经过3
×
3的卷积,使尺寸变为14
×
14大小,之后分别与这两个维度相融,其余融合操作以此类推。对于跨越两个尺度的特征,如112
×
112和7
×
7大小的特征不进行融合。经过特征金字塔后,得到融合后的图像特征尺寸为7
×7×
2048,此时,利用1
×
1的卷积核减少通道数,即将通道数减少到7
×7×
1024大小,称为降维层1(dw1),再对dw1进行降维处理,得到降维层2(dw2),再降维得到降维层3(dw3)。此时,三种维度的特征,它们的空间分辨比率相同,都为7
×
7大小,但通道数不同。
[0066]
三、分层预测模块:如图2所示,分层预测模块的主要作用是将三种角度的预测通过降维形成三个分支,每个分支的预测之间互不干扰。在阐述本发明所提出的分层预测功能前,有必要对目前普遍使用的方法做出说明:传统方法将头部姿势三个角度的预测被视为同一任务的三个分支,它们完全共享相同的网络层,这增加了模型的负担,如图4所示,ap为avg pooling,当模型根据其他角度的损失反馈对模型参数进行调整时,此时预测损失较小的一个角度预测结果可能会变差,因为模型必须在这三种角度的调节之间保持平衡。图4中mae表示平均绝对误差。
[0067]
四、简而言之,相对于单个角度的头部姿态估计,同时进行三个角度的估计限制了模型的性能。传统的头部姿态估计任务中,三种角度的预测可以被描述为以下公式:
[0068][0069]
其中,k表示不同的权重,γ为卷积层提取的特征,b为偏置因子,使用θ和ψ分别表示对yaw,pitch,roll的预测值。假设一个图像的预测损失是由于网络层是共享梯度反向传播,调整后的预测损失变为虽然总的预测损失降低了,但它并不是偏航的最佳模型。经过本发明提出的分层预测结构之后,三种
角度的调节公式更改为:
[0070][0071]
其中,γ1,γ2,γ3为上述融合特征经过降维得到的三个降维层dw1,dw2,dw3降维后得到的特征。γ1,γ2,γ3之间的相关关系如下,其中,w1和w2是新的卷积参数,b4和b5是降维带来的新偏差项:
[0072][0073]
本发明将头部姿态估计视为三项任务,为模型参数调整提供额外的调整空间,角度的预测顺序由数据集中样本数量的分布决定。如图5所示,图中(a)代表由传统方法得到的各个角度关注特征部分,(b)代表由本发明提出的分层预测方法所得到的的三种角度关注特征部分。可以看出,经分层后,三种角度各自关注的区域不再相同,这意味着分层预测策略发挥了作用。
[0074]
此后,本发明为每个角度的预测都添加了一层外部注意力,外部注意力机制的工作原理如图6所示,通过不断提取参与训练的图片间的公共特征,使得这些公共特征对应的权重不断增加,而其他部分的权值则相对减弱。分层预测模块将从骨干网获得的一批特征作为输入,然后使用1
×
1卷积层放缩通道,减小计算负担,经过一层外部注意力机制后,再通过1
×
1的卷积层还原通道数量,最后输出到损失限制模块当中。
[0075]
四、损失限制模块:在阐述本发明方法解决的问题前,有必要对传统方法导致的损失函数预测不连续问题做出说明,如图4所示,当真正的头部姿态为[6.1
°
,-3.2
°
,-15
°
]和预测角度为[5.9
°
,-1.9
°
,-9.9
°
]时,由于分类损失大于回归损失,此时传统损失函数不正确逆转了yaw和pitch实际损失大小关系。此外,传统损失函数还导致了角度分类线两边损失不平衡的问题,间歇性的损失和错误倒置的损失函数使得模型难以学习。通过另一个简单的例子来说明分类两端的损失不平衡问题。设定真实角度为[0
°
、3
°
、5
°
]和预测角度[1
°
,3.5
°
,7
°
],将(-99
°
、99
°
)之间的头部角度以3
°
为一间隔,分为66类。当预测损失在1
°
以内时,角度预测存在两种情况:类间损失和类内损失。当预测损失为类内损失时,交叉熵损失较小,总损失与真值损失趋势一致。但当预测损失为类间损失时,由于均方差的指数项为2,此时交叉熵损失将大于均方损失,这将导致总损失与真实损失趋势相反,使得模型很难学习。传统损失函数方法可以被描述为:
[0076][0077]
其中,k为类别数,y
ic
代表根据角度类别所形成的one-hot编码,为0或1,表示分类是否正确,是预测角度所属的类别,σ表示softmax,l
ce
表示交叉熵损失,l
mse
代表均方差损失。
[0078]
考虑到两种损失之间存在协同作用,本发明对分类损失设置了额外的约束:
经更新后的头部姿态估计损失函数如下:
[0079][0080]
经过损失限制后,反向传播梯度中也加入了损失项β∈[0,1],当真实损失较小时,得到的惩罚较小。在上面的例子中,通过β使得俯仰角的交叉熵损失减少到原来的1/5,这将模型的总损失重置为与真实损失相同的趋势,从而解决了传统损失函数带来的角度预测不一致问题。本发明增加了角度损失在1
°
以上的误差惩罚,以加快模型的收敛速度。输入的图像经过四个预测模块,完成一轮训练过程。模型通过返向传播机制,调整参数,使得角度预测不断趋于完善。
[0081]
为了更好地对本发明提供的结合位置信息和头部姿态定位与检测系统做出进一步解释,以下结合实施例进行具体说明。
[0082]
图7为本发明实施例提供的复杂环境下头部姿态估计示意图,图7中既包含大角度偏转情况,也包括头部存在遮挡物遮挡情况。同时用本发明方法和传统方法进行预测,将得到的结果进行对比,如图7所示,在头部姿态发生大角度偏转或者头部姿态存在遮挡物的情况下,与传统头部姿态估计方法相比,本发明提出的方法降低了10
°
以上的角度预测平均损失,对于各个角度的预测接近真实值。这表明,同传统方法相比,本发明所提出的头部姿态估计方法具有复杂场景下的鲁棒性,即证明本发明所涉及的头部姿态角度分层预测策略和损失函数自调整策略是有效的。
[0083]
图7中ground truth为头部姿态角度的真实数据,hopenet为现有方法,其全称为:不含关键点的细粒度头部姿态估计;tpl-net为本发明的头部姿态估计方法,本发明所用的分层预测网络全称为:分层预测和损失限制网络,tiered prediction with loss limit network。
[0084]
图8为本发明实施例提供的头部姿态估计系统架构图,如图8所示,包括:
[0085]
人脸图像确定单元810,用于确定包含人脸的图像;
[0086]
头部姿态估计单元820,用于将所述图像输入到预先训练好的分层预测网络,预测得到人脸姿态朝向的俯仰角、偏航角以及翻滚角,以估计人脸头部姿态;所述分层预测网络包括:骨干网络、特征金字塔网络、降维模块以及分层预测模块;所述骨干网络用于提取不同尺寸的图像空间特征,所述特征金字塔网络用于将不同尺寸图像空间特征融合,得到融合特征,所述降维模块用于对所述融合特征进行三种不同维度的降维,得到图像三种维度的空间特征,不同维度对应不同的图像通道数;所述分层预测模块包括:三个全连接层;所述三个全连接层分别对所述三种维度的空间特征进行预测,每个全连接层预测得到人脸姿态朝向的一个角度,以使所述分层预测网络预测人脸姿态朝向三个角度各自关注的图像区域不同,减少三个角度预测之间的相互干扰;所述尺寸以像素为单位。
[0087]
可以理解的是,图8中各个单元的详细功能实现可参见前述方法实施例中的介绍,在此不做赘述。
[0088]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以
限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种头部姿态估计方法,其特征在于,包括如下步骤:确定包含人脸的图像;将所述图像输入到预先训练好的分层预测网络,预测得到人脸姿态朝向的俯仰角、偏航角以及翻滚角,以估计人脸头部姿态;所述分层预测网络包括:骨干网络、特征金字塔网络、降维模块以及分层预测模块;所述骨干网络用于提取不同尺寸的图像空间特征,所述特征金字塔网络用于将不同尺寸图像空间特征融合,得到融合特征,所述降维模块用于对所述融合特征进行三种不同维度的降维,得到图像三种维度的空间特征,不同维度对应不同的图像通道数;所述分层预测模块包括:三个全连接层;所述三个全连接层分别对所述三种维度的空间特征进行预测,每个全连接层预测得到人脸姿态朝向的一个角度,以使所述分层预测网络预测人脸姿态朝向三个角度各自关注的图像区域不同,减少三个角度预测之间的相互干扰;所述尺寸以像素为单位。2.根据权利要求1所述的方法,其特征在于,所述分层预测网络训练过程中的损失函数采用自调节的损失限制系数,以在三个全连接层预测角度的平均绝对误差小于阈值时,校正由预测角度的交叉熵损失项大于预测角度的均方差损失项而带来损失大小扭转问题,并在三个全连接层预测角度的平均绝对误差不小于阈值时,增大由上述两个损失项所带来的误差惩罚,使得训练过程中分层预测网络以更快的速度收敛;设在三个全连接层预测角度的平均绝对误差小于阈值时,分层预测网络的误差惩罚为第一惩罚,设三个全连接层预测角度的平均绝对误差不小于阈值时,分层预测网络的误差惩罚为第二惩罚,校正损失大小扭转问题指控制第一惩罚小于第二惩罚,保证分层预测网络能够正常训练学习。3.根据权利要求1所述的方法,其特征在于,所述骨干网络包括四个残差块;人脸图像依次经过所述四个残差块处理,依次得到四种尺寸递减的图像空间特征;上述四种尺寸递减的图像空间特征被所述特征金字塔网络融合,融合策略为先将第一种尺寸空间特征与第二种尺寸空间特征进行融合、将第一种尺寸空间特征与第三种尺寸空间特征进行融合,分别得到新的第二种尺寸空间特征和新的第三种尺寸空间特征,之后将新的第二种空间特征与新的第三种尺寸空间特征进行融合、将新的第二种尺寸空间特征与第四种尺寸空间特征进行融合,分别得到再次更新的第三种尺寸空间特征和新的第四种尺寸空间特征,最后将再次更新的第三种尺寸空间特征和新的第四种尺寸空间特征进行融合,得到第四种尺寸的融合特征;其中,第一种尺寸到第四种尺寸的尺寸大小逐级递减;所述降维模块包括三个卷积核;所述第四种尺寸的融合特征依次经过所述三个卷积核处理,每个卷积核对输入的图像特征进行一次降维,依次得到尺寸不变且通道数逐级递减的三种维度的空间特征。4.根据权利要求3所述的方法,其特征在于,所述分层预测网络对预测的三个角度的调节公式为:其中,以及分别表示俯仰角、偏航角以及翻滚角的预测值;k1、k2以及k3分别为三个卷积核的权重因子;γ1、γ2以及γ3为所述融合特征经过降维模块三个卷积核得到的三种维度的空间特征;
γ1,γ2,γ3之间的关系满足如下公式:其中,w1是降维模块第一个卷积核向第二个卷积核的反馈参数,w2是降维模块第二个卷积核向第三个卷积核的反馈参数,b4是经第一个卷积核向第二个卷积核降维带来的新偏差项,b5是经第二个卷积核向第三个卷积核降维带来的新偏差项。5.根据权利要求1至4任一项所述的方法,其特征在于,所述分层预测网络的损失函数为:为:其中,是分层预测网络对头部姿态预测得到的值,y是图像中人脸头部姿态的真实值,β为损失限制系数,是由均方差损失和交叉熵损失的同大同小关系构建得出,k为角度类别数,σ是sigmod函数,l
mse
代表均方差损失,y
ic
代表根据角度类别所形成的one-hot编码,是预测角度所属的类别。6.一种头部姿态估计系统,其特征在于,包括:人脸图像确定单元,用于确定包含人脸的图像;头部姿态估计单元,用于将所述图像输入到预先训练好的分层预测网络,预测得到人脸姿态朝向的俯仰角、偏航角以及翻滚角,以估计人脸头部姿态;所述分层预测网络包括:骨干网络、特征金字塔网络、降维模块以及分层预测模块;所述骨干网络用于提取不同尺寸的图像空间特征,所述特征金字塔网络用于将不同尺寸图像空间特征融合,得到融合特征,所述降维模块用于对所述融合特征进行三种不同维度的降维,得到图像三种维度的空间特征,不同维度对应不同的图像通道数;所述分层预测模块包括:三个全连接层;所述三个全连接层分别对所述三种维度的空间特征进行预测,每个全连接层预测得到人脸姿态朝向的一个角度,以使所述分层预测网络预测人脸姿态朝向三个角度各自关注的图像区域不同,减少三个角度预测之间的相互干扰;所述尺寸以像素为单位。7.根据权利要求6所述的系统,其特征在于,所述头部姿态估计单元所用的分层预测网络训练过程中的损失函数采用自调节的损失限制系数,以在三个全连接层预测角度的平均绝对误差小于阈值时,校正由预测角度的交叉熵损失项大于预测角度的均方差损失项而带来损失大小扭转问题,并在三个全连接层预测角度的平均绝对误差不小于阈值时,增大由上述两个损失项所带来的误差惩罚,使得训练过程中分层预测网络以更快的速度收敛;设在三个全连接层预测角度的平均绝对误差小于阈值时,分层预测网络的误差惩罚为第一惩罚,设三个全连接层预测角度的平均绝对误差不小于阈值时,分层预测网络的误差惩罚为第二惩罚,校正损失大小扭转问题指控制第一惩罚小于第二惩罚,保证分层预测网络能够正常训练学习。
8.根据权利要求6所述的系统,其特征在于,所述头部姿态估计单元所用的骨干网络包括四个残差块;人脸图像依次经过所述四个残差块处理,依次得到四种尺寸递减的图像空间特征;上述四种尺寸递减的图像空间特征被所述特征金字塔网络融合,融合策略为先将第一种尺寸空间特征与第二种尺寸空间特征进行融合、将第一种尺寸空间特征与第三种尺寸空间特征进行融合,分别得到新的第二种尺寸空间特征和新的第三种尺寸空间特征,之后将新的第二种空间特征与新的第三种尺寸空间特征进行融合、将新的第二种尺寸空间特征与第四种尺寸空间特征进行融合,分别得到再次更新的第三种尺寸空间特征和新的第四种尺寸空间特征,最后将再次更新的第三种尺寸空间特征和新的第四种尺寸空间特征进行融合,得到第四种尺寸的融合特征;其中,第一种尺寸到第四种尺寸的尺寸大小逐级递减;所述降维模块包括三个卷积核;所述第四种尺寸的融合特征依次经过所述三个卷积核处理,每个卷积核对输入的图像特征进行一次降维,依次得到尺寸不变且通道数逐级递减的三种维度的空间特征。9.根据权利要求8所述的系统,其特征在于,所述头部姿态估计单元所用的分层预测网络对预测的三个角度的调节公式为:络对预测的三个角度的调节公式为:其中,以及分别表示俯仰角、偏航角以及翻滚角的预测值;k1、k2以及k3分别为三个卷积核的权重因子;γ1、γ2以及γ3为所述融合特征经过降维模块三个卷积核得到的三种维度的空间特征;γ1,γ2,γ3之间的关系满足如下公式:其中,w1是降维模块第一个卷积核向第二个卷积核的反馈参数,w2是降维模块第二个卷积核向第三个卷积核的反馈参数,b4是经第一个卷积核向第二个卷积核降维带来的新偏差项,b5是经第二个卷积核向第三个卷积核降维带来的新偏差项。10.根据权利要求6至9任一项所述的系统,其特征在于,所述头部姿态估计单元所用的分层预测网络的损失函数为:为:其中,是分层预测网络对头部姿态预测得到的值,y是图像中人脸头部姿态的真实值,β为损失限制系数,是由均方差损失和交叉熵损失的同大同小关系构建得出,k为角度类别数,σ是sigmod函数,l
mse
代表均方差损失,y
ic
代表根据角度类别所形成的one-hot编码,是预测角度所属的类别。

技术总结
本发明提供一种头部姿态估计方法及系统,包括:确定包含人脸的图像;将图像输入到预先训练好的分层预测网络,预测得到人脸姿态朝向的俯仰角、偏航角以及翻滚角;包括:骨干网络、特征金字塔网络、降维模块以及分层预测模块;骨干网络用于提取不同尺寸的图像空间特征,特征金字塔网络用于将不同尺寸图像空间特征融合,得到融合特征,降维模块用于对融合特征进行三种不同维度的降维,得到图像三种维度的空间特征;分层预测模块包括:三个全连接层;三个全连接层分别对三种维度的空间特征进行预测,每个全连接层预测得到人脸姿态朝向的一个角度,以使分层预测网络预测人脸姿态朝向三个角度各自关注的图像区域不同,减少三个角度预测之间的相互干扰。之间的相互干扰。之间的相互干扰。


技术研发人员:朱晓亮 杨巧来 杨宗凯 赵亮 戴志诚 荣文婷 何自力
受保护的技术使用者:华中师范大学
技术研发日:2022.07.07
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-5180.html

最新回复(0)