一种基于改进YOLOv8-Pose的智慧教室学生姿势关键点检测方法

专利2025-11-13  17


本发明涉及智慧教育,具体为一种基于改进yolov8-pose的智慧教室学生姿势关键点检测方法。


背景技术:

1、在当今技术快速发展的时代,智慧教室的研究日益成为学术和工业领域的焦点。该研究领域致力于使智慧教室能够通过来自教室前后上方的多个传感器对周围环境更全面,更准确地识别和感知,来获取更多的信息。运动关键点检测作为智慧教室研究中的一个突出和关键问题,直接涉及感知人运动和环境的关键节点。运动关键点检测技术可以广泛应用于智慧教室,帮助教育工作者实时监测和分析学生的行为,从而提升教学效果。通过运动关键点检测技术,智慧教室可以识别学生的姿态和动作,例如是否在认真听讲、积极回答问题或是打瞌睡。这种技术能够通过摄像头捕捉学生的图像,并使用深度学习算法对图像中的人体关键点进行识别和跟踪。我们可以通过运动关键点检测,可以监测学生的头部、眼睛、手臂和身体姿态,判断学生是否在积极参与课堂活动。例如,学生低头可能表示在看书或做笔记,而学生双眼闭合、身体放松可能表示在打瞌睡。实时监测这些行为,可以帮助教师及时干预,提高课堂互动和注意力。运动关键点检测技术在智慧教室中的应用,能够为教育工作者提供强大的工具,以实时了解和分析学生的行为和状态,从而提升教学效果和学生的学习体验。随着技术的不断进步,运动关键点检测在智慧教室中的应用前景将更加广阔,为教育领域带来更多的创新和变革。

2、然而,小目标检测存在挑战,限制了感知比较密集的小的人物的性能。这包括对细微运动的捕捉和分析,在处理这些小目标时,目前的方法还没有达到理想的水平,这种限制可能会对精密分析造成一定影响。其次,当面对复杂环境的挑战时,在高度动态和快速变化的场景中,对运动关键点的检测变得更具挑战性。这可能涉及复杂的情况,例如多个对象之间的交互、照明条件的变化和遮挡,使得传统的运动关键点检测算法难以在这种情况下实现令人满意的结果。

3、在这些场景中,现在的算法可能表现出较低的准确性和鲁棒性。因此,本研究的目标是通过创新方法解决复杂环境中的小目标检测和运动关键点检测问题。通过克服这些限制,我们的目标是增强智慧教室对学生行为和教师行为的检测和分析,能够更好地适应复杂的环境和检测小的目标。在过去,有两种主要的姿态估计方法:自顶向下和自底向上。top-down方法是一种从整体目标开始并逐渐细化关键点定位的关键点检测范式。先检测整体,然后再精确定位目标区域内的关键点。该方法在涉及多个目标的场景中表现出色,特别是在人体姿态估计等应用中。最初,自上而下的方法采用先进的对象检测器,如faster r-cnn或yolo来识别图像中的目标区域。这为后续的关键点定位提供了基础信息,包括目标的位置和置信度得分。接下来,在关键点定位阶段,使用特定的关键点定位网络(如沙漏网络)对目标区域内的关键点进行高精度预测。最后,采用后处理和优化步骤,保证检测结果的准确性和鲁棒性。自顶向下方法的优势在于它能够适应需要同时处理多个目标的情况,为执行复杂任务提供强大的支持。

4、相比之下,自底向上方法代表关键点检测中的另一范例。它地显著特点是直接检测整个图像中所有可能的关键点,然后将这些点关联起来形成完整的对象。自底向上方法直接处理整个图像,适用于需要密集关键点检测的场景,为复杂和密集检测的任务提供了有效的解决方案。首先,在关键点检测阶段,采用像openpose这样的密集关键点检测器来直接处理整个图像,为每个像素提供关键点估计。随后,通过关联和合并阶段,相邻的关键点被连接以形成人体或其他对象的部分,从而产生一组完整的关键点。最后,姿势评估和过滤步骤评估形成的各种姿势并选择最合适的姿势。自底向上方法的优势在于它直接处理整个图像,使其非常适合密集和复杂的场景,从而为需要密集关键点检测任务的系统提供了一种有效的解决方案。然而,自上而下和自下而上的方法在运动关键点检测领域具有共同的局限性。首先,它们在小目标检测方面面临挑战,因为这两种方法在感知小尺寸目标方面可能受到限制。对于这些方法来说,捕获和分析细粒度的移动可能相对困难,并且在处理复杂场景时也会遇到挑战。在高度动态和快速变化的环境中,自下而上的方法可能会被多个对象之间的交互、照明条件的变化和遮挡等因素所破坏。这些复杂性使得传统的运动关键点检测算法难以在此类场景中实现理想的性能,可能导致检测方法在这些具有挑战性的环境中的准确性和鲁棒性降低。

5、为了解决上述限制,提出了一种基于改进yolov8-pose的智慧教室学生姿势关键点检测方法以解决上述问题。


技术实现思路

1、本发明的目的在于提供一种基于改进yolov8-pose的智慧教室学生姿势关键点检测方法,以解决上述背景技术中提出的问题。

2、为解决上述技术问题,本发明提供的一种基于改进yolov8-pose的智慧教室学生姿势关键点检测方法,包括以下步骤:

3、s1、引入cbam轻量级注意力模块:用于小目标检测和复杂场景感知;提高对小目标个体的敏感度;并提供cbam的主要数学推导过程:用于获取频道特征权重分布的频道关注度计算公式如下:

4、mc=σ(fc(avgpool(x))+fc(maxpool(x)))

5、其中mc表示通道注意力的输出,用于调整通道特征的权重。该公式计算通道注意力的特征表示;用于获得空间位置的权重分布的空间注意力计算公式如下:

6、ms=σ(fc(avgpool(x))+fc(maxpool(x)))

7、其中ms表示空间注意力的输出,用于调整空间位置的权重;该公式计算空间注意力的特征表示;通过元素乘法将通道和空间注意力结合起来的公式如下:

8、

9、该公式使用逐元素乘法将通道注意力和空间注意力结合起来,从而产生全面的注意力特征图;注意力特征图生成公式如下:

10、a=conv(m)

11、该公式通过卷积运算生成最终的注意力特征图,用于调整输入特征图中的通道和空间信息;用于在应用注意力之后生成特征图的公式如下:

12、

13、该公式将输入特征图乘以注意力特征图元素,得到应用注意力后的特征图;

14、用于生成最终输出特征图的公式如下:

15、y=conv(relu(bn(s)))

16、该公式通过卷积、校正线性单元(relu)和批量归一化(bn)操作生成最终输出特征图,用于后续任务;

17、s1.1、采用多个尺度检测头:使算法能够全面检测复杂图像中多个不同大小的个体,尤其是图像中的人体;

18、s2、增加跨层次的级联融合:用于进一步增强了浅层和深层网络之间的特征融合,降低了小目标个体的漏检率;

19、s3、损失函数改进:siou损失函数:修改替换了损失函数ciou,用修改后的siou重新定义算法的边界框回归定位损失函数;

20、s3.1、通过一系列的实验,验证yolov8-poseroom在小目标和复杂场景下运动关键点检测的优异性能;

21、s4、新的迭代训练策略:第一个阶段使用特定值(1e-4)初始化学习率,然后再达到每个里程碑时减少学习率;紧接着,使用前一阶段获得的最佳模型作为预训练模型来初始化参数,重设学习率,并从特定的epoch重新开始训练,然后运行流程的其余部分。

22、进一步的,在s2中,具体在yolov8 poseroom中,通过在骨干网络和颈部网络之间引入两个跨层通信通道,增强浅层和深层网络之间的特征融合能力;不同通道数的特征图融合公式如下:

23、mi=concat(bi,ci,ai)。

24、进一步的,在s3中,用siou损失代替ciou损失,siou损失包括四个组成部分:角度成本、距离成本、形状成本和iou成本;

25、角度成本计算的公式为:

26、

27、两个盒子中心之间的高度差为:

28、

29、宽度差为:

30、

31、如果角度α大于45°,则使用其余角α,考虑与y轴而不是x轴的角度,接下来是距离成本的计算,距离成本表示预测边界框和地面实况边界框的中心点之间的距离,结合上面定义的角度成本,siou重新定义距离成本,如公式(a)所示:

32、

33、γ=2-λ(d);

34、公式(b)、(c)、(d)涉及cw和ch的项表示地面实况和预测框的最小包围框的宽度和高度;当α接近0时,距离成本的贡献显著降低,相反,当α接近π/4时,距离成本的贡献增加,随着角度的增加,γ被分配一个时间优先的距离值;

35、形状成本的定义如公式(e)所示:

36、

37、(w,h)和(wgt,hgt)分别为预测框和真实框的宽和高,θ是控制对形状损失的关注程度;

38、siou损失函数如公式(h)所示:

39、

40、进一步的,在s3.1中,实验利用两个广泛使用的数据集进行模型的运动关键点检测和姿态估计任务,这两个数据集提供了不同的场景和图像样本;两个广泛使用的数据集包括coco数据集和mpii人体姿势数据集。

41、进一步的,在s3.1中,用于实验的实验装置的操作系统基于ubuntu20.04.3lts,用于实验的实验室包括多块a6000和3090卡组;并选择python3.8.8作为主要编程语言,最重要的是,使用pytorch 1.10.0作为深度学习框架,用于实现和训练智慧教室运动关键点检测和姿态估计模型。

42、进一步的,在s3.1中,选择最先进的姿态估计模型作为基线模型的性能比较和评估。

43、进一步的,coco数据集,共有50125个样本,其中验证集由5815个样本组成,测试集包含5815个样本;mpii人体姿势数据集包括30225个样本,其中验证集中有4728个样本,测试集中有4218个样本;对于图像数据,用归一化将其大小标准化为相同的分辨率;对数据集中的关键点进行详细的注释,包括身体、手和脸的关键点;利用用于增加数据多样性的数据增强技术,包括随机旋转、镜像翻转、缩放、平移;将数据集划分为训练集、验证集和测试集,以进行模型验证和性能评估;使用专用的数据加载工具和库,包括pytorch的dataloader。

44、进一步的,在s4中,该模型每秒执行大约18.7gflops的浮点运算;关于模型训练的超参数设置,采用以下配置:初始学习率(lr0)为0.01,它以相对较小的学习率开始;最终的学习率设置为0.2,逐渐增加学习率;设置随机梯度下降的动量为0.927;权重衰减被配置为weight_decay=0.0005以控制模型复杂性并减轻过拟合;还使用了3个epoch的热身策略,逐渐提高学习率,总共有300个训练epoch;此外,输入图像大小设置为640×640。

45、与现有技术相比,本发明的有益效果是:

46、引入cbam轻量级注意力模块,以增强网络对检测目标的关注,从而提高对个体的敏感度,采用多个尺度检测头,使算法能够全面检测复杂图像中多个不同大小的个体,尤其是图像中的人体;还增加了跨层次的级联融合,进一步增强了浅层和深层网络之间的特征融合,降低了目标个体的漏检率,最后,修改了损失函数ciou,用修改后的siou重新定义算法的边界框回归定位损失函数,加快了模型训练收敛,提高了检测精度,同时,为了克服轻量级模型训练时间过长的问题,提出一种新的迭代训练策略,充分发挥了yolov8-poseroom的潜力;通过一系列的实验,验证了yolov8-poseroom在小目标和复杂场景下运动关键点检测的优异性能;本方法可以增强在智慧教室中上课的学生和老师的识别率,增强识别的感知,能更好配合现代化科技化教育了解学生课堂学习状态和教师上课行为,它可以推动在各个省份地区中小学教室中的应用和发展,具有实际和理论的意义。


技术特征:

1.一种基于改进yolov8-pose的智慧教室学生姿势关键点检测方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于改进yolov8-pose的智慧教室学生姿势关键点检测方法,其特征在于:在s2中,具体在yolov8poseroom中,通过在骨干网络和颈部网络之间引入两个跨层通信通道,增强浅层和深层网络之间的特征融合能力;不同通道数的特征图融合公式如下:

3.如权利要求1所述的一种基于改进yolov8-pose的智慧教室学生姿势关键点检测方法,其特征在于:在s3中,用siou损失代替ciou损失,siou损失包括四个组成部分:角度成本、距离成本、形状成本和iou成本;

4.如权利要求1所述的一种基于改进yolov8-pose的智慧教室学生姿势关键点检测方法,其特征在于:在s3.1中,实验利用两个广泛使用的数据集进行模型的运动关键点检测和姿态估计任务,这两个数据集提供了不同的场景和图像样本;两个广泛使用的数据集包括coco数据集和mpi i人体姿势数据集。

5.如权利要求1所述的一种基于改进yolov8-pose的智慧教室学生姿势关键点检测方法,其特征在于:在s3.1中,用于实验的实验装置的操作系统基于ubuntu 20.04.3lts,用于实验的实验室包括多块a6000和3090卡组;并选择python 3.8.8作为主要编程语言,最重要的是,使用pytorch 1.10.0作为深度学习框架,用于实现和训练智慧教室运动关键点检测和姿态估计模型。

6.如权利要求1所述的一种基于改进yolov8-pose的智慧教室学生姿势关键点检测方法,其特征在于:在s3.1中,选择最先进的姿态估计模型作为基线模型的性能比较和评估。

7.如权利要求4所述的一种基于改进yolov8-pose的智慧教室学生姿势关键点检测方法,其特征在于:coco数据集,共有50125个样本,其中验证集由5815个样本组成,测试集包含5815个样本;mpii人体姿势数据集包括30225个样本,其中验证集中有4728个样本,测试集中有4218个样本;对于图像数据,利用归一化将其大小标准化为相同的分辨率;对数据集中的关键点进行详细的注释,包括身体、手和脸的关键点;利用用于增加数据多样性的数据增强技术,包括随机旋转、镜像翻转、缩放、平移;将数据集划分为训练集、验证集和测试集,以进行模型验证和性能评估;使用专用的数据加载工具和库,包括pytorch的dataloader。

8.如权利要求1所述的一种基于改进yolov8-pose的智慧教室学生姿势关键点检测方法,其特征在于:在s4中,该模型每秒执行大约18.7gflops的浮点运算;关于模型训练的超参数设置,采用以下配置:初始学习率(lr0)为0.01,它以相对较小的学习率开始;最终的学习率设置为0.2,逐渐增加学习率;设置随机梯度下降的动量为0.927;权重衰减被配置为weight_decay=0.0005以控制模型复杂性并减轻过拟合;还使用了3个epoch的热身策略,逐渐提高学习率,总共有300个训练epoch;此外,输入图像大小设置为640×640。


技术总结
本发明公开了一种基于改进YOLOv8‑Pose的智慧教室学生姿势关键点检测方法,涉及智慧教育技术领域,包括以下步骤:S1、引入CBAM轻量级注意力模块:用于小目标检测和复杂场景感知;提高对小目标个体的敏感度;并提供CBAM的主要数学推导过程;本发明中,引入CBAM轻量级注意力模块,以增强网络对检测目标的关注,从而提高对个体的敏感度,采用多个尺度检测头,使算法能够全面检测复杂图像中多个不同大小的个体,尤其是图像中的人体;本方法可以增强在智慧教室中上课的学生和老师的识别率,增强识别的感知,能更好配合现代化科技化教育了解学生课堂学习状态和教师上课行为,它可以推动在各个省份地区中小学教室中的应用和发展,具有实际和理论的意义。

技术研发人员:李明勇,季煜程
受保护的技术使用者:重庆师范大学
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-17553.html

最新回复(0)