基于多尺度扩张残差注意感知的课堂行为识别方法及装置

专利2026-02-27 17

本发明涉及课堂行为识别，具体涉及一种基于多尺度扩张残差注意感知的课堂行为识别方法及装置。

背景技术：

1、课堂学生行为分析是评价课堂教学质量的重要手段，同时是教师得到教学反馈与提高教学水平的有效方式。传统的教学质量评价主要通过人工观察的方法，

2、耗时耗力，且不能得到及时的教学反馈，影响教师教学进度与质量。随着人工智能技术的发展，研究者们使用行为识别技术来分析课堂视频中的学生行为，判断学生的课堂状态和参与度。课堂行为识别的过程主要包括特征提取和行为分类，其中特征提取是最重要的一环，关乎课堂行为识别的性能。特征提取包括传统的手工方法和深度学习方法，前者基于手工设计的算法进行课堂行为特征的提取，后者利用卷积神经网络自动从输入数据中提取相关特征，不仅省去复杂的人工设计环节，且能提高课堂行为识别的准确性。学生行为检测主要通过视频动作识别、姿态估计和目标检测的方法去完成的。尽管一些方法已取得显著的成果，但真实课堂场景下的行为识别方法仍面临着一些挑战。一方面，学生的目标往往比较密集，导致相互之间存在遮挡现象。这种遮挡会造成行为信息的缺失，严重影响模型的判断能力，可能导致错误的行为分类，影响对整个课堂氛围和学习状态的分析。另一方面，学生的位置通常会导致不同的尺度差异。前排学生通常距离摄像头较近，图像分辨率较高而后排学生因距离较远，分辨率则显著降低。后排学生的行为可能会由于图像模糊或低分辨率而被误判，影响整体行为识别的准确性。

3、因此，本发明提供了一种基于多尺度扩张残差注意感知的课堂行为识别方法及装置来解决上述问题。

技术实现思路

1、本发明针对现有技术的不足，提出了一种基于多尺度扩张残差注意感知的课堂行为识别方法及装置，本发明可以解决课堂场景下目标尺度不一致造成识别精度低的问题，更有效地提取课堂行为的判别性特征。

2、本发明解决技术问题的技术方案为一种基于多尺度扩张残差注意感知的课堂行为识别方法，具体如下：

3、a）收集课堂行为图像构建数据集，然后将数据集划分为训练集和验证集，再对训练集和验证集中的图像数据进行标注和数据增强，得到训练集和验证集中课堂行为图像对应的标注信息，以及数据增强后的训练集和验证集；

4、b）构建骨干网络，骨干网络包括第一下采样层、四个conv_c3模块和空间金字塔池化模块，将数据增强后的训练集中的图像数据输入到骨干网络中，得到各个阶段的特征，即和，特征输入到sppf模块，得到yolov5骨干网络输出；

5、c）构建混合注意力模块，模块包括分组层groups、

6、通道注意力模块和位置注、卷积层，两模块具体分为四个并行设置的分支，将得到的特征输入模块得到具有注意感知的特征；

7、d）骨干网络还包括颈部部分，部分采用的结构是特征金字塔和路径聚合网络，部分包括两个上采样部分和两个下采样部分，将特征输入至部分得到特征图、和；

8、e）将特征图、和输入到yolov5的多个解耦预测头cbph模块进行多尺度预测，最终定位学生在课堂图像的位置，并识别出学生的课堂行为类别。

9、步骤a）具体如下：

10、a-1）将数据集按3:1的比例划分为训练集和验证集，，，，其中，表示数据集中课堂行为图像的数量，表示数据集中第张课堂行为图像，表示训练集中课堂行为图像的数量，表示训练集中第张课堂行为图像，，表示验证集中课堂行为图像的数量，表示验证集中第张课堂行为图像，，；

11、a-2）使用标注软件labelimg对训练集和验证集中的课堂行为图像进行标注，分别得到训练集和验证集中课堂行为图像对应的标注信息，标注信息包括目标的大小、位置和类别，训练集中的课堂行为图像对应的标注信息为，验证集中课堂行为图像对应的标注信息为，其中，表示训练集中第张课堂行为图像对应的标注信息，表示验证集中第张课堂行为图像对应的标注信息；

12、a-3）对和中的课堂行为图像进行随机仿射变换和水平翻转，得到数据增强后的训练集和验证集，表示数据增强后的训练集中第张课堂行为图像，表示数据增强后的验证集中第张课堂行为图像。

13、步骤b）具体如下：

14、b-1）将数据增强后的训练集中的课堂行为图像输入到第一下采样层得到初始特征图，第一下采样层包括卷积层、正则化层和激活函数层，其中，卷积层的卷积核大小为6×6、步长为2、填充为2；

15、b-2）将特征t输入至第一个conv_c3模块得到特征，再将特征输入至第二个conv_c3模块得到特征，再将特征输入至第三个conv_c3模块得到特征，每个conv_c3模块均由卷积层和c3模块构成；

16、b-3）将特征输入至第四个conv_c3模块得到特征图；

17、b-4）将特征图输入至模块进行多尺度融合和提取，得到特征。

18、步骤c）具体如下：

19、c-1）四个分支分别用、、、表示；

20、第一个分支包括全局平均池化层、两个卷积层、重赋权层-，其中，全局平均池化层的卷积核大小为输入特征图的、步长为1、填充为0，第一个卷积层的卷积核大小为1×1、步长为1、填充为0、激活函数为函数，第二个卷积层的卷积核大小为1×1、步长为1、填充为0、激活函数为函数，表示高度，表示宽度；

21、第二个分支包括分组层、；

22、第三个分支包括分组层、水平平均池化层、拼接层和卷积层、组归一化层、激活函数层，其中，水平平均池化层的卷积核大小为输入特征图的、步长为1、填充为0，卷积层的卷积核大小为1、步长为1、填充为0；

23、第四个分支包括分组层、垂直平均池化、拼接层和卷积层、组归一化层、激活函数层，其中，垂直平均池化层的卷积核大小为输入特征图的、步长为1、填充为0，卷积层的卷积核大小为1×1、步长为1、填充为0。

24、c-2）将特征图输入至模块：

25、c-2-1）特征图输入至第一个分支，经过的全局平均池化层得到特征，特征输入到的第一个卷积层得到特征，特征输入到的第二个卷积层得到特征，特征输入到的重赋权层得到含有注意力权重的特征；

26、c-2-2）特征图输入至、和共有的分组层，特征图被分为通道数为g组，进而得到g组特征图，将g组特征图输入到调整形状层，将其形状调整为原始特征图相同的形状，得到特征；

27、c-2-3）将g组特征图分别输入至第三个分支的水平平均池化层和第四个分分支的垂直平均池化层，分别得到特征和特征，特征和特征输入到和共有的拼接层在第二维度上进行拼接，得到特征，特征输入到和共有的卷积层得到特征，然后特征在第二维度上按照原始特征图的和进行分离得到两个特征图和，将特征输入至的组归一化层得到特征，将特征输入到的激活函数层得到含有注意力权重的特征，特征图输入到的组归一化层得到特征，特征输入到的激活函数层得到含有注意力权重的特征；

28、c-2-4）将特征、、和输入至重赋权层，首先将特征和相乘得到更综合的注意力权重，与特征相乘，得到含有更综合注意力权重的特征，再将与相乘来进一步调整特征的注意力权重，得到特征；特征输入到最后卷积层得到最终的输出特征。

29、步骤d）具体如下：

30、d-1）上采样部分包括卷积层、上采样层和模块，其中，卷积层的卷积核大小为1×1、步长为1、填充为0，上采样层采使用双线性插值；

31、下采样部分包括卷积层和模块，其中，卷积层的卷积核大小为3×3、步长为2、填充为1；

32、模块包括两个卷积层、分离层、个多尺度扩张卷积模块、拼接层，设置，其中，每个卷积层后均有一个正则化层和激活函数，两个卷积层的卷积核大小均为1×1、步长为1、填充为0；

33、mdcm模块包括三层结构和残差连接组成，第一层结构是并行的两个卷积层，每个卷积层都有一个正则化层和relu激活函数，其中，第一个卷积层的卷积核大小为3×3、步长为1、填充为1，第二个卷积层的卷积核大小为1×1、步长为1、填充为0，第二层结构是并行的三个卷积层，每个卷积层都有一个正则化层和激活函数，其中，第一个卷积层的卷积核大小为3×3、步长为1、填充为1、扩张率为1，第二个卷积层的卷积核大小为3×3、步长为1、填充为3、扩张率为3，第三个卷积层的卷积核大小为3×3、步长为1、填充为5、扩张率为5；第三层结构由卷积层、正则化层和激活函数层组成，其中，卷积层的卷积核大小为1×1、步长为1、填充为0、激活函数为激活函数。

34、d-2）将特征输入到第一个上采样部分的卷积层得到特征，特征输入到第一个上采样部分的上采样层得到特征，特征与骨干网络输出的特征进行拼接得到特征；

35、特征输入到模块的第一个卷积层得到特征，特征输入到模块的分离层，将特征从通道维度上分为两个部分，得到特征和特征，特征和特征的通道数均变为特征的二分之一；

36、特征输入到模块第一层结构的并行的卷积层，得到两个不同的特征，特征和特征，将特征和特征在通道维度上进行拼接，得到特征，将特征输入到模块第二层结构的并行的三个卷积层，得到三个不同特征，特征、特征和特征，将特征、特征和特征在通道维度上进行拼接，得到特征，将特征输入到模块第三层结构的卷积层，得到特征，再将特征和特征进行相加，得到第一个mdcm模块的输出特征；

37、再将特征输入到第二个模块的第一层结构的并行的卷积层，得到两个不同的特征，特征和特征，将特征和特征在通道维度上进行拼接，得到特征，将特征输入到模块第二层结构的并行的三个卷积层，得到三个不同特征，特征、和，将特征、和在通道维度上进行拼接，得到特征，将特征输入到模块第三层结构的卷积层，得到特征，将特征和特征进行相加，得到第二个模块的输出特征；

38、将特征、和在通道维度上进行拼接，得到特征，特征输入到模块的第二个卷积层得到特征；

39、d-3）特征输入到neck的第二个上采样部分，特征输入到第一个上采样部分的卷积层得到特征，特征输入到第一个上采样部分的上采样层得到特征，特征与骨干网络得到的特征进行拼接得到特征，特征输入到模块的第一个卷积层得到特征，特征输入到模块的分离层，将特征从通道维度上分为两个部分，即得到特征和特征，特征和特征的通道数都为原来特征的二分之一；

40、特征输入到模块第一层结构的并行的卷积层，得到两个不同的特征，即和，特征和在通道维度上进行拼接，得到特征，特征输入到模块第二层结构的并行的三个卷积层，得到三个不同特征，即、和，特征、和在通道维度上进行拼接，得到特征，特征输入到模块第三层结构的卷积层，得到特征，特征和特征进行相加，得到第一个模块的输出特征；

41、特征输入到第二个模块的第一层结构的并行的卷积层，得到两个不同的特征，即和，特征和在通道维度上进行拼接，得到特征，特征输入到模块第二层结构的并行的三个卷积层，得到三个不同特征，即、和，特征、和在通道维度上进行拼接，得到特征，特征输入到模块第三层结构的卷积层，得到特征，特征和特征进行相加，得到第二个模块的输出特征；

42、将特征、和在通道维度上进行拼接，得到特征，特征输入到模块的第二个卷积层得到特征；

43、d-4）特征输入到neck中的第一个下采样部分的卷积层，得到特征，特征和特征进行融合，得到特征，特征输入到c2f_mdcm模块的第一个卷积层得到特征，特征输入到c2f_mdcm模块的分离层，将特征从通道维度上分为两个部分，即得到特征和特征，特征和特征的通道数都为原来特征的二分之一；

44、特征输入到mdcm模块第一层结构的并行的卷积层，得到两个不同的特征，即和，特征和在通道维度上进行拼接，得到特征，特征输入到mdcm模块第二层结构的并行的三个卷积层，得到三个不同特征，即、和，特征、和在通道维度上进行拼接，得到特征，特征输入到mdcm模块第三层结构的卷积层，得到特征，特征和特征进行相加，得到第一个mdcm模块的输出特征；

45、特征输入到第二个mdcm模块的第一层结构的并行的卷积层，得到两个不同的特征，即和，特征和在通道维度上进行拼接，得到特征，特征输入到mdcm模块第二层结构的并行的三个卷积层，得到三个不同特征，即、和，特征、和在通道维度上进行拼接，得到特征，特征输入到mdcm模块第三层结构的卷积层，得到特征，特征和特征进行相加，得到第二个mdcm模块的输出特征；

46、特征、和在通道维度上进行拼接，得到特征，特征输入到c2f_mdcm模块的第二个卷积层得到特征；

47、d-5）特征输入到neck中的第一个下采样部分的卷积层，得到特征，特征和特征进行融合，得到特征，特征输入到c2f_mdcm模块的第一个卷积层得到特征，特征输入到c2f_mdcm模块的分离层，将特征从通道维度上分为两个部分，即得到特征和特征，特征和特征的通道数都为原来特征的二分之一；

48、特征输入到mdcm模块第一层结构的并行的卷积层，得到两个不同的特征，即和，特征和在通道维度上进行拼接，得到特征，特征输入到mdcm模块第二层结构的并行的三个卷积层，得到三个不同特征，即、和，特征、和在通道维度上进行拼接，得到特征，特征输入到mdcm模块第三层结构的卷积层，得到特征，特征和特征进行相加，得到第一个mdcm模块的输出特征；

49、特征输入到第二个mdcm模块的第一层结构的并行的卷积层，得到两个不同的特征，即和，特征和在通道维度上进行拼接，得到特征，特征输入到mdcm模块第二层结构的并行的三个卷积层，得到三个不同特征，即、和，特征、和在通道维度上进行拼接，得到特征，特征输入到mdcm模块第三层结构的卷积层，得到特征，特征和特征进行相加，得到第二个mdcm模块的输出特征；

50、特征、和在通道维度上进行拼接，得到特征，特征输入到模块的第二个卷积层得到特征。

51、步骤e）具体如下：

52、e-1）将yolov5结构中neck部分得到的特征、和输入至解耦预测头cbph模块，cbph模块包括倒残差块和两个并联的cbs模块，倒残差块由三个卷积层组成，第一个卷积层的卷积核大小为3×3、步长为1、填充为1，第二个卷积层和第三个卷积层的卷积核大小均为1×1、步长为1、填充为0，cbs模块包括卷积层、批归一化层和silu激活函数层，其中，卷积核大小为1×1，步长为1，填充为0；

53、将特征输入到倒残差块得到输出，再将特征输入到并联的两个卷积层分别得到张量和，和分别表示小尺度目标位置坐标和学生所属的行为类别；

54、将特征输入到倒残差块得到输出，再将特征输入到并联的两个卷积层分别得到张量和，和分别表示中目标位置坐标和学生所属的行为类别；

55、将特征输入到倒残差块得到输出，再将特征输入到并联的两个卷积层分别得到张量和，和分别表示大目标位置坐标和学生所属的行为类别；

56、e-2）其中，yolov5的损失函数包括分类损失、置信度损失和定位损失，总损失为，其中，、、分别表示三个损失函数对应的平衡系数，分类损失和置信度损失采用bce loss二元交叉熵损失，定位损失采用ciouloss完全交并比损失。

57、本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现一种基于多尺度扩张残差注意感知的课堂行为识别方法。

58、本发明还提供了一种计算机设备，包括以下模块：

59、存储器：用于存储计算机程序/指令；

60、处理器：用于执行计算机程序和指令，实现一种基于多尺度扩张残差注意感知的课堂行为识别方法。

61、
技术实现要素：
中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案具有如下优点或有益效果：

62、一种基于多尺度扩张残差注意感知的课堂行为识别方法，使用不同大小的扩张率和残差连接来实现特征的多尺度提取，可以捕获全局与局部的行为特征，以解决课堂场景下目标尺度不一致造成识别精度低的问题；通过对原始的网络结构添加本发明提出的rfca注意力模块，可以使模型从通道、位置不同角度关注对行为识别重要的行为特征，降低无关特征的干扰，更有效地提取课堂行为的判别性特征，此外，使用本发明提出的解耦头，将分类任务和回归任务分开处理，防止不同任务之间的互相干扰，进一步提高网络的性能；

63、本发明通过改进原有的yolov5网络，能够解决课堂场景下遮挡比较严重和变化尺度不一致的问题，从而更为准确地定位学生在课堂图像中的位置，进一步分析学生的课堂行为类别。

技术特征：

1.一种基于多尺度扩张残差注意感知的课堂行为识别方法，其特征是，包括以下步骤：

2.根据权利要求1所述的基于多尺度扩张残差注意感知的课堂行为识别方法，其特征是，步骤a）具体如下：

3.根据权利要求2所述的基于多尺度扩张残差注意感知的课堂行为识别方法，其特征是，步骤b）具体如下：

4.根据权利要求3所述的基于多尺度扩张残差注意感知的课堂行为识别方法，其特征是，步骤c）具体如下：

5.根据权利要求4所述的基于多尺度扩张残差注意感知的课堂行为识别方法，其特征是：

6.根据权利要求5所述的基于多尺度扩张残差注意感知的课堂行为识别方法，其特征是，步骤d）具体如下：

7.根据权利要求6所述的基于多尺度扩张残差注意感知的课堂行为识别方法，其特征是：

8.根据权利要求7所述的基于多尺度扩张残差注意感知的课堂行为识别方法，其特征是，步骤e）具体如下：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时实现如权利要求1-8中任一项所述的一种基于多尺度扩张残差注意感知的课堂行为识别方法。

10.一种计算机设备，其特征在于，包括以下模块：

技术总结
本发明涉及课堂行为识别技术领域，具体涉及一种基于多尺度扩张残差注意感知的课堂行为识别方法及装置，具体如下：收集课堂行为图像构建数据集，对数据集进行标注和数据增强，然后划分训练集和验证集；构建骨干网络，将训练集中的图像数据输入到骨干网络中特征；构建混合注意力模块，将得到的特征输入模块得到具有注意感知的特征；将特征输入至部分得到特征图、和；将特征图、和输入到yolov5的多个解耦预测头CBPH模块进行多尺度预测，最终定位学生在课堂图像的位置，并识别出学生的课堂行为类别。本发明可以解决课堂场景下目标尺度不一致造成识别精度低的问题，更有效地提取课堂行为的判别性特征。

技术研发人员：李金宝,张冬环,郭亚红,高天雷,魏诺,陈依婷,宋旭喆
受保护的技术使用者：齐鲁工业大学（山东省科学院）
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-30199.html