本发明涉及行为检测,尤其是涉及一种针对多模态少标签样本的情感识别大模型微调方法。
背景技术:
1、情感识别在现代教育中扮演着越来越重要的角色。通过情感识别,教育者可以了解学生的情绪状态,及时调整教学策略,改善学习体验,提升教学效果。同时,情感识别还可以帮助识别学习障碍,提供个性化的辅导,促进学生的全面发展。
2、情感识别通常依赖于多模态数据,包括图像(如面部表情)和音频(如语音语调)等。单一模态数据往往难以全面捕捉学生的情感状态,而多模态数据可以提供更加丰富和准确的信息。例如,面部表情可以反映学生的即时情绪,而语音语调则可以反映情绪的深度和持久性。通过融合多模态数据,可以更准确地识别和分析学生的情感状态。
3、尽管多模态数据在情感识别中具有明显优势,但获取大量有标签的多模态数据存在诸多挑战。标注多模态数据需要大量人力和时间成本,而在现实场景中,有标签的数据往往非常有限,远少于无标签数据。这种少标签问题对模型的训练和性能提出了严峻挑战。
4、因此,亟需一种针对多模态少标签样本的情感识别大模型微调方法,解决实际应用过程中利用无标签数据进行学生情感识别的问题,为智能教育系统的建设提供参考。
技术实现思路
1、本发明的目的是提供一种针对多模态少标签样本的情感识别大模型微调方法,能够实现知识的有效迁移,实现利用少量无标签本地样本对学生行为进行检测,解决学校端标注样本不足的问题。
2、为实现上述目的,本发明提供一种针对多模态少标签样本的情感识别大模型微调方法,包括以下步骤:
3、s1、采集多模态图像数据和音频数据,并分别进行数据增强;
4、s2、利用预训练模型,提取数据增强后的图像数据和音频数据的特征,并将特征映射到隐藏空间,分别得到图像域投影嵌入表示和音频域投影嵌入表示;
5、s3、基于特征一致性损失和预测一致性损失的不确定性,构造总损失函数;
6、s4、重复步骤s1~s3,直至模型收敛。
7、优选的,步骤s1中,对图像进行数据增强包括翻转、旋转、裁剪、缩放、平移、颜色变化、噪声注入、模糊、剪切、仿射变换、几何变换、随机擦除、对比度增强;对音频进行数据增强包括时间拉伸和压缩、音调变化、加入背景噪声、随机剪切和拼接、混响、频谱变换、时间移位、动态范围压缩、增大和减小音量、滤波、添加噪声。
8、优选的,步骤s2中,利用图像编码器gi、音频编码器ga分别对图像增强数据和音频增强数据进行特征提取,并通过图像投影器ri、音频投影器ra分别将提取的图像特征和音频特征映射到隐藏空间,得到图像表示和音频表示。
9、优选的,步骤s3包括选择正样本对和负样本对,并分别计算正样本对、负样本对的余弦相似度,得到特征一致性损失,具体如下:
10、
11、其中,
12、
13、式中,lia,i为特征一致性损失,为正样本对在隐藏空间中的相似度,sneg为负样本对在隐藏空间中的相似度,i≠j表示负样本对来自不同的组别,分别为第一图像表示和第二图像表示,分别为第一音频表示和第二音频表示,δ为预定义常数。
14、优选的,包括将图像表示输入图像域分类器fi,获得第一图像预测输出和第二图像预测输出,将音频表示输入音频域分类器fa,获得第一音频预测输出和第二音频预测输出将,从而得到预测一致性损失,具体如下:
15、
16、lpc=(lpci+lpca)/2
17、式中,n为无标签样本的个数,分别为第一图像预测输出和第二图像预测输出,分别为第一音频预测输出和第二音频预测输出。
18、优选的,总损失函数具体如下:
19、
20、式中,αia、αpc分别表示特征一致性损失和预测一致性损失的不确定性。
21、因此,本发明采用上述一种针对多模态少标签样本的情感识别大模型微调方法,具有以下技术效果:
22、(1)通过结合图像和音频数据两种模态,捕捉学生情感的多维度信息,使得情感识别更加全面和准确;通过计算图像和音频表征的一致性损失,确保不同模态数据在统一的隐藏空间中保持一致,提高了模型在处理多模态数据时的准确性。
23、(2)利用在大规模数据集上预训练的模型作为基础,具有丰富的特征表示,同时通过少量的有标签数据进行微调,可以充分利用预训练模型的知识,显著提升情感识别的效果;利用大量无标签数据,通过数据增强和一致性损失的方法,使得模型可以在无标签数据上进行有效学习,进一步提高模型的性能和泛化能力。
24、(3)预训练模型在大规模数据集上已经进行了充分训练,微调过程中仅需对模型进行小幅调整,显著减少了训练时间;通过预训练模型的使用和不确定性动态加权方法,有效降低了计算资源的需求;并且预训练模型提供了一个良好的初始权重,使得微调过程更加高效。
25、(4)根据特征一致性损失和预测一致性损失的不确定性,动态调整加权系数,使得模型能够平衡不同损失任务的权重,提高模型在不同数据分布下的适应性和鲁棒性;通过在不同增强视图下保持一致,使得模型在面对数据噪声和变化时具有更强的鲁棒性,提升了模型的泛化能力。
26、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
1.一种针对多模态少标签样本的情感识别大模型微调方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种针对多模态少标签样本的情感识别大模型微调方法,其特征在于,步骤s1中,对图像进行数据增强包括翻转、旋转、裁剪、缩放、平移、颜色变化、噪声注入、模糊、剪切、仿射变换、几何变换、随机擦除、对比度增强;对音频进行数据增强包括时间拉伸和压缩、音调变化、加入背景噪声、随机剪切和拼接、混响、频谱变换、时间移位、动态范围压缩、增大和减小音量、滤波、添加噪声。
3.根据权利要求1所述的一种针对多模态少标签样本的情感识别大模型微调方法,其特征在于,步骤s2中,利用图像编码器gi、音频编码器ga分别对图像增强数据和音频增强数据进行特征提取,并通过图像投影器ri、音频投影器ra分别将提取的图像特征和音频特征映射到隐藏空间,得到图像表示和音频表示。
4.根据权利要求1所述的一种针对多模态少标签样本的情感识别大模型微调方法,其特征在于,步骤s3包括选择正样本对和负样本对,并分别计算正样本对、负样本对的余弦相似度,得到特征一致性损失,具体如下:
5.根据权利要求3所述的一种针对多模态少标签样本的情感识别大模型微调方法,其特征在于,包括将图像表示输入图像域分类器fi,获得第一图像预测输出和第二图像预测输出,将音频表示输入音频域分类器fa,获得第一音频预测输出和第二音频预测输出,从而得到预测一致性损失,具体如下:
6.根据权利要求1所述的一种针对多模态少标签样本的情感识别大模型微调方法,其特征在于,总损失函数具体如下:
