多粒度注意力与特征分布校准的双模态情感识别方法

专利2025-04-25  24


本发明属于情感识别领域,具体涉及多粒度注意力与特征分布校准的双模态情感识别方法。


背景技术:

1、在双模态情感识别领域中,目前以脑电(eeg)为代表的生理信号与以人脸图像为代表的物理信号的结合成为了研究热点,通过生理信号与以人脸图像为代表的物理信号的结合可以获得更为丰富、完备的特征信息,从而有效提高情感识别性能,并在安全驾驶、远程教育、医疗健康等多个领域得到了广泛应用。但是由于eeg信号具有非平稳性、低信噪比的特点,eeg特征学习相较于人脸图像特征学习更具挑战性,如何提取更具泛化性的eeg特征用于情感识别、如何充分利用多模态信息捕捉情感语义的一致性与互补性成为研究者的研究重点之一。

2、针对如何提取更具泛化性的eeg特征用于情感识别:现有的eeg特征提取主要包括手工特征提取、脑电地形图、深度学习三种方法。然而,手工特征提取方法忽略了eeg信号通道间的相关性,使得模型性能受限;脑电地形图方法性能依赖于手工特征的质量;现有的深度学习方法通过简单的卷积操作从eeg信号中学习特征,忽视了eeg信号本质上是一种复杂的时间序列数据,导致模型难以充分建模eeg信号内部复杂的时空关系,影响最终的情感识别准确性。针对如何充分利用多模态信息捕捉情感语义的一致性与互补性:特征级融合、决策级融合是最为常见的策略。然而,特征级融合方法无法克服模态间的语义鸿沟问题,难以充分挖掘模态间的语义一致性;决策级融合方法仅侧重于提取各模态的特有语义信息,而无法提取模态间的共享语义信息,导致情感识别性能受限。

3、由上可知,针对如何从eeg信号这种非线性多通道时间序列中学习具有更显著的情感语义的特征用于情感识别,如何充分利用多模态信息捕捉情感语义的一致性与互补性,从而提升情感识别模型的性能成为本领域研究需要克服的重点问题。为此,本技术提出了一种多粒度注意力与特征分布校准的双模态情感识别方法,即多粒度注意力与特征分布校准(mga-fdc)模型,用于提高eeg信号与人脸图像的双模态情感识别的准确性。


技术实现思路

1、本发明的目的是提供多粒度注意力与特征分布校准的双模态情感识别方法,能有效地提高eeg信号与人脸图像双模态情感识别的准确率。

2、本发明所采用的技术方案是,多粒度注意力与特征分布校准的双模态情感识别方法,具体步骤如下:

3、步骤1、获取样本集,并将样本集中的每个样本划分为多个1s长的数据片段,得到的数据片段集合,并将数据片段集合划分为5部分,取1部分为测试集,其余为训练集;

4、步骤2、搭建mga-fdc模型;

5、步骤3、用训练集中数据片段训练mga-fdc模型,得到训练好的mga-fdc模型;

6、步骤4、用测试集中的数据片段对训练好的mga-fdc模型测试,得到情感识别模型;

7、步骤5、将待识别样本输入到上述情感识别模型即可进行该待识别样本的eeg信号以及图像样本情感识别。

8、本发明的特点还在于:

9、步骤1中的样本集通过公开的deap数据集和mahnob-hci数据集获取,样本集中的每个样本包含人脸图像视频及其对应的eeg信号及情感类别标签。

10、步骤2中的mga-fdc模型包括从上到下逐层设置的eeg信号特征学习模型、人脸图像特征学习模型、多粒度注意力模块、特征分布校准模块、分类器五部分,mga-fdc模型的搭建过程如下:

11、步骤2.1、构建eeg信号特征学习模型,获取样本集eeg信号样本的eeg模态的输出特征;

12、步骤2.2、构建人脸图像特征学习模型,获取样本集人脸图像视频的人脸图像模态的输出特征;

13、步骤2.3、通过多粒度注意力对eeg模态的输出特征与人脸图像模态的输出特征进行融合,得到经过处理的双模态特征、eeg模态特征以及人脸图像模态特征;

14、步骤2.4、通过特征分布校准模块对经过处理的双模态特征、eeg模态特征以及人脸图像模态特征进行特征分布校准,得到校准后的eeg模态特征和人脸图像模态特征;

15、步骤2.5、对步骤2.4中得到的两个校准后的模态特征进行拼接操作,并将其结果输入到分类器,即可完mga-fdc模型的搭建。

16、eeg信号特征学习模型包括分层设置的第1个二维卷积模块、深度可分离卷积模块及第2个二维卷积模块,该模型对数据的具体处理过程如下:

17、步骤2.1.1、将样本集中的eeg信号样本作为第1个二维卷积模块的输入,将卷积核大小设置为采样率f的一半,从而允许模型捕获2hz及以上的频率信息,得到初步处理后的eeg信号特征;

18、步骤2.1.2、将步骤2.1.1中得到的初步处理后的eeg信号特征作为深度可分离卷积模块的输入特征,采用深度卷积捕捉初步处理后的eeg信号特征的空间关系,并采用可分离卷积捕捉初步处理后的eeg信号特征的时间特征,通过深度卷积与可分离卷积的结合,得到包含时空关系的eeg信号特征;

19、步骤2.1.3、将包含时空关系的eeg信号特征作为第2个2维卷积模块的输入,通过2维卷积进一步学习eeg信号特征,得到eeg模态的输出特征e1。

20、人脸图像特征学习模型包括卷积神经网络和卷积长短期记忆网络,该模型的数据处理过程如下:

21、步骤2.2.1、随机选取的任一1s数据片段中的5帧作为人脸图像数据输入预训练的卷积神经网络,预训练的卷积神经网络处理每帧人脸图像样本后得到每帧人脸图像样本对应的人脸图像特征;

22、步骤2.2.2、将步骤2.2.1得到的人脸图像特征依次送入卷积长短期记忆网络中,再将卷积长短期记忆网络的输出特征进行展平操作,捕捉各人脸图像帧之间的时间特征;

23、步骤2.2.3、将步骤2.2.2得到人脸图像特征依次送入卷积神经网络调整输出特征维度大小,得到人脸图像模态的输出特征f1。

24、多粒度注意力模块包括n层mga模块,其具体处理过程如下:

25、步骤2.3.1、对于第一层mga模块,通过e1与f1的元素级相加操作得到ef1,对于后续的每一层mga模块,通过en、fn与efn-1的元素级相加操作得到efn特征,公式如下:

26、

27、其中,n表示mga的最高层数,n表示1-n之间任一mga的层数,代表元素级相加操作,en、fn分别为第n层mga模块输入的eeg模态特征和人脸图像模态特征,efn为通过en、fn与efn-1的元素级相加操作得到双模态特征;

28、步骤2.3.2、基于eeg模态特征en,双模态特征efn,人脸图像模态特征fn三类特征分别生成qe、qef、qf三种查询向量,同时,充分捕捉fn内部的关键特征信息,基于fn生成键向量kf,具体如下:

29、

30、其中,分别表示第n层mga模块中用于生成查询向量qe、查询向量qef、查询向量qf、键向量kf的参数矩阵;

31、步骤2.3.3、基于fn结合查询向量qe、qef、qf生成α(qe,kf)、α(qef,kf)、α(qf,kf)三组注意力分数,该过程如下:

32、

33、其中,dk代表缩放点积因子,α(qe,kf)、α(qef,kf)、α(qf,kf)分别表示fn结合查询向量qe、qef、qf生成的注意力分数,表示对kf进行转置操作;

34、步骤2.3.4、基于α(qe,kf)、α(qef,kf)、α(qf,kf)三组注意力分数进一步生成最终的注意力分数α(q,k),并基于α(q,k)加权值向量vf,得到fn+1,完成对人脸图像模态内部的特征学习,公式如下:

35、α(q,k)=softmax(α(qe,kf)+α(qef,kf)+α(qf,kf))   (9)

36、fn+1=vfα(q,k)   (10)

37、其中,α(q,k)为最终的注意力分数,vf为α(q,k)加权值向量、fn+1为n+1层人脸图像模态特征、α(qe,kf)、α(qef,kf)、α(qf,kf)表示fn结合查询向量qe、qef、qf生成的注意力分数;

38、步骤2.3.5、重复步骤2.3.1-步骤2.3.4的步骤,得到第n+1层mga模块的eeg模态特征en+1,完成对eeg模态内部的特征学习。

39、特征分布校准模块的数据处理过程如下:

40、步骤2.4.1、与步骤2.3.1生成efn方式相同,生成ef,ef由en+1、fn+1和efn的元素级相加得到,即:

41、

42、步骤2.4.2、生成f对应的缩放权重wf:通过自适应全局平均池化分别得到f在c、l维度上的全局特征,接着通过1维卷积对f在c、l维度上的全局特征进行降维;之后,加入批量归一化与relu激活函数,降低f在c、l维度上的全局特征分布中数据的发散程度,降低网络训练难度,完成非线性激活;随后,再次通过1维卷积完成特征的升维,得到f在c、l维度上的更具表征能力的特征fc、fl;最后,基于fc、fl的点乘操作,得到wf,公式如下:

43、fc=conv1d(relu(bn(conv1d(avgpool(ef)))))   (12)

44、fl=conv1d(relu(bn(conv1d(avgpool(reshape(ef))))))   (13)

45、wf=fc·fl   (14)

46、其中,reshape(·)代表维度变换操作,avgpool(·)代表全局平均池化操作,conv1d(·)代表1维卷积操作,bn(·)代表批量归一化操作,relu(·)代表relu激活函数;

47、步骤2.4.3、生成f对应的偏移权重bf:先通过1维卷积完成对f的特征降维,并引入批量归一化和relu激活函数,再通过1维卷积升维特征,最后通过sigmoid激活函数完成特征归一化,偏移权重实现公式如下:

48、bf=sigmoid(conv1d(relu(bn(conv1d(ef)))))   (15)

49、步骤2.4.4、基于缩放权重wf、偏移权重bf完成对f的特征分布的校准,实现公式如下:

50、

51、其中,⊙代表元素级乘法操作,f′为校准后的人脸图像模态特征,bf为偏移权重,wf为缩放权重;

52、步骤2.4.5、重复步骤2.4.1-步骤2.4.4,得到e′为校准后的eeg模态特征,be为偏移权重,we为缩放权重。

53、分类器具体处理过程如下:将经过特征分布校准模块后的e′、f′拼接,并将其展平为一维向量中,送入分类器中得到搭建好的mga-fdc模型,具体如下:

54、predict=classifiaction(concat(e′,f′))   (17)

55、其中,concat(·)用于表示拼接操作,classifiaction(·)用于表示分类器,包括全连接层、dropout层以及激活函数三部分,f′为校准后的人脸图像模态特征,e′为校准后的eeg模态特征。

56、步骤3的具体过程如下:将训练集中的每个数据片段样本均带入步骤2搭建好的mga-fdc模型,分别输出其预测情感类别,将每个数据片段样本的预测情感类别与其情感类别标签进行比较,并将两者之间的损失最小化,通过反向传播算法更新模型中的网络参数,直至模型在训练集上保持稳定的情感预测性能,保存模型,得到训练好的模型。

57、步骤4的具体过程如下:用测试集对训练好的模型进行测试,并保存模型在该部分测试集上的实验结果,共测试五次,保证每次所使用的测试集中的数据片段不重叠,再将5次测试结果的平均值作为模型的最终测试结果;若测试结果达到预期要求,则保存模型,得到情感识别模型,若测试结果未达到预期要求,则对模型架构、参数进行调整,并重复步骤1到步骤4,直至测试结果达到预期要求,保存模型,得到情感识别模型。

58、本发明的有益效果是:

59、(1)多粒度注意力与特征分布校准的双模态情感识别方法,为了充分捕捉各模态特征信息,以学习更具显著性的情感语义特征,设计了多粒度注意力(multi-granularityattention,mga)模块,先采用元素级相加的方式生成双模态特征,再基于各模态特征、双模态特征分别生成查询向量,并基于三种不同的查询向量分别生成三种注意力矩阵,最后基于三组注意力矩阵生成最终的注意力分数,并作用于输入模态特征,使得模型能够更细粒度地区分模态内特有特征与模态间共享特征不同的重要程度;

60、(2)为缓解模态间的语义鸿沟问题,从而捕捉模态间的情感语义一致性,有效地完成特征融合,提出了特征分布校准(feature distribution calibration,fdc)模块,基于双模态特征生成各模态对应的缩放权重、偏移权重,并基于这两组权重完成对输入特征的加权,通过双模态特征校准各模态高级语义特征的分布,从而有效降低各模态特征的语义差异。

61、(3)在deap数据集和mahnob-hci数据集上开展了大量实验,采用跨试验验证以及5折交叉验证两种实验方法展示了所提出方法的可行性和有效性。


技术特征:

1.多粒度注意力与特征分布校准的双模态情感识别方法,其特征在于,具体步骤如下:

2.根据权利要求1所述的多粒度注意力与特征分布校准的双模态情感识别方法,其特征在于,样本集通过公开的deap数据集和mahnob-hci数据集获取,样本集中的每个样本包含人脸图像视频及其对应的eeg信号及情感类别标签。

3.根据权利要求1所述的多粒度注意力与特征分布校准的双模态情感识别方法,其特征在于,步骤2所述的mga-fdc模型包括从上到下逐层设置的eeg信号特征学习模型、人脸图像特征学习模型、多粒度注意力模块、特征分布校准模块、分类器五部分,mga-fdc模型的搭建过程如下:

4.根据权利要求3所述的多粒度注意力与特征分布校准的双模态情感识别方法,其特征在于,所述eeg信号特征学习模型包括分层设置的第1个二维卷积模块、深度可分离卷积模块及第2个二维卷积模块,该模型对数据的具体处理过程如下:

5.根据权利要求4所述的多粒度注意力与特征分布校准的双模态情感识别方法,其特征在于,所述人脸图像特征学习模型包括卷积神经网络和卷积长短期记忆网络,该模型的数据处理过程如下:

6.根据权利要求5所述的多粒度注意力与特征分布校准的双模态情感识别方法,其特征在于,所述多粒度注意力模块包括n层mga模块,其具体处理过程如下:

7.根据权利要求6所述的多粒度注意力与特征分布校准的双模态情感识别方法,其特征在于,特征分布校准模块的数据处理过程如下:

8.根据权利要求7所述的多粒度注意力与特征分布校准的双模态情感识别方法,其特征在于,分类器具体处理过程如下:将经过特征分布校准模块后的e′、f′拼接,并将其展平为一维向量中,送入分类器中得到搭建好的mga-fdc模型,具体如下:

9.根据权利要求1所述的多粒度注意力与特征分布校准的双模态情感识别方法,其特征在于,步骤3的具体过程如下:将训练集中的每个数据片段样本均带入步骤2搭建好的mga-fdc模型,分别输出其预测情感类别,将每个数据片段样本的预测情感类别与其情感类别标签进行比较,并将两者之间的损失最小化,通过反向传播算法更新模型中的网络参数,直至模型在训练集上保持稳定的情感预测性能,保存模型,得到训练好的模型。

10.根据权利要求1所述的多粒度注意力与特征分布校准的双模态情感识别方法,其特征在于,步骤4的具体过程如下:用测试集对训练好的模型进行测试,并保存模型在该部分测试集上的实验结果,共测试五次,保证每次所使用的测试集中的数据片段不重叠,再将5次测试结果的平均值作为模型的最终测试结果;若测试结果达到预期要求,则保存模型,得到情感识别模型,若测试结果未达到预期要求,则对模型架构、参数进行调整,并重复步骤1到步骤4,直至测试结果达到预期要求,保存模型,得到情感识别模型。


技术总结
本发明公开了多粒度注意力与特征分布校准的双模态情感识别方法,步骤如下:步骤1、获取样本集;步骤2、搭建MGA‑FDC模型;步骤3、用训练集中数据片段训练MGA‑FDC模型,得到训练好的MGA‑FDC模型;步骤4、用测试集中的数据片段对训练好的MGA‑FDC模型测试,得到情感识别模型;步骤5、将待识别样本输入到上述情感识别模型即可进行该待识别样本的EEG信号以及图像样本情感识别。本申请搭建的MGA‑FDC模型在相较于目前方法具有最优的性能表现,可以更为有效地完成基于EEG信号和人脸图像的双模态情感识别任务,对于实际应用而言更具有现实意义。

技术研发人员:孙强,陈远,张文森
受保护的技术使用者:西安理工大学
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-23804.html