本发明属于计算机视觉与模式识别领域,更具体地,涉及一种基于交叉注意融合的人脸动作单元强度识别方法及系统。
背景技术:
1、au(action unit)即人脸动作单元,是面部表情识别和分析领域中的核心组成部分,由人类面部表情学家paul ekman和wallace v.friesen在1970年代共同创建。au主要用于描述和量化人类面部表情中不同部位肌肉群的活动程度,这些活动涉及眉毛、眼睛、鼻子、嘴巴等面部区域的细微变化。人脸中的每个动作单元都被分配一个唯一的代码。例如,au2代表外侧眉毛的上扬;au26代表下颚下垂等。au强度在标注时候被量化为6个有序级别(0-5,0代表强度最弱),并提供注释说明。
2、transformer模型最初在自然语言处理(nlp)领域取得了巨大的成功,如bert和gpt模型。而在计算机视觉(cv)领域,vit模型(vision transformer)通过将输入图像分割成小块并转换为向量形式,结合位置编码来保持空间信息。vit模型的编码器是其核心结构之一,主要包含层归一化(layer norm)、多头注意力机制(multi-head attention)、随机失活层(dropout)和多层感知机层(mlp)几个关键部分,将多层堆叠的编码器称为vit模型的encoder block层。layer norm通过规范化技术稳定模型训练并加速收敛。multi-headattention机制允许模型捕捉图像各部分之间的复杂关系,理解局部特征与整体结构信息。dropout作为正则化手段,通过随机丢弃神经元来防止过拟合。mlp则为每个位置独立提取特征,增强模型的表达能力。这些组件共同工作,提高vit模型对图像内容的处理和理解能力。
3、人脸地标点是指在面部关键部位标注的一系列坐标点,用于精准描绘和分析面部结构与动态。其中,68点地标是一种广泛应用的标准配置,它涵盖了眼部、眉毛、鼻子、嘴唇及脸部轮廓等区域的详细位置信息。这些点不仅能够帮助识别个体特征,还支持面部表情分析、姿态校正、虚拟现实交互等多种功能,在人脸识别、医疗整形、娱乐科技等领域发挥着核心作用。通过深度学习等先进技术,现代地标点检测系统能高效准确地定位这68个关键点,极大地提升了面部信息处理的精确度和速度。
4、以往有很多研究au强度的方法也是从时间特征和空间特征出发的,例如使用动态图卷积(dgcnn)或者图卷积神经网络(gcn)来考虑au之间的共发生特性,还有一些基于au的发生关系对数据进行建模,采用一种自监督的方式对au进行强度的预测。或者使用卷积神经网络(cnn)来建立时间模块专门提取au的时间特征。但是,现有au强度识别方法存在训练复杂、准确度不够的缺点。
技术实现思路
1、针对现有技术的以上缺陷或改进需求,本发明提供了一种基于交叉注意融合的人脸动作单元强度识别方法及系统,能够有效提升au的强度识别能力。
2、为实现上述目的,按照本发明的一个方面,提供了一种基于交叉注意融合的人脸动作单元强度识别方法,基于训练后的深度学习模型进行人脸动作单元强度识别,所述深度学习模型的训练包括步骤:
3、从训练图像序列中采集样本对,每个样本对包含两张不同强度值的图像帧样本,将样本对中两张图像帧样本所包含的人脸动作单元分别标记强度标签,将样本对中一张图像帧样本作为第一图像帧样本输入到时序分析模块的第一分支,得到第一图像帧样本所包含的人脸动作单元的第一强度预测值和图片强度排序值,将样本对中另一张图像帧样本作为第二图像帧样本输入到所述时序分析模块的第二分支,得到第二图像帧样本所包含的人脸动作单元的第一强度预测值和图片强度排序值;
4、对样本对中第一图像帧样本进行roi区域的切割,将第一图像帧样本切割出的roi区域送入到空间分析模块,得到第一图像帧样本所包含的人脸动作单元的第二强度预测值;
5、根据两个图像帧样本的图片强度排序值计算排序损失,根据两个图像帧样本所包含的人脸动作单元的第一强度预测值和对应强度标签计算时序分支损失,根据第一图像帧样本所包含的人脸动作单元的第二强度预测值和对应强度标签计算空间分支损失,将所有样本对的排序损失、时序分支损失、空间分支损失之和作为所述深度学习模型的损失函数,基于所述损失函数对所述深度学习模型进行迭代训练。
6、进一步地,在所述时序分析模块的第一分支得到第一图像帧样本的时序编码特征以及所述空间分析模块得到第一图像帧样本的空间编码特征后,基于第一图像帧样本的时序编码特征和空间编码特征计算交叉注意力权重;
7、所述时序分析模块的第一分支基于第一图像帧样本的时序编码特征和交叉注意力权重输出第一图像帧样本所包含的人脸动作单元的第一强度预测值和图片强度排序值;
8、所述空间分析模块基于所述第一图像帧样本的空间编码特征和交叉注意力权重输出第一图像帧样本所包含的人脸动作单元的第二强度预测值。
9、进一步地,所述基于训练后的深度学习模型进行人脸动作单元强度识别,包括步骤:
10、获取待识别的图像帧,将待识别的图像帧输入到所述时序分析模块,从待识别的图像帧中裁剪得到roi区域,将待识别的图像帧的roi区域输入到所述空间分析模块,将所述时序分析模块的输出特征作为待识别的图像帧的识别强度。
11、进一步地,所述时序分析模块为孪生网络,且所述时序分析模块的第一分支和第二分支的参数共享。
12、进一步地,所述时序分析模块的每个分支包括vit网络、全局平均池化层和两个全连接层,所述时序分析模块的vit网络的第一输出连接全局平均池化层的输入,全局平均池化层的输出连接一个全连接层,所述时序分析模块的vit网络的第二输出连接另一个全连接层,空间分析模块包括vit网络、全局平均池化层和一个全连接层,所述空间分析模块的vit网络的输出连接全局平均池化层的输入,全局平均池化层的输出连接全连接层,所述时序分析模块的第一分支的vit网络与所述空间分析模块的vit网络通过交叉注意力模块连接。
13、进一步地,排序损失的计算公式为:
14、
15、其中,表示排序损失,max代表取最大值操作,表示第n个样本对中第一图像帧样本的图片强度排序值,表示第n个样本对中第二图像帧样本的图片强度排序值,n表示样本对的数量。
16、进一步地,时序分支损失的计算公式为:
17、
18、其中,表示时序分支损失,表示第n个样本对中第一图像帧样本的人脸动作单元的第一强度预测向量,表示第n个样本对中第一图像帧样本的人脸动作单元的强度标签向量,表示第n个样本对中第二图像帧样本的人脸动作单元的第一强度预测向量,表示第n个样本对中第二图像帧样本的人脸动作单元的强度标签向量;
19、空间分支损失的计算公式为:
20、
21、其中,表示空间分支损失,表示第n个样本对中第一图像帧样本的人脸动作单元的第二强度预测向量,表示第n个样本对中第一图像帧样本的人脸动作单元的第二强度标签向量,n表示样本对的数量。
22、进一步地,将图像帧样本所包含的人脸动作单元强度之和作为该图像帧样本的强度值。
23、进一步地,所述从训练图像序列中采集样本对包括步骤:按每一张图片样本帧的强度上升或下降的变化趋势将整个对齐人脸图像序列划分为多个单调上升和单调下降的训练图像序列,对每个训练图像序列进行固定间隔采样,获得样本对。
24、按照本发明的另一方面,提供了一种基于交叉注意融合的人脸动作单元强度识别系统,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行任一项所述方法的步骤。
25、总体而言,本发明所构思的以上技术方案与现有技术相比,具有有益效果:
26、1.本发明使用单个时序分析模块提取全局表情时序信息,辅助多个au的强度估计任务。相较于为每个au构建时序分析模块,这样做不仅简化了训练数据的组织过程,也降低了模型的计算复杂度。同时,时序信息的全局性也用来补充roi以外的空间语义。
27、2.本发明使用特征点引导的基于roi区域的空间分析模块提取各au的局部空间信息,该模型在一定程度上消除了空间上的冗余信息,亦探索了局部roi之间的语义关联,从而增强各au的语义表征能力。基于roi区域的空间分析模块采用和时序分析模块相同的网络结构,也有利于时序分析模块、空间分析模块的融合。
28、3.本发明使用交叉注意力融合空间语义和时序语义。通过探索全局语义与局部语义之间关联,空间语义与时序语义之间关联,进一步增强au强度估计的性能。
1.一种基于交叉注意融合的人脸动作单元强度识别方法,其特征在于,基于训练后的深度学习模型进行人脸动作单元强度识别,所述深度学习模型的训练包括步骤:
2.如权利要求1所述的基于交叉注意融合的人脸动作单元强度识别方法,其特征在于,在所述时序分析模块的第一分支得到第一图像帧样本的时序编码特征以及所述空间分析模块得到第一图像帧样本的空间编码特征后,基于第一图像帧样本的时序编码特征和空间编码特征计算交叉注意力权重;
3.如权利要求1所述的基于交叉注意融合的人脸动作单元强度识别方法,其特征在于,所述基于训练后的深度学习模型进行人脸动作单元强度识别,包括步骤:
4.如权利要求1所述的基于交叉注意融合的人脸动作单元强度识别方法,其特征在于,所述时序分析模块为孪生网络,且所述时序分析模块的第一分支和第二分支的参数共享。
5.如权利要求4所述的基于交叉注意融合的人脸动作单元强度识别方法,其特征在于,所述时序分析模块的每个分支包括vit网络、全局平均池化层和两个全连接层,所述时序分析模块的vit网络的第一输出连接全局平均池化层的输入,全局平均池化层的输出连接一个全连接层,所述时序分析模块的vit网络的第二输出连接另一个全连接层,空间分析模块包括vit网络、全局平均池化层和一个全连接层,所述空间分析模块的vit网络的输出连接全局平均池化层的输入,全局平均池化层的输出连接全连接层,所述时序分析模块的第一分支的vit网络与所述空间分析模块的vit网络通过交叉注意力模块连接。
6.如权利要求1所述的基于交叉注意融合的人脸动作单元强度识别方法,其特征在于,排序损失的计算公式为:
7.如权利要求1所述的基于交叉注意融合的人脸动作单元强度识别方法,其特征在于,时序分支损失的计算公式为:
8.如权利要求1所述的基于交叉注意融合的人脸动作单元强度识别方法,其特征在于,将图像帧样本所包含的人脸动作单元强度之和作为该图像帧样本的强度值。
9.如权利要求1所述的基于交叉注意融合的人脸动作单元强度识别方法,其特征在于,所述从训练图像序列中采集样本对包括步骤:按每一张图片样本帧的强度上升或下降的变化趋势将整个对齐人脸图像序列划分为多个单调上升和单调下降的训练图像序列,对每个训练图像序列进行固定间隔采样,获得样本对。
10.一种基于交叉注意融合的人脸动作单元强度识别系统,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行权利要求1~9任一项所述方法的步骤。
