基于多尺度注意力的驾驶员眼动预测方法

专利2026-01-03 20

本发明属于人工智能，更进一步设计一种驾驶员眼动预测方法，可用于智能驾驶辅助系统。

背景技术：

1、随着科技的不断发展，智能驾驶辅助系统作为一种先进的交通安全技术正逐渐成为汽车行业的热点。系统通过分析驾驶员的眼动数据，总结其眼动变换规律，能够有效认知驾驶员的视觉和心理，进而提早对异常驾驶行为做出相应的驾驶辅助措施，减少交通事故的发生。但是，真实的驾驶员眼动数据不易获取，其采集过程需要耗费较大的人力物力。传统的视频序列眼动点预测模型由图像视觉显著性预测发展而来，对不同的底层视觉特征如颜色、对比度、亮度等进行手工提取，但这种模型只能分析低级特征，缺乏高级的语义特征，无法有效提取视频序列中的帧间运动信息，生成的眼动预测图与通过眼动仪记录的真值图间存在误差，导致无法处理动态变化的真实场景。

2、随着人工神经网络的发展，大量研究成果涌现，如salgan、salicon、aclnet、tased-net、unisal方法，这些方法均结合了深度神经网络进行注视点检测，虽然通过引入长短期记忆网络可捕获帧间的运动信息，但却由于会丢失时序距离较远的信息，导致全局信息不完整。为了解决这些问题，近年来，研究人员提出了基于transformer结构的模型，该模型采用编码器-解码器网络结构，其中编码器主要由多个相同的结构(多头注意力层、归一化层、多层感知器层)组成，并且编码器之间使用了残差神经网络中的残差结构。该模型结合位置编码以及自注意力机制，扩大了感受野，从而能够获取空间距离较远的特征间的依赖关系，得到序列的全局与局部特征。

3、申请号为cn202210853133.8的专利文献公开了一种基于注视点预测模型的驾驶员注视点预测方法，其构建了视觉时空注意力层来提取序列的全局特征和局部特征。但该方法忽略了驾驶员由于主观意识想要改变驾驶行为从而引起注视点变化的情况，无法提取隐藏在图像序列中包含驾驶员主观意识的时序特征，无法得到精确的驾驶员眼动预测图。

4、申请号为cn202310656871.8的专利文献公开了一种视线预测模型的训练、估计方法、装置、系统及介质，该方法仅仅简单地将特征提取后得到的多层级特征进行融合，忽略了多层级特征的交互，导致部分信息被掩盖或丢失，不能很好的保留全局特征和局部特征。

5、申请号为cn202211000132.5的专利文献公开了一种注视点预测模型的训练方法、装置及电子设备，其设计了一种注视点超图学习模型构建注视点超图，并基于注视点超图得到预测注视点目标。但由于该方法只通过特征提取网络以及多层感知机网络对注视点进行预测，会丢失时序距离较远的信息，导致全局信息不完整；没有有效融合不同层级的特征，导致低级特征和高级特征的语义信息不能很好地结合，影响模型对眼动注视点预测结果的准确率。

技术实现思路

1、本发明的目的在于针对上述现有技术的不足，提出一种基于多尺度注意力的驾驶员眼动预测方法，以从原始图像序列中捕获帧间的运动信息以及序列的全局与局部特征，实现对驾驶员注视点的精准预测。

2、实现本发明目的的技术思路是：通过多尺度特征提取模块提取驾驶图像序列的多尺度特征；利用时空注意力特征融合模块将表示语义信息的高级特征和表示边缘、颜色等信息的低级特征进行上下文信息融合；利用驾驶员主观意识引导模块将时间特征和空间特征解耦，通过时序变化增强空间特征中眼动信息，进而更准确地预测驾驶员的眼动注视点。

3、根据上述技术思路，本发明的技术方案包括如下步骤：

4、(1)采集不同驾驶员在不同场景、时间、天气的行车驾驶视频，同时利用眼动仪采集视频眼动数据，并对眼动数据进行修正和处理，获得一一对应的自然驾驶数据d和眼动真值图数据e，再将其按照4:1的比例分为训练集和测试集；

5、(2)读取训练集自然驾驶数据并提取t帧图像序列，将每一帧图像转换为张量数据，再将他们拼接为t×h×w×3四维张量数据，其中h和w分别是每帧图像的高度和宽度，3是rgb通道数；

6、(3)构建驾驶员眼动预测模型编码器，并将t×h×w×3四维张量数据作为该编码器的输入，得到驾驶图像序列的多层级特征f1,f2,f3,f4；

7、(4)构建时空注意力特征融合模块：

8、4a)建立包括上采样模块、矩阵加法模块的特征融合网络；

9、4b)建立包括三条并行的注意力分支的多尺度通道时序注意力模块；

10、4c)建立包括矩阵加法模块、矩阵乘法模块、sigmoid激活函数的加权特征融合网络；

11、4d)将特征融合网络、多尺度通道时序注意力模块、加权特征融合网络串联得到时空注意力特征融合模块；

12、(5)利用时空注意力特征融合模块，得到多尺度时空注意力特征y1,y2,y3,y4：

13、5a)将步骤(3)得到的第i个层级特征fi与相邻的第i+1个层级特征fi+1输入到时空注意力特征融合模块中，fi+1通过上采样模块采样至与fi相同的分辨率，得到上采样特征fi'+1再与fi相加，得到原始的融合特征xi，该xi通过多尺度通道时序注意力模块得到融合特征的权重wi；

14、5b)加权特征融合网络根据层级特征fi的权重wi和层级特征fi'+1的权重1-wi，将fi与fi'+1进行融合得到多尺度时空注意力特征yi；

15、5c)重复步骤5a)-步骤5b)共3次，得到三个多尺度时空注意力特征y1,y2,y3，第4个层级特征f4保持不变，输出得到第四个时空注意力特征y4；

16、(6)构建驾驶员主观意识引导模块：

17、6a)建立包括两条并行的注意力分支的多尺度时序注意力模块；

18、6b)建立包括矩阵加法模块、sigmoid激活函数、矩阵乘法模块的特征融合网络；

19、6c)将多尺度时序注意力模块、特征融合网络串联得到驾驶员主观意识引导模块；

20、(7)利用驾驶员主观意识引导模块，得到驾驶员主观意识引导的多尺度空间特征z1,z2,z3,z4：

21、7a)将步骤(5)得到的第i个层级时空注意力特征yi输入到驾驶员主观意识引导模块，对yi解耦，获得带有驾驶员意识信息的时序特征fit和引起驾驶员意识变化的空间特征fis；

22、7b)fit通过多尺度时序注意力模块得到第i层驾驶员的意识信息fic，特征融合网络对fic与fis进行融合，获得驾驶员主观意识引导的空间特征zi；

23、7c)重复步骤7a)-步骤7b)共4次，得到驾驶员主观意识引导的多尺度空间特征z1,z2,z3,z4；

24、(8)使用驾驶员眼动预测模型解码器，得到驾驶员眼动预测图像p；

25、(9)将编码器、时空注意力特征融合模块、驾驶员主观意识引导模块、解码器依次级联构成驾驶员眼动预测模型；将训练集全部驾驶图像序列输入到该模型中，采用梯度下降法对其进行训练，得到训练好的驾驶员眼动预测模型；

26、(10)将测试集输入训练好的驾驶员眼动预测模型，得到预测的驾驶员眼动图像。

27、本发明与现有技术相比具有如下优点：

28、第一，本发明针对不同层级的特征具有不同的分布和表示能力，构建了时空注意力特征融合模块，通过多尺度注意力聚合不同层级特征之间的空间信息和时间维度的上下文信息，不仅同时保留了全局特征和局部特征，而且可促进网络在不同层级特征间交互多尺度上下文信息。

29、第二，本发明针对驾驶员在驾驶过程中的主观意识影响注视点变化，构建了驾驶员主观意识引导模块，通过多尺度注意力增强引起驾驶员意识变化的时序特征，可提高模型对驾驶员主观意识和认知模式的理解，进而更准确地预测驾驶员在驾驶过程中的眼动注视点。

技术特征：

1.一种基于多尺度注意力的驾驶员眼动预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1所述的方法，其特征在于，步骤4a)建立特征融合网络中的各模块结构及功能如下：

4.根据权利要求1所述的方法，其特征在于，步骤4b)中建立多尺度通道时序注意力模块中的三条并行的注意力分支结构及功能如下；

5.根据权利要求1所述的方法，其特征在于，步骤4c)建立加权特征融合网络中的各模块功能及sigmoid激活函数如下：

6.根据权利要求1所述的方法，其特征在于：

7.根据权利要求1所述的方法，其特征在于：

8.根据权利要求1所述的方法，其特征在于：

9.根据权利要求1所述的方法，其特征在于，步骤(8)中使用驾驶员眼动预测模型解码器，得到驾驶员眼动预测图像p，实现步骤包括如下：

10.根据权利要求1所述的方法，其特征在于，步骤(9)采用梯度下降法对驾驶员眼动预测模型进行训练，实现步骤包括如下：

技术总结
本发明公开了一种基于多尺度注意力的驾驶员眼动预测方法，主要解决现有技术不能有效融合多层级特征，且对驾驶员眼动点预测不准确的问题，其方案是：构建驾驶员眼动数据集，划分训练集和测试集；构建编码器得到驾驶图像序列多层级特征；构建时空注意力特征融合模块得到多尺度时空注意力特征；构建驾驶员主观意识引导模块得到驾驶员主观意识引导的多尺度空间特征；构建解码器得到驾驶员的眼动注视点图；将编码器、时空注意力特征融合模块、驾驶员主观意识引导模块、解码器级联构成驾驶员眼动预测模型；利用训练集对该模型进行训练；将测试集输入训练好的模型中得到预测的驾驶员眼动图像。本发明能有效预测驾驶员的眼动注视点，且准确性和鲁棒性高，可用于智能驾驶辅助系统。

技术研发人员：韩冰,关晶格,王海桐,韩怡园,高新波,杨铮
受保护的技术使用者：西安电子科技大学
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-28871.html