基于自动驾驶场景的大模型应用方法、装置、设备及介质与流程

专利2026-03-03 18

本技术涉及计算机视觉，尤其涉及一种基于自动驾驶场景的大模型应用方法、装置、设备及介质。

背景技术：

1、自动驾驶是指利用机电一体化、人工智能和多智能体系统等技术，实现对车辆如汽车、卡车、飞机或水上交通工具等的辅助或全自动控制操作。街景语义理解是自动驾驶中的一个重要环节，旨在准确识别并分割出行人、障碍物、道路和标志物等要素，为自动驾驶技术提供必要的道路信息。

2、相关技术中，一般采用视觉模型对街景图像进行识别。然而，由于车载计算平台的功耗和空间限制，将可能导致模型在实际对街景图像识别的过程中的延迟增加，从而导致模型对街景图像的识别效率降低；另一方面，由于一般视觉模型缺乏自适应能力，导致在面对新环境时，模型对新环境的识别准确性降低。

技术实现思路

1、本技术实施例的主要目的在于提出一种基于自动驾驶场景的大模型应用方法、装置、设备及介质，能够在提高图像识别的识别效率的同时，提高模型对图像识别的准确性。

2、为实现上述目的，本技术实施例的第一方面提出了一种基于自动驾驶场景的大模型应用方法，所述方法包括：

3、从当前的自动驾驶数据中获取待识别图像；

4、根据预先训练得到的目标视觉模型的视觉主干网络，对所述待识别图像进行特征提取，并将提取到的特征输入至所述目标视觉模型的感知头中，得到第一待识别特征；

5、通过所述目标视觉模型中的后验优化轨迹生成器，对所述第一待识别特征进行随机梯度下降处理，得到用于指示所述目标视觉模型后续推理方向的第二待识别特征；

6、通过所述目标视觉模型对所述第一待识别特征和所述第二待识别特征融合得到的目标待识别特征进行语义识别，得到所述待识别图像的图像识别结果。

7、相应的，本技术实施例的第二方面提出了一种基于自动驾驶场景的大模型应用装置，所述装置包括：

8、获取模块，用于从当前的自动驾驶数据中获取待识别图像；

9、输入模块，用于根据预先训练得到的目标视觉模型的视觉主干网络，对所述待识别图像进行特征提取，并将提取到的特征输入至所述目标视觉模型的感知头中，得到第一待识别特征；

10、处理模块，用于通过所述目标视觉模型中的后验优化轨迹生成器，对所述第一待识别特征进行随机梯度下降处理，得到用于指示所述目标视觉模型后续推理方向的第二待识别特征；

11、识别模块，用于通过所述目标视觉模型对所述第一待识别特征和所述第二待识别特征融合得到的目标待识别特征进行语义识别，得到所述待识别图像的图像识别结果。

12、在一些实施方式中，所述基于自动驾驶场景的大模型应用装置还包括融合模块，用于：

13、获取针对所述第一待识别特征对应的第一权重信息，以及针对所述第二待识别特征对应的第二权重信息；

14、根据所述第一待识别特征与所述第一权重信息的乘积，确定第一乘积；

15、根据所述第二待识别特征与所述第二权重信息的乘积，确定第二乘积；

16、根据所述第一乘积和所述第二乘积之和，得到目标待识别特征。

17、在一些实施方式中，所述处理模块，还用于：

18、获取所述第一待识别特征的对应的第一预测标签，以及所述待识别图像对应的第一预估标签；

19、通过所述目标视觉模型的后验优化轨迹生成器，基于所述第一预估标签和所述第一预测标签，确定所述感知头在预测所述第一待识别特征时的第一损失；

20、基于所述第一损失和所述第一待识别特征，确定对所述第一待识别特征进行随机梯度下降处理的第一梯度；

21、通过梯度下降算法对所述第一待识别特征更新所述第一梯度，得到更新后的第一待识别特征；

22、重复获取所述更新后的第一待识别特征对应的第一预测标签，以及所述待识别图像对应的第一预估标签；通过所述目标视觉模型的后验优化轨迹生成器，基于所述第一预估标签和所述第一预测标签，确定所述感知头在预测所述更新后的第一待识别特征时的第一损失；基于所述第一损失和所述更新后的第一待识别特征，确定对所述更新后的第一待识别特征进行随机梯度下降处理的第一梯度；通过梯度下降算法对所述第一待识别特征更新所述第一梯度，得到更新后的第一待识别特征，直至更新的次数达到预设的第一梯度次数，根据所述更新后的第一待识别特征得到用于指示所述目标视觉模型后续推理方向的第二待识别特征。

23、在一些实施方式中，所述基于自动驾驶场景的大模型应用装置还包括训练模块，用于：

24、从历史自动驾驶数据中获取样本待识别图像；

25、将所述样本待识别图像输入至自动驾驶场景对应的第一视觉模型中的视觉主干网络进行特征提取，并将提取的得到的样本特征输入至感知头中，得到第一样本待识别特征；

26、通过所述第一视觉模型中的后验优化轨迹生成器，对所述第一样本待识别特征进行随机梯度下降处理，得到用于指示所述第一视觉模型后续优化方向的第二样本待识别特征；

27、通过所述第一视觉模型对所述第一样本待识别特征和所述第二样本待识别特征融合得到的目标样本待识别特征，进行语义识别，得到所述样本待识别图像的样本预测结果；

28、获取所述样本待识别图像的真实样本标签，并基于所述真实样本标签和所述样本预测结果之间的差距，确定目标损失；

29、基于所述目标损失对所述第一视觉模型的参数进行调整，直至达到预设的收敛条件，得到更新后的目标视觉模型。

30、在一些实施方式中，所述基于自动驾驶场景的大模型应用装置还包括更新模块，用于：

31、获取所述第一视觉模型的上一次更新的更新时间，并从历史自动驾驶数据中确定所述更新时间之后的样本待识别图像；

32、从所述历史自动驾驶数据中获取所述更新时间之前的历史图像，并计算所述样本待识别图像与所述历史图像的场景差异度；

33、获取场景差异阈值，当所述场景差异度小于所述场景差异阈值时，触发对所述第一视觉模型的更新操作。

34、在一些实施方式中，所述训练模块，还用于：

35、获取针对所述第一样本待识别特征对应的第一样本权重信息，以及针对所述第二样本待识别特征对应的第二样本权重信息；

36、根据所述第一样本待识别特征与所述第一样本权重信息的乘积，确定第一样本乘积；

37、根据所述第二样本待识别特征与所述第二样本权重信息的乘积，确定第二样本乘积；

38、根据所述第一样本乘积和所述第二样本乘积之和，得到目标样本待识别特征。

39、在一些实施方式中，所述训练模块，还用于：

40、获取所述第一样本待识别特征对应的第一样本预测标签，以及所述待识别图像对应的第一样本预估标签；

41、通过所述目标视觉模型的后验优化轨迹生成器，基于所述第一样本预估标签和所述第一样本预测标签，确定所述感知头在预测所述第一样本待识别特征时的第一样本损失；

42、基于所述第一样本损失和所述第一样本待识别特征，确定对所述第一样本待识别特征进行随机梯度下降处理的第一样本梯度；

43、通过梯度下降算法对所述第一样本待识别特征更新所述第一样本梯度，得到更新后的第一样本待识别特征；

44、重复获取所述更新后的第一样本待识别特征对应的第一样本预测标签，以及所述待识别图像对应的第一样本预估标签；通过所述目标视觉模型的后验优化轨迹生成器，基于所述第一样本预估标签和所述第一样本预测标签，确定所述感知头在预测所述更新后的第一样本待识别特征时的第一样本损失；基于所述第一样本损失和所述更新后的第一样本待识别特征，确定对所述更新后的第一样本待识别特征进行随机梯度下降处理的第一样本梯度；通过梯度下降算法对所述第一样本待识别特征更新所述第一样本梯度，得到更新后的第一样本待识别特征，直至更新的次数达到预设的第一样本梯度次数，根据所述更新后的第一样本待识别特征得到用于指示所述目标视觉模型后续优化方向的第二样本待识别特征。

45、相应的，本技术实施例的第三方面提出了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本技术第一方面实施例任一项所述的基于自动驾驶场景的大模型应用方法。

46、相应的，本技术实施例的第四方面提出了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本技术第一方面实施例任一项所述的基于自动驾驶场景的大模型应用方法。

47、本技术实施例通过从当前的自动驾驶数据中获取待识别图像；根据预先训练得到的目标视觉模型的视觉主干网络，对待识别图像进行特征提取，并将提取到的特征输入至目标视觉模型的感知头中，得到第一待识别特征；通过目标视觉模型中的后验优化轨迹生成器，对第一待识别特征进行随机梯度下降处理，得到用于指示目标视觉模型后续推理方向的第二待识别特征；通过目标视觉模型对第一待识别特征和第二待识别特征融合得到的目标待识别特征进行语义识别，得到待识别图像的图像识别结果。以此，能够通过随机梯度下降生成代表目标视觉模型在未来方向的预测推理方向的第二待识别特征，以加速推理阶段的决策速度。并且，通过将第一待识别特征和第二待识别特征进行融合得到增强后的目标待识别特征，可以帮助目标视觉模型在场景理解和决策时更快速、准确地输出预测结果。综上，本技术能够在提高图像识别的识别效率的同时，提高目标视觉模型对图像识别的准确性。

技术特征：

1.一种基于自动驾驶场景的大模型应用方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于自动驾驶场景的大模型应用方法，其特征在于，所述目标待识别特征以下方式融合得到：

3.根据权利要求1所述的基于自动驾驶场景的大模型应用方法，其特征在于，所述通过所述目标视觉模型中的后验优化轨迹生成器，对所述第一待识别特征进行随机梯度下降处理，得到用于指示所述目标视觉模型后续推理方向的第二待识别特征，包括：

4.根据权利要求1所述的基于自动驾驶场景的大模型应用方法，其特征在于，所述目标视觉模型通过以下方式训练得到：

5.根据权利要求4所述的基于自动驾驶场景的大模型应用方法，其特征在于，所述从历史自动驾驶数据中获取样本待识别图像之前，还包括：

6.根据权利要求4所述的基于自动驾驶场景的大模型应用方法，其特征在于，所述第一样本待识别特征和所述第二样本待识别特征的目标样本待识别特征通过以下方式融合得到：

7.根据权利要求4所述的基于自动驾驶场景的大模型应用方法，其特征在于，所述通过所述第一视觉模型中的后验优化轨迹生成器，对所述第一样本待识别特征进行随机梯度下降处理，得到用于指示所述第一视觉模型后续优化方向的第二样本待识别特征，包括：

8.一种基于自动驾驶场景的大模型应用装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的基于自动驾驶场景的大模型应用方法。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的基于自动驾驶场景的大模型应用方法。

技术总结
本申请实施例提供了一种基于自动驾驶场景的大模型应用方法、装置、设备及介质。方法包括：从当前的自动驾驶数据中获取待识别图像；根据预先训练得到的目标视觉模型的视觉主干网络，对待识别图像进行特征提取，并将提取到的特征输入至目标视觉模型的感知头中，得到第一待识别特征；通过目标视觉模型中的后验优化轨迹生成器，对第一待识别特征进行随机梯度下降处理，得到用于指示目标视觉模型后续推理方向的第二待识别特征；通过目标视觉模型对第一待识别特征和第二待识别特征融合得到的目标待识别特征进行语义识别，得到待识别图像的图像识别结果。以此，能够在提高图像识别的识别效率的同时，提高模型对图像识别的准确性。

技术研发人员：寇卫斌,朱光旭,王帅,韩凯峰,陈琪美
受保护的技术使用者：深圳市大数据研究院
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-30313.html