一种基于跨维度多光谱边缘融合的图像语义分割方法与流程

专利2026-02-15 13

本发明属于智能网联汽车环境感知，尤其涉及一种基于跨维度多光谱边缘融合的图像语义分割方法。

背景技术：

1、交通安全是社会研究中的一个关键话题，引起了广泛的关注。为了减轻交通拥堵的压力和不利影响，智能车辆已成为焦点。在复杂的智能驾驶系统中，获取周围信息并实现场景理解是实现各种高级功能的基本基础，例如语义映射，决策和安全高效导航。语义分割对图像中的每个像素进行分类，并已成为一项至关重要的计算机视觉任务，从而可以更深入地了解驾驶环境。

2、卷积神经网络因其在语义分割方面的杰出成就而受到广泛关注，在智能车辆中得到广泛应用。这些由卷积神经网络驱动的技术大多数主要依赖于视觉线索。然而，尽管它们在可见光图像方面取得了显著进步，但单模态感官方法已被证明不足以理解在不同照明和天气条件或复杂背景下捕获的场景。具体而言，在黑暗中、有眩光或阴影下捕获的图像通常质量较差，导致语义分割准确性下降。此外，夜间的低能见度和不良照明条件会阻碍驾驶员和行人准确观察道路状况的能力。

3、为此，采用深度数据为二维rgb图像提供三维几何信息，在一定程度上提高了图像分割精度。然而，深度信息在某些场景下可能会表现出不足。首先，激光雷达传感器提供的深度数据稀疏且不均匀，无法与图像的密集语义信息逐像素精确对齐，从而限制了图像丰富内容的利用；其次，深度相机捕获的深度数据可能在高速运动期间变得模糊，并且其飞行时间测量可能在处理多次反射时遇到挑战。因此，深度信息在光照不足或背景混乱的情况下缺乏鲁棒性和可靠性。

4、热红外摄像机提供了一种独特的方法，通过捕获物体发出的红外热能来克服深度映射约束，从而消除了对外部照明的依赖。这种相机擅长在具有挑战性的照明条件下成像物体，从夜间场景到明亮的灯光和阴影。他们特别擅长观察温度超过周围环境的物体，例如车辆和行人。然而，与彩色图像相比，热红外图像通常缺乏颜色和纹理细节，具有低对比度和存在杂乱噪声等。

5、目前，已有论文、专利围绕rgb-热红外图像的语义分割技术展开研究。然而，不同模态的特征对于语义分割的贡献并不相同，如何充分发挥rgb图像和热图像特征的优势，对跨模态特征进行有效地融合，是目前智能网联汽车环境感知领域亟需解决的关键问题之一。总体而言，现有的rgb-热红外图像的语义分割方法，在图像特征融合阶段未充分考虑低级和高级特征之间的各种属性和相互作用，难以有效解决复杂光照条件下因图像特征信息丢失导致的语义分割性能差的问题。

技术实现思路

1、为了解决复杂光照条件下因图像特征信息丢失导致的语义分割性能差的问题，本发明公开了一种基于跨维度多光谱边缘融合的图像语义分割方法。

2、为了实现本发明的上述目的，本发明提供了一种基于跨维度多光谱边缘融合的图像语义分割方法。首先，构建了基于分层注意力的双边多模态融合编码器，提取“rgb-热红外”模态中的低级和高级特征。其次，，构建了基于分层注意力的双边多模态融合编码器，提取rgb图像和热红外图像中的低级和高级特征；其次，引入边缘检测分支，利用构建的跳跃边缘引导结构加强对全局语义信息的利用；最后，设计了面向多个损失函数的深度监督机制，对具有多个损失函数的网络进行监督；其特征在于，包括以下步骤：

3、步骤一：构建双边多模态融合编码器；

4、首先，将四个不同尺度的rgb图像特征作为输入，采用单独的卷积模块来计算与每个尺度的特征相关联的权重；值得注意的是，所得到的权重的形状与原始特征的形状相同；随后，通过逐元素乘法将这些权重分配给相应的特征；这种基于注意力的特征融合的策略结合旨在通过允许模型在不同尺度上选择性地强调或不强调特定特征来增强模型的适应性和辨别力，从而优化融合过程；该过程可以表示为：

5、

6、其中，f'ci表示特征融合后的第i个尺度的rgb图像特征；

7、fci表示第i个尺度的rgb图像特征；

8、f()表示基于注意力的特征融合函数；

9、conva(·)表示带有激活的卷积运算；

10、⊙表示逐元素乘法；

11、σ()表示sigmoid函数；

12、之后，将特征融合后所选择的rgb图像特征f'ci添加到热图像特征fti获得融合特征ffi作为下一层的输入；

13、最后，通过融合跳过连接的方式，将四个尺度的rgb图像特征f'c连接至到最后一个解码器(层)；从而图像的实现语义分割。通过这种方式，我们可以使误差梯度直接传播回特征融合模块，实现直接监督；

14、步骤二：引入边缘检测分支，边缘检测分支也属于编码器的一部分；

15、将热图像分别输入语义分支和边缘检测分支，首先，通过一级语义分支进行语义提取，一级边缘检测分支进行边缘提取；将其通过双重注意特征增强模块融合语义和边缘特征；

16、然后，通过二级语义分支进行语义提取，二级边缘检测分支进行边缘提取；将其通过双重注意特征增强模块融合语义和边缘特征；

17、然后，通过三级语义分支进行语义提取，三级边缘检测分支进行边缘提取；将其通过双重注意特征增强模块融合语义和边缘特征；

18、引入的边缘检测分支为一个跳跃边缘引导结构，它通过多级别跳跃连接融合全局的边缘信息，不仅补全了全局信息，还增强了网络对目标边缘信息的关注。

19、所述通过双重注意特征增强模块融合语义和边缘特征包括：

20、将语义分支的中间特征fs、边缘分支的中间特征fe和输入数据fin输入双重注意特征增强模块；在所述一级语义分支进行语义提取，一级边缘检测分支进行边缘提取时，输入数据fin为热图像；在所述二级语义分支进行语义提取，二级边缘检测分支进行边缘提取时；输入数据fin为第一个双重注意特征增强模块的输出；在所述三级语义分支进行语义提取，三级边缘检测分支进行边缘提取时；输入数据fin为第二个双重注意特征增强模块的输出；

21、首先，将fs和fe的大小进行重塑，得到特征和特征分别表示fs和fe的估计值；

22、然后，通过多头交叉注意(mhca)和层归一化(ln)融合和以生成特征fca1；将fin的大小进行重塑，得到表示fin的估计值；

23、然后通过多头交叉注意(mhca)和层归一化(ln)融合和fca1以生成特征fca2；fca2由多层感知机(mlp)和层归一化(ln)处理并重塑大小，得到融合后的特征fdafeb；

24、公式表达式如下：

25、

26、其中，fdafeb是第三层两个分支和第二个dafeb的输入。

27、r()是重塑大小；

28、ln()是层归一化；

29、mlp()是多层感知机；

30、mhca()是多头交叉注意；

31、fs是来自语义分支的中间特征；

32、fe是来自边缘分支的中间特征；

33、fin是输入数据；

34、双重注意特征增强模块不仅可以融合语义和边缘特征，还可以通过在池化操作之前引入信息来增强特征；融合过程遵循从低分辨率到高分辨率的方向，从而补充了相应的细节；这些特征涵盖了不同的尺度和不同的语义层次；它不仅增强了网络对对象边缘的关注，而且补充了全局边缘特征对对象的有用信息；以这种方式，具有语义信息的边缘可以提高类别之间的区分能力，特别是在相邻对象的相似外部特征上，并且可以加强语义特征的优化；

35、步骤三：设计面向多个损失函数的深度监督机制；通过构建多个损失函数，对所有解码特征的输出以及融合输出进行监督；

36、首先，考虑到训练网络时所用数据集的像素差异较大，本发明采用加权交叉熵函数训练整个网络，加权损失函数的计算公式可表示为：

37、

38、其中，c表示类别总数量；

39、yi,c和xi,c表示类别c和第i个像素点的目标标签和预测概率；

40、n表示每次送入网络中训练的样本的像素点数量；

41、wc表示类别c的权重；

42、融合输出的损失函数lfuse计算为：

43、

44、其中，di表示解码特征；

45、wfuse表示融合输出权重；

46、网络的整体损失函数为：

47、

48、其中，xm表示每个解码输出层的预测输出；

49、m表示解码阶段的数量，在本发明中，m＝4。

50、相比于一般的方法，本发明提出的语义分割方法将rgb图像和热红外图像作为输入，综合考虑动态交通场景下低级和高级特征之间的各种属性和相互作用，通过融合语义和边缘特征、解决信息丢失等问题，实现了复杂光照条件下rgb-热红外图像的准确、鲁棒语义分割。具体体现在：

51、(1)本发明提出的方法，将rgb图像和热红外图像作为输入，综合考虑低级和高级特征之间的各种属性和相互作用，并有效地进行多级特征融合和多类型特征聚合，实现了动态交通场景下的鲁棒语义分割。

52、(2)本发明构建的基于分层注意力的双边多模态融合编码器，能够动态地重新加权和选择不同尺度的有效特征，进而优化融合过程，实现了多尺度多模态特征的全面提取。

53、(3)本发明构建的基于多头交叉注意的跳跃边缘引导结构，不仅融合了语义和边缘特征，还解决了信息丢失的问题，进一步提高了语义分割的准确性。

技术特征：

1.本发明公开了一种基于跨维度多光谱边缘融合的图像语义分割方法；首先，构建了基于分层注意力的双边多模态融合编码器，提取rgb图像和热红外图像中的特征；其次，引入边缘检测分支，利用构建的跳跃边缘引导结构加强对全局语义信息的利用；最后，设计了面向多个损失函数的深度监督机制，对具有多个损失函数的网络进行监督；其特征在于，包括以下步骤：

技术总结
本发明公开了一种基于跨维度多光谱边缘融合的图像语义分割方法。先，构建了基于分层注意力的双边多模态融合编码器，提取RGB图像和热红外图像中的低级和高级特征；其次，引入边缘检测分支(即跳跃边缘引导结构)，加强对全局语义信息的利用；最后，设计了面向多个损失函数的深度监督机制，对具有多个损失函数的网络进行监督。本发明提出的方法，将RGB图像和热红外图像作为输入，综合考虑动态交通场景下低级和高级特征之间的各种属性和相互作用，通过融合语义和边缘特征、解决信息丢失等问题，实现了复杂光照条件下RGB‑热红外图像的准确、鲁棒语义分割。

技术研发人员：胡玮明,毛邱,苏梦月,刘延,陈雄,黄超智,周金应,杨佩佩
受保护的技术使用者：中汽院（重庆）汽车检测有限公司
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-29785.html