本发明涉及图像融合,具体为一种红外与可见光图像融合网络系统及其应用方法。
背景技术:
1、图像融合技术通过将多源图像的信息综合起来,生成一幅新的图像,这种方法在多个领域展现出了其独特的价值。图像融合任务一般包括红外与可见光图像融合、医学图像融合、多曝光图像融合和多聚焦图像融合。多模态图像融合一般分为特征提取、特征融合和特征重构。生成的融合图像不仅信息量更大、细节更丰富,而且具有更强的鲁棒性,它能够提供更全面的场景描述,从而为后续的图像处理和分析任务打下坚实的基础。这种技术特别适用于高级视觉系统,如军事侦察、目标识别、目标追踪和语义分割等。它不仅能有效减少数据的重复性,还能显著提升数据处理的效率和准确性。因此,图像融合在现代视觉任务的预处理阶段扮演着至关重要的角色,为各种应用提供了强有力的支持,推动了相关技术的发展和决策的优化。
2、红外与可见光图像融合是图像处理领域的一个重要课题,在军事和安全领域有着广泛的应用。因为红外图像和可见光图像的实用性,现有的图像融合方法大致可以分为两类,即传统方法和基于深度学习的方法。传统的图像融合方法主要集中在对原始图像的特征提取上。传统的图像融合方法还包括基于稀疏表示的方法、基于子空间的方法、基于显著性的方法和基于全变分的方法。传统方法虽然经过较长的发展周期也能获得较好的融合效果,但存在诸多缺陷。由于传统方法的不足,研究人员开发了基于深度学习的新融合方法,以解决传统图像融合方法的一些固有问题。基于深度学习的融合方法大致可以分为三类:基于卷积神经网络(cnn)的方法,基于自动编码器(ae)的方法和基于生成对抗网络(gan)的方法。
3、现有的深度学习模型基本上都是以cnn或者gan网络为基础来构建的,基于深度学习的图像融合方法在特征提取阶段使用cnn进行特定操作。由于cnn的感受野很小,很难对图像的长程依赖性进行建模。感受野的限制直接影响融合图像的质量,因此我们需要对全局依赖性进行建模。2023年,chen等人提出了一种结合cnn和vision transformer的端到端图像融合方法来解决上述问题。上述方法在保留cnn提取局部特征优点的同时,提高了图像的全局依赖性,以获得更好的融合图像。
4、为了提升红外与可见光图像融合的效果,应用空间和通道注意力机制能够通过分配不同的权重放大图像中的有用信息并抑制有害信息的干扰通过为不同区域和特征通道分配差异化的权重,并显著提升模型捕获长距离依赖信息的能力。通过该方法可以优化融合过程,从而生成具有丰富细节和高度一致性的融合图像。senet是一种通过引入squeeze-and-excitation模块来提升卷积神经网络性能的模型,"squeeze"(压缩)和"excitation"(激励)——来实现对通道级特征的显式建模和自适应校准。"squeeze"操作通过全局平均池化将每个通道的信息压缩成一个单一的数值,而"excitation"操作则利用这个压缩后的信息来计算每个通道的权重,从而对特征图进行重标定,强化有用的特征并抑制无关的特征。cbam(convolutional block attention module)是一种用于增强卷积神经网络特征表示能力的注意力机制。cbam的设计灵感来源于senet的se块,但cbam进一步扩展了这种注意力机制,使其能够更细致地捕捉空间和通道两个维度上的特征关系。
5、现有技术的客观缺点:
6、1)传统的图像融合技术受限于人工特征提取的局限性,难以适应复杂的图像融合需求。这种方法在处理简单场景时尚可,但在多变环境和复杂场景中,其性能提升受限,无法有效捕捉图像中的细微特征,从而影响融合效果。
7、2)在红外与可见光图像融合任务中,关键步骤是从这两种图像中提取关键特征,如纹理和边缘。然而,现有的网络结构在提取这些特征时存在局限性,它们往往难以捕捉到图像中的细微细节,同时容易受到热辐射等干扰因素的影响,这会降低最终融合图像的质量。为了提高融合效果,需要进一步研究和开发能够更有效地整合不同尺度的纹理特征,并减少无关信息干扰的融合技术。
8、3)在图像融合领域,cnn及其变体由于其强大的特征提取能力和泛化能力而得到广泛应用。不仅如此,其网络结构成熟,相应的计算设备可以加速其计算。但cnn也有自己的缺陷。cnn摧毁远程图像的相关性和固有的小感受野不能有效地提取全局信息,进而影响图像融合的结果。遗憾的是,几乎所有现有的图像融合框架都使用cnn网络作为特征提取器,而没有在图像中建立长相关性。
9、因此需要对以上问题提出一种新的解决方案。
技术实现思路
1、本发明的目的在于提供一种红外与可见光图像融合网络系统及其应用方法,通过结合空间和通道注意力机制以及多尺度特征提取技术,专门用于处理红外与可见光图像的融合任务,且该网络的设计核心在于通过精细的特征整合,提升融合图像的质量,同时保持操作的高效性,以解决背景技术中提出的技术问题。
2、为实现上述目的,本发明提供如下技术方案:一种红外与可见光图像融合网络系统,至少包括输入部分、逐像素损失模块、特征提取模块、空间通道协作注意力模块、图像重建模块和感知损失函数;
3、所述输入部分用于将红外图像和可见光图像进行输入;
4、所述逐像素损失模块用于计算重建图像与真实图像每个像素点之间的差异,用于评估图像质量;
5、所述特征提取模块用于将输入的红外图像和可见光图像进行拼接融合,进而增强对图像中关键特征的识别和整合,生成具有丰富细节和显著对象信息的高质量融合图像;
6、所述空间通道协作注意力模块结合了空间注意力和通道注意力的优势,捕获空间和通道维度中的特征相互依赖性,用于对输入特征的全面重构,为后续处理步骤提供了综合的特征表示;
7、所述图像重建模块用于将处理后的信息融合或还原成最终图像,将不同来源或层次的信息整合成一个清晰且完整的图像;
8、所述感知损失函数基于vgg19网络,所述感知损失函数为用于评估图像感知质量的损失函数。
9、进一步地,所述特征提取模块采用双分支策略,所述双分支策略包括第一分支和第二分支;
10、所述第一个分支中搭载有结合了蓝图分离卷积与多尺度卷积结构的多尺度可分离卷积模块,所述多尺度可分离卷积模块用于通过多尺度卷积增强特征图的表征能力和图像分辨率,并有效提取图像的多尺度特征;
11、所述第二个分支则包括由四个可变形卷积层通过密集连接构成的模块,所述第二个分支中的模块用于专门提取融合图像中的显著对象特征,所述第二个分支中引入了密集连接技术,确保每一层可变形卷积的输出都能累积地贡献给后续层,实现网络中的高效信息流动和特征整合。
12、进一步地,所述多尺度可分离卷积模块采用三种不同尺寸的卷积核,所述多尺度可分离卷积模块通过conv2d层执行深度可分离卷积。
13、进一步地,所述空间通道协作注意力模块的总体架构包括第一分支、第二分支和第三个分支;
14、所述第一分支为顶部分支,所述第一分支为处理图像的水平空间维度w,即为高度分支;
15、所述第二分支为中间分支,所述第二分支为处理垂直空间维度h,即为宽度分支;
16、所述第三分支为底部分支,所述第三分支注于特征的通道维度交互,即为通道分支;
17、所述顶部分支和中间分支用于捕获空间维度中的特征相互依赖性,所述底部分支用于捕获通道间的交互。
18、一种红外与可见光图像融合网络系统的应用方法,至少包括以下步骤:
19、s1:通过输入部分向特征提取块输出红外图像和可见光图像;
20、s2:在特征提取块中将输入的红外图像和可见光图像进行拼接融合,经过多尺度可分离卷积模块和四个可变形卷积层通过密集连接构成的模块,通过多尺度特征提取技术使得网络能够同时捕获图像的局部细节和全局上下文;
21、s3:将融合图像输入到的空间通道协作注意力模块做细化处理,进一步增强对图像中关键特征的识别和整合;
22、s4:利用每像素损失和感知损失来确保在融合过程中图像的重要视觉信息得以保留。
23、进一步地,所述特征提取块的应用至少包括以下步骤:
24、将第一个分支集成了四个多尺度可分离卷积和1×1卷积,即为多尺度可分离卷积块,并在第二个分支中设置四个可变形卷积层通过密集连接构成的模块;
25、通过在第二个分支中引入了密集连接技术;
26、使得两个分支的操作同时进行;
27、最终,通过在通道维度上应用concat操作,将两个分支得到的特征图进行拼接,以获得更为精细的特征表示。
28、进一步地,所述多尺度可分离卷积模块的应用至少包括以下步骤:
29、首先利用mssconv对输入特征图进行深度卷积,通过不同尺寸的卷积核来捕获不同尺度的空间特征;
30、然后,通过串联多次应用mssconv的结果以及原始输入特征图,实现了特征图的多尺度和多深度层次的融合;
31、接着,特征图通过一个1x1卷积层进一步处理,以调整通道数并整合信息;
32、最终,为网络的下一层提供了更加丰富和具有区分性的特征表示。
33、进一步地,所述空间通道协作注意力模块的应用至少包括以下步骤:
34、首先,输入数据进入网络后,通过一些初步的卷积层处理,这些层负责提取图像的初步特征;
35、接着,网络采用残差连接来帮助梯度在深层网络中传播,防止训练过程中的梯度消失或爆炸问题;
36、通过高度分支,确保了数据在模型中的流动性和适应性,还为模型提供了灵活性,使其能够针对特定的视觉任务优化特征提取过程;
37、通过宽度分支,操作流程与空间分支类似,但将排列操作将宽度放到前面,后面只注重对特征宽度的变换和提取;
38、通过所述通道分支调整和融合不同尺度的特征;
39、最终,采用空间通道协作注意力模块将高度分支、宽度分支和宽度分支得到的特征进行融合;
40、如果启用了空间交互,则通道交互的结果将与空间维度上提取的特征相结合,通过加权平均的方式进行融合;
41、如果不启用空间交互,则只对高度和宽度上的特征进行平均融合;
42、这样,空间通道协作注意力模块能够输出一个综合了空间和通道维度信息的全面特征表示,为后续的网络层提供了丰富的特征图。
43、进一步地,所述通过高度分支,确保了数据在模型中的流动性和适应性,还为模型提供了灵活性,使其能够针对特定的视觉任务优化特征提取过程至少包括以下步骤:
44、输入数据首先进入模型,经历初步的特征提取阶段;
45、接着,通过残差连接来帮助网络在深层训练中维持有效的梯度流动;
46、在这个阶段,数据经过排列操作(permute),以调整特征映射的维度顺序,使之适应后续操作的要求,随后,对特征进行池化操作,所述池化操作包括平均池化和标准差池化,用于提取特征的统计信息,增强特征的表达能力,并且有助于减少过拟合;
47、紧接着,进行层归一化操作,以稳定学习过程并提高模型的泛化性能;
48、在特征提取的核心部分,模型使用尺寸为k的卷积核来捕捉图像的特征,用于在高度方向上进一步细化特征提取;
49、这里的k可能代表不同的数值,由使用者自行设定;
50、在完成卷积操作后,特征映射再次经过排列操作,并与第一个排列操作得到值进行相乘操作进行特征的整合;
51、最终,特征映射再次经过排列操作,以准备进行最终的输出或进一步的处理;
52、整个高度分支的流程是一个逐步提取和整合高度方向上特征的过程,多次排列操作在模型中发挥着关键作用,它们允许模型动态调整数据的维度顺序,以适应不同层的处理需求。
53、进一步地,所述通过所述通道分支调整和融合不同尺度的特征至少包括以下步骤:
54、将通道分支分为第一个分支和第二个分支;
55、所述通道分支的第一个分支与高度分支和宽度分支类似,只是少了一个排列操作,这个分支注重对特征通道上的变换和提取;
56、为了增强通道特征的表达,所述通道分支的第二个分支利用多尺度交叉注意力来提取通道特征;
57、通过不同尺寸的卷积核和相应的填充来捕获多尺度的特征;
58、多尺度交叉注意力首先应用深度卷积层,然后通过多个独立卷积核进一步细化特征;
59、最终通过卷积核大小为1的卷积层进行通道混合,以调整和融合不同尺度的特征。
60、与现有技术相比,本发明的有益效果是:
61、本发明优先通过构建特征提取块,在特征提取块中设置结合多尺度可分离卷积模块和可变形卷积,从而提高对融合后的特征图中环境信息以及突出信息的提取;
62、然后,通过引入空间通道协作注意力模块,对特征图的通道信息和空间信息进行细化的同时,让通道信息与空间信息进行交互来聚合更多的信息,提高对特征图的信息捕获能力;
63、且通过实验结果表明,所提出的方法在msrs数据集上的表现优于最先进的方法,突出了未来潜在研究方向,以提升融合图像的精度,同时促进高级视觉任务的发展。
1.一种红外与可见光图像融合网络系统,其特征在于:至少包括输入部分、逐像素损失模块、特征提取模块、空间通道协作注意力模块、图像重建模块和感知损失函数;
2.根据权利要求1所述的一种红外与可见光图像融合网络系统,其特征在于:所述特征提取模块采用双分支策略,所述双分支策略包括第一分支和第二分支;
3.根据权利要求2所述的一种红外与可见光图像融合网络系统,其特征在于:所述多尺度可分离卷积模块采用三种不同尺寸的卷积核,所述多尺度可分离卷积模块通过conv2d层执行深度可分离卷积。
4.根据权利要求1所述的一种红外与可见光图像融合网络系统,其特征在于:所述空间通道协作注意力模块的总体架构包括第一分支、第二分支和第三个分支;
5.一种红外与可见光图像融合网络系统的应用方法,基于上述权利要求1-4任意一项所述的一种红外与可见光图像融合网络系统,其特征在于:至少包括以下步骤:
6.根据权利要求4所述的一种红外与可见光图像融合网络系统的应用方法,其特征在于:所述特征提取块的应用至少包括以下步骤:
7.根据权利要求6所述的一种红外与可见光图像融合网络系统的应用方法,其特征在于:所述多尺度可分离卷积模块的应用至少包括以下步骤:
8.根据权利要求4所述的一种红外与可见光图像融合网络系统的应用方法,其特征在于:所述空间通道协作注意力模块的应用至少包括以下步骤:
9.根据权利要求8所述的一种红外与可见光图像融合网络系统的应用方法,其特征在于:所述通过高度分支,确保了数据在模型中的流动性和适应性,还为模型提供了灵活性,使其能够针对特定的视觉任务优化特征提取过程至少包括以下步骤:
10.根据权利要求8所述的一种红外与可见光图像融合网络系统的应用方法,其特征在于:所述通过所述通道分支调整和融合不同尺度的特征至少包括以下步骤:
