本发明涉及一种基于全局语义引导的夜间图像去雨方法,属于图像处理。
背景技术:
1、图像去雨是计算机视觉领域的一个备受关注的课题,它的核心任务是将有雨图像恢复成清晰的无雨图像,并尽可能多地保留图像的背景信息。然而,这项任务的挑战性在于,即使在同一张图片中,雨滴和雨纹的位置、形状、方向也各不相同,此外,雨水的叠加还可能产生雨雾的效果,从而导致更严重的遮挡。这些因素都会导致图像质量下降,并使得图像中的纹理和细节信息难以辨认。
2、图像去雨任务主要包括雨图数据集构建和图像去雨算法设计两部分。
3、当前常见的成对的单幅图像去雨数据集的来源主要包括两种:一种是通过分析雨纹、雨滴背后形成的物理机制,生成逼真的雨纹图像,然后采用不同方法把雨纹图和干净的背景图融合在一起。采用这种方法的数据集主要包括:rain100l,rain200l,ddc-data,raincityscapes等。这些基于物理机制构建的数据集制作方法相对容易,但它们并不能自然地拟合雨水在下落过程中速度、角度、形状、尺度上的改变;另外人为设定的雨水相关参数受到先验知识的限制,不能完全体现真实世界的复杂性和多样性。
4、另一种是采用半自动方法采集真实雨水数据集,具有代表性的spa-data数据集是通过手动调节相机的参数录制雨天视频,并利用人工操作得到雨水图和无雨背景图。此外还包括raindrop,rainds等数据集。这种方法虽然能够获得真实的雨天图像,但它难以捕捉到现实场景中的各种边缘情况和罕见事件,而缺少这些情况的训练集对后续去雨模型的鲁棒性和性能评估会产生很大影响。另外,通过视频裁剪等方式获得雨水图像虽然在一定程度上减轻了采集的工作量,但不可避免的会导致雨水图像重复率高、场景单一、质量不高等问题。
5、上述的常用数据集还存在的一个共性问题就是:他们针对的更多的是白天、光照良好的情况。然而正如本实施例所知,图像去雨的重要应用领域——自动驾驶、安防监控等在夜间的应用同样十分广泛,而夜间场景本身就受到光照不足、色彩失真、动态范围受限、对比度降低等问题的困扰,再加上由雨水导致的降质、模糊、失真等问题,使得很难将通过白天雨水图像训练的模型直接应用于夜间去雨。而以上这些缺陷导致提供这些数据集训练得到的去雨模型在真实雨图上的泛化效果明显不足,而这些问题对真实的图像去雨任务有很重要的意义。因此,针对这些问题,本发明构建了一个全新的rgb-红外双模态带雨图像数据集。
技术实现思路
1、本发明为解决现有技术中通过白天雨水图像训练的模型直接应用于夜间去雨在真实雨图上的泛化效果明显不足的技术问题,进而提出一种基于全局语义引导的夜间图像去雨方法。
2、本发明为解决上述问题采取的技术方案是:本发明提出一种基于全局语义引导的夜间图像去雨方法。包括:
3、步骤1:生成rgb-红外双模态夜间带雨图像数据集
4、步骤2:构建基于红外引导的rgb图像去雨模型;
5、基于红外引导的rgb图像去雨模型包括卷积模块、混合结构块、残差-卷积块、并行注意力模块、最优选择稀疏注意力模块、混合尺度前馈网络、注意力增强融合网络、注意力引导专家网络,将rgb带雨图像和对应的红外图像输入基于红外引导的rgb图像去雨模型中进行卷积、特征融合、编码、解码、特征的补偿和选择,输出初步去雨后的图像。
6、步骤3:构建全局语义引导模块,将全局语义引导模块引入rgb图像去雨模型中,监督rgb图像去雨模型生成更加真实、完整的图像纹理,使去雨后的图像在去除雨水痕迹的同时保持背景纹理的语义一致性,输出最终去雨后的图像。
7、可选的,步骤1中获取rgb-红外双模态夜间带雨图像数据集的步骤包括:
8、步骤1.1:构建基于变分推断框架的雨纹合成网络,将基于半自动方法采集到的雨图作为训练数据对雨纹合成网络进行训练,获取真实无雨背景图b和雨纹层r;
9、步骤1.2:构建大气散射模型,基于大气散射模型获取有雾图像,将有雾图像和雨纹层r进行合成得到雨纹图,将雨纹图和真实无雨背景图b进行合成,得到rgb-红外双模态带雨图像。
10、可选的,
11、步骤1.1中基于变分推断框架的雨纹合成网络包括背景提取模块、雨纹推断模块、生成器和判别器;
12、背景提取模块将训练数据中的无雨背景图x嵌入到真实无雨背景图b的高斯先验分布中,采用prenet模型完成真实无雨背景图b的后验推断,从训练数据的雨图中推断出后验参数σ和μ,得到真实无雨背景图b;
13、雨纹推断模块依次由5个卷积-relu块和线性层组成,通过生成器方式进行雨水建模获取隐变量z,对隐变量z推断获取后验参数α和β;
14、生成器由转置卷积和激活函数relu组成,根据隐变量z获取雨纹信息;
15、判别器采用sagan网络,由卷积层和激活函数leakyrelu组成,并添加注意力机制捕获图像中的全局相关性,分辨真实雨图o和生成雨图
16、隐变量z的表达式为:
17、r=gθ(z)(1)
18、z~n(z|0,i)(2)
19、公式(1)和(2)中,r为雨纹层,z为隐变量,θ为生成器参数,z~n(z|0,i)为隐变量z的先验分布;
20、真实无雨背景图b的高斯先验分布为:
21、
22、公式(3)中,为衡量无雨背景图x和真实无雨背景图b之间相似度的超参数。
23、可选的,步骤1.2中有雾图像的获取步骤包括:
24、步骤1.2.1:采用diffnet模型单目深度估计训练数据中雨图irgb(x)的深度图d(x);
25、步骤1.2.2:采用超参数β调节深度图的散射强度,获取传输率t(x);
26、步骤1.2.3:利用超参数a调节irgb(x)的颜色和强度,得到有雾图像;
27、传输率t(x)的计算公式为:
28、t(x)=e-β×d(x)(4)
29、有雾图像的计算公式为:
30、ihaze(x)=irgb(x)×t(x)+a×(1-t(x))(5)
31、公式(5)中,ihaze(x)为有雾图像。
32、可选的,步骤2中输出初步去雨后的图像的步骤包括:
33、步骤2.1:基于rgb-红外双模态带雨图像数据集获取rgb带雨图像和对应的红外图像其中,h为图像高度,w为图像宽度;
34、步骤2.2:基于卷积模块对rgb带雨图像和对应的红外图像进行3×3卷积扩展通道维度;
35、步骤2.3:获取卷积后的rgb带雨图像和对应的红外图像的浅层特征,对rgb带雨图像和对应的红外图像的浅层特征进行4层编码-解码,基于混合结构块对卷积后的rgb带雨图像进行编码,基于残差-卷积块对红外图像进行编码,并通过混合结构块对红外图像进行解码;
36、步骤2.4:将rgb带雨图像和对应的红外图像编码-解码过程中进行上采样和下采样获取rgb图像特征frgb和红外图像特征fir,并利用跳跃连接结束将每次编码-解码完成得到的rgb图像特征frgb和红外图像特征fir输入注意力增强融合网络进行特征融合;
37、步骤2.5:将rgb图像和红外图像的融合特征输入并行注意力模块进行特征粗提取;
38、步骤2.6:将特征粗提取后的融合特征输入最优选择稀疏注意力模块进行特征选取;
39、步骤2.7:将选取的特征输入混合尺度前馈网络,采用经过层标准化后采用1×1卷积来扩展通道数,并将输入特征图送入两条并行的多尺度路径上,分别采用3×3和5×5深度卷积增强多尺度局部信息提取;
40、步骤2.8:将rgb图像和红外图像的多尺度特征输入注意力引导专家网络进行特征筛选和提取,获取无雨图像;
41、步骤2.9:基于无雨图和真实无雨图之间像素级关系,构建charbonnier loss损失函数,输出损失小于第一预设值的初步去雨后的无雨图像iderain;
42、深度卷积增强多尺度局部信息提取的计算公式为:
43、
44、x=f1×1(concat(x′1,x′2))+x. (6)
45、公式(6)中,f1×1为1*1卷积,f3×3和f5×5分别为3*3深度卷积和5*5深度卷积,concat(·)为跨通道连接;
46、charbonnier loss损失函数的表达式为:
47、
48、可选的,步骤2.4中对每次编码-解码完成得到的rgb图像特征frgb和红外图像特征fir输入注意力增强融合网络进行特征融合的步骤包括:
49、步骤2.4.1:利用线性层对rgb图像特征frgb和红外图像特征fir进行映射,并使用gelu激活函数进行激活,得到rgb图像特征权重wrgb和红外图像特征权重wir;
50、步骤2.4.2:基于rgb图像特征权重wrgb和红外图像特征权重wir获取相关注意力特征矩阵a;
51、步骤2.4.3:将相关注意力特征矩阵a与rgb图像特征frgb和红外图像特征fir进行按通道相乘,得到初始融合特征,将初始融合特征进行跨通道融合处理得到增强的rgb图像特征和红外图像特征;
52、步骤2.4.4:对增强的rgb图像特征和红外图像特征进行二次融合;
53、步骤2.4.5:将二次融合得到的特征进行差分得到经过融合处理的rgb图像特征和红外图像特征将rgb图像特征和红外图像特征相加得到融合特征ffuse;
54、rgb图像特征权重wrgb和红外图像特征权重wir的表达式为:
55、wrgb=fmlp(fgap(frgb)),
56、wir=fmlp(fgap(fir)). (8)
57、公式(8)中,fgap为全局均值池化,fmlp为多层感知机;
58、相关注意力特征矩阵a的表达式为:
59、
60、公式(9)中,σ(·)为sigmoid激活函数;系数c为通道数,对注意力增强起比例因子的作用,为按元素相乘;
61、增强的rgb图像特征和红外图像特征的计算公式为:
62、
63、公式(10)中,⊙为表示按通道乘积,concat(·)表示跨通道连接,f7×7表示卷积核大小为7×7的深度卷积;
64、二次融合后的特征的表达式为:
65、
66、公式(11)中,f1×1为卷积核大小为1*1的卷积;
67、融合特征ffuse的计算公式为:
68、
69、公式(12)中,split(·)为按通道拆分。
70、可选的,步骤2.5中并行注意力模块包括门控注意力层、通道注意力层和像素注意力层;
71、门控注意力层包括特征提取分支和门控分支,特征提取分支包括大小分别为1*1和3*3的卷积核,门控分支层包括大小为1*1的卷积核和sigmoid激活函数;
72、特征粗提取的步骤包括:
73、步骤2.5.1:对输入的融合特征ffuse进行标准化处理;
74、步骤2.5.2:基于门控注意力层对初步提取融合特征ffuse的像素级特征信息;
75、步骤2.5.3:基于通道注意力层,采用全局平均池化操作,提取每个通道的空间信息,采用逐点卷积学习通道之间依赖关系,并用gelu激活函数增强通道间的非线性关系,通过sigmoid激活函数为每个通道生成一个范围在[0,1]之间的注意力分数,将每个通道的注意力分数和原始特征图对应通道相乘得到加权后的特征图;
76、步骤2.5.4:基于像素注意力层,采用逐点卷积和gelu激活函数从输入特征图中学习并生成像素级注意力图,使用sigmoid激活函数为每个通道生成一个范围在[0,1]之间的注意力分数,并对原始特征图进行特征加权;
77、步骤2.5.5:沿通道维度将门控注意力层、通道注意力层和像素注意力层的注意力结果连接,并用逐点卷积-gelu-逐点卷积将连接后的特征通道维数降至与输入相同的维数,采用跳跃连接的方式求和得到输出的特征图。
78、可选的,步骤2.6中将特征粗提取后的融合特征输入最优选择稀疏注意力模块进行特征选取的步骤包括:
79、步骤2.6.1:使用卷积核大小为1*1的逐点卷积聚合像素级的跨通道特征;
80、步骤2.6.2:使用卷积核大小为3*3的深度卷积编码通道级的空间信息,获取根据输入特征图映射的查询、键和值;
81、步骤2.6.3:将查询和键进行点积操作来计算所有查询和键之间的相似度,得到注意力图保留最大的k个自注意力分数值,将其他的自注意力分数值设为负无穷;
82、步骤2.6.4:使用softmax函数进行注意力分数的归一化,得到注意力权重,将注意力权重和值进行相乘计算自注意力的加权和,得到每个位置的自注意力输出;
83、查询、键和值的计算公式为:
84、
85、公式(13)中,q为查询,k为键,v为值,为深度卷积,为逐点卷积;
86、每个位置的自注意力输出的计算公式为:
87、
88、可选的,步骤2.8中注意力引导专家网络包括卷积核大小为3*3的平均池化层、卷积核大小分别为1*1、3*3、5*5、7*7的可分离卷积层、卷积核大小分别为3*3、5*5、7*7的膨胀卷积层;
89、获取无雨图的步骤包括:
90、步骤2.8.1:对输入特征图,使用平均池化层得到每个通道对应的描述符
91、步骤2.8.2:利用可学习的权重矩阵w1和w2获取每个专家网络的系数t;
92、步骤2.8.3:根据系数t综合每个专家网络的输出结果,得到无雨图。
93、每个通道对应的描述符zk的计算公式为:
94、
95、公式(15)中,x(i,j,k)为特征图x的第k个通道位于(i,j)的像素值;
96、每个专家网络的系数t的计算公式为:
97、t=w2σ(w1z),
98、
99、公式(16)中,σ(·)为relu激活函数,f1×1为1×1卷积,为专家网络操作,[·]为跨通道连接。
100、可选的,步骤3中输出最终去雨后的图像的步骤包括:
101、分别对真实无雨图像igt和初步去雨后的图像iderain使用预训练的sam模型进行图像分割得到对应的掩码图;
102、基于focal loss和dice loss构建seg loss损失函数,基于seg loss损失函数获取真实无雨图像igt和初步去雨后的无雨图像iderain的差值,并输出差值小于第二预设值的初步去雨后的图像;
103、基于seg loss损失函数和charbonnier loss损失函数构建rgb图像去雨模型整体的损失函数,保留损失值小于第三预设值的初步去雨后的图像;
104、将损失值小于第三预设值的初步去雨后的图像作为最终去雨后的图像进行输出;
105、seg loss损失函数的计算公式为:
106、
107、公式(17)中,α和β均为可调节的超参数;
108、focal loss的计算公式为:
109、
110、dice loss的计算公式为:
111、
112、公式(20)中,yi为rgb图像去雨模型的在[0,1]之间的预测值,ti为目标值;
113、rgb图像去雨模型整体的损失函数的计算公式为:
114、
115、本发明的有益效果是:
116、1.本发明构建的irdenet方法结合了不同类型的卷积神经网络和包括空间注意力机制、通道注意力机制以及自注意力机制在内的注意力机制,保证了模型的全局和局部特征建模与提取的能力。
117、2.本发明通过对雨纹信息的学习构建数据集,能通过白天雨水图像训练的模型直接应用于夜间去雨。
118、3.本发明将rgb图像和红外图像相融合来用于图像去雨任务,去雨效果显著提高。
1.一种基于全局语义引导的夜间图像去雨方法,其特征在于,所述一种基于全局语义引导的夜间图像去雨方法的步骤包括:
2.根据权利要求1所述的一种基于全局语义引导的夜间图像去雨方法,其特征在于,步骤1中获取rgb-红外双模态夜间带雨图像数据集的步骤包括:
3.根据权利要求2所述的一种基于全局语义引导的夜间图像去雨方法,其特征在于,步骤1.1中基于变分推断框架的雨纹合成网络包括背景提取模块、雨纹推断模块、生成器和判别器;
4.根据权利要求2所述的一种基于全局语义引导的夜间图像去雨方法,其特征在于,步骤1.2中有雾图像的获取步骤包括:
5.根据权利要求1所述的一种基于全局语义引导的夜间图像去雨方法,其特征在于,步骤2中输出初步去雨后的图像的步骤包括:
6.根据权利要求5所述的一种基于全局语义引导的夜间图像去雨方法,其特征在于,步骤2.4中对每次编码-解码完成得到的rgb图像特征frgb和红外图像特征fir输入注意力增强融合网络进行特征融合的步骤包括:
7.根据权利要求5所述的一种基于全局语义引导的夜间图像去雨方法,其特征在于,步骤2.5中所述并行注意力模块包括门控注意力层、通道注意力层和像素注意力层;
8.根据权利要求5所述的一种基于全局语义引导的夜间图像去雨方法,其特征在于,步骤2.6中将特征粗提取后的融合特征输入最优选择稀疏注意力模块进行特征选取的步骤包括:
9.根据权利要求5所述的一种基于全局语义引导的夜间图像去雨方法,其特征在于,步骤2.8中注意力引导专家网络包括卷积核大小为3*3的平均池化层、卷积核大小分别为1*1、3*3、5*5、7*7的可分离卷积层、卷积核大小分别为3*3、5*5、7*7的膨胀卷积层;
10.根据权利要求5所述的一种基于全局语义引导的夜间图像去雨方法,其特征在于,步骤3中输出最终去雨后的图像的步骤包括:
