本发明属于遥感图像处理和地物目标分割提取领域,具体涉及一种基于多源数据注意力特征融合的典型地物目标分割方法。
背景技术:
1、地物分类通常使用语义分割,即在遥感图像中为每一个标签来表示类别。遥感图像包括光学图像和合成孔径雷达图像等。基于遥感图像的地物分类依赖于图像中提供的空间信息和语义信息,研究结果可以应用于土地资源规划、矿产勘探、环境保护和城市规划等领域。合成孔径雷达(synthetic aperture radar,sar)作为一种主动式微波成像传感器,可以对观测区域进行全天候、全天时的观测和成像,在不被光照条件、气候变化等外界环境因素所影响的同时具有很强的穿透能力。sar图像能提供丰富的电磁散射特征和地物目标几何特征。但sar是单一波段获取的灰度数据,存在目标细节模糊等缺陷。光学成像的优势在于能提供较高的空间分辨率以及丰富的光谱、纹理信息,但是易受到观测环境如云、雾、雨的影响。由于光学成像和sar成像在一些实际应用中体现出优秀的互补性,光sar融合在提高遥感目标识别精度方面有良好的应用前景。
2、基于深度学习的光sar融合方法分为决策级融合和特征级融合。决策级融合通过多种方式获取感兴趣的语义特征,但是难以提取融合后的高维特征表示;特征级融合包括如伪连体卷积神经网络(pseudo-siamese convolutional neural network,pscnn),多源遥感数据分类(multisource remote sensing data classification,mrsdc)等。pscnn是hughes等人于2018年提出的网络架构,能在高分辨率的光学和sar图像中提取相应的图像切片,在包含大量建筑物的复杂遥感数据中取得了较高的准确率。mrsdc开发了一种基于双隧道卷积神经网络的架构,利用双隧道分支和级联网络实现了高光谱图像和其他多传感器数据的分类融合。但上述方法没有充分利用多源数据分布特征且性能表现不够稳定,因此,需要一种性能更稳定、且能保证分类精度的地物目标分割方法。
技术实现思路
1、发明目的:基于多源数据的语义一致性约束,本发明的目的是提供一种基于多源数据注意力特征融合的典型地物目标分割方法,用于地物分类领域,且能够获得良好的语义分割结果。
2、技术方案:本发明所述的一种基于多源数据注意力特征融合的典型地物目标分割方法,具体包括以下步骤:
3、(1)获取包含高分辨率光学图像、sar图像和对应的语义标签图像的数据集,将数据集划分为训练集、验证集和测试集,并进行数据预处理;
4、(2)构建基于多源数据注意力特征融合的典型地物目标分割模型,实现典型地物目标语义分割;所述模型包括编码器和解码器;所述编码器包括数据先验特征构建与引导模块、特征提取骨干网络与多模态交叉注意力融合模块;
5、(3)将步骤(1)获取的预处理后数据集作为步骤(2)构建的模型的输入,基于加权的交叉熵损失函数训练并优化模型参数,实现基于多源数据的典型地物目标分割。
6、进一步地,步骤(1)所述数据预处理过程如下:
7、先将数据集切割成256×256像素大小的不重叠像素块,再对图像作标准化处理,设置均值为[0.485,0.456,0.406],设置标准差为[0.229,0.224,0.225],最后对训练集图像进行数据增强。
8、进一步地,步骤(2)所述基于多源数据注意力特征融合的典型地物目标分割模型实现过程如下:
9、首先,数据先验特征构建与引导模块提取光学图像纹理特征与sar图像散射特征作为神经网络先验信息,用于光学图像和sar图像的专用特征提取与二阶隐藏特征挖掘;然后,利用具有相同结构的编码器分别提取光学图像特征向量与sar图像特征向量,及其对应的查询集特征向量q,索引集特征向量k,与内容特征向量v;其次,多模态交叉注意力融合模块,分别计算光学图像注意力特征向量aopt=attention(qopt,ksar,vsar),与sar图像注意力特征向量asar=attention(qsar,kopt,vopt),进而串联获得多模态交叉注意力特征向量acros=concat(aopt,asar);进一步,串联编码器获得的光学图像特征向量,sar图像特征向量,与多模态交叉注意力特征向量acros,作为模型解码器输入,获得模型预测结果。
10、进一步地,所述特征提取骨干网络采用resnet50,分别对光学图像和sar图像的输入进行特征提取以获得两类图像的具有代表性和有效性的多级特征;选择特征提取骨干网络提取的第2层和第5层特征分别作为图像的低维特征和高维特征,光学图像和sar图像的高维特征作为高维交叉注意力特征融合模块的输入,二者的低维特征则作为低维交叉注意力特征融合模块的输入,最后将高、低维模块输出的交叉注意力特征向量串联,获得多维度光sar交叉注意力融合特征;将多维度光sar交叉注意力融合特征输入到解码器,经过卷积和上采样操作获得最终的语义分割结果。
11、进一步地,步骤(2)所述特征提取骨干网对图像进行特征提取,对切割后的光学图像和sar图像分别使用3×3的卷积核进行二维卷积操作,并在输入图像的边缘周围进行1个像素的填充,通过批正则化对每个通道数据归一化;结果通过最大池化层,实现图像数据的下采样;经过二次上述处理后获得两类64×64像素块为低维特征作为域间融合模块的输入;经过三次上述操作获得两类32×32像素块后不再通过最大池化层,进行两次卷积及批量归一化操作后获得两类通道数为2048的32×32像素块为高维特征作为域间融合模块的输入。
12、进一步地,步骤(2)所述多模态交叉注意力融合模块实现过程如下:
13、将得高维特征和低维特征分别作为输入,通过交叉注意力机制能同时考虑光学和sar两个域的特征数据信息并计算其注意力权重;首先通过输入矩阵x获得查询向量q、键向量k、值向量v,公式如下:
14、{q,k,v}={xwq,xwk,xwv}
15、然后对q、k矩阵点乘后除以并经过归一化处理,公式如下:
16、
17、式中,q、k、v为输入矩阵经过线性映射后所得矩阵,dk为k矩阵维度,b为可学习的相关位置编码,softmax为激活函数,将输入的实数向量转换为概率分布向量;
18、将不同源的查询向量q、键向量k、值向量v交叉计算关联性,获得注意力机制加权值,多模态交叉注意力融合模块计算公式如下:
19、
20、z1=ln(mca(q1,k2,v2))+q1
21、z2=ln(mca(q2,k1,v1))+q2
22、式中,x1为光学输入的嵌入表示;x2为sar输入的嵌入表示;分别是光学输入和sar输入对应于查询向量q1、q2,键向量k1、k2,值向量v1、v2的权重矩阵;mca表示多头交叉注意力模块;ln表示层正则化,即对单个样本的所有特征作归一化;
23、将z1与z2卷积,得到光sar融合后的高维特征和低维特征,首先将低维特征和先验特征连接获得连接后的低维特征,再将高维特征和先验特征连接,并通过空洞空间金字塔池化aspp获得连接后的高维特征,最后将连接后的高、低维特征串联作为解码器的输入。
24、进一步地,所述空洞空间金字塔池化aspp首先采用不同膨胀率的空洞卷积分支,在不同尺度下捕捉特征信息,在不增加网络参数的情况下增大感受野,提高特征提取的能力;然后,将每个分支的特征图进行空间金字塔池化,得到固定尺寸的特征向量;最后将各个尺度的特征向量连接起来,降维后得到最终的aspp特征表示。
25、进一步地,步骤(2)所述解码器包括两次1×1卷积和一次上采样。
26、进一步地,步骤(3)所述基于加权的交叉熵损失函数训练并优化模型参数,其计算方式如下:
27、
28、式中,x为输入,y为目标,w为权重,c为类别数量,n为最小块维度。
29、有益效果:与现有技术相比,本发明的有益效果:本发明提出多模态交叉注意力特征融合架构,具有融合多域特征信息功能,可有效抑制冗余信息干扰;本发明提出利用光学图像纹理特征和sar图像散射特征作为网络优化先验信息,可为后续深度学习、地物分割提供更丰富的图像细节特征信息,提高地物分割精度。
1.一种基于多源数据注意力特征融合的典型地物目标分割方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于多源数据注意力特征融合的典型地物目标分割方法,其特征在于,步骤(1)所述数据预处理过程如下:
3.根据权利要求1所述的一种基于多源数据注意力特征融合的典型地物目标分割方法,其特征在于,步骤(2)所述基于多源数据注意力特征融合的典型地物目标分割模型实现过程如下:
4.根据权利要求1所述的一种基于多源数据注意力特征融合的典型地物目标分割方法,其特征在于,所述特征提取骨干网络采用resnet50,分别对光学图像和sar图像的输入进行特征提取以获得两类图像的具有代表性和有效性的多级特征;选择特征提取骨干网络提取的第2层和第5层特征分别作为图像的低维特征和高维特征,光学图像和sar图像的高维特征作为高维交叉注意力特征融合模块的输入,二者的低维特征则作为低维交叉注意力特征融合模块的输入,最后将高、低维模块输出的交叉注意力特征向量串联,获得多维度光sar交叉注意力融合特征;将多维度光sar交叉注意力融合特征输入到解码器,经过卷积和上采样操作获得最终的语义分割结果。
5.根据权利要求1所述的一种基于多源数据注意力特征融合的典型地物目标分割方法,其特征在于,步骤(2)所述特征提取骨干网对图像进行特征提取,对切割后的光学图像和sar图像分别使用3×3的卷积核进行二维卷积操作,并在输入图像的边缘周围进行1个像素的填充,通过批正则化对每个通道数据归一化;结果通过最大池化层,实现图像数据的下采样;经过二次上述处理后获得两类64×64像素块为低维特征作为域间融合模块的输入;经过三次上述操作获得两类32×32像素块后不再通过最大池化层,进行两次卷积及批量归一化操作后获得两类通道数为2048的32×32像素块为高维特征作为域间融合模块的输入。
6.根据权利要求1所述的一种基于多源数据注意力特征融合的典型地物目标分割方法,其特征在于,步骤(2)所述多模态交叉注意力融合模块实现过程如下:
7.根据权利要求6所述的一种基于多源数据注意力特征融合的典型地物目标分割方法,其特征在于,所述空洞空间金字塔池化aspp首先采用不同膨胀率的空洞卷积分支,在不同尺度下捕捉特征信息,在不增加网络参数的情况下增大感受野,提高特征提取的能力;然后,将每个分支的特征图进行空间金字塔池化,得到固定尺寸的特征向量;最后将各个尺度的特征向量连接起来,降维后得到最终的aspp特征表示。
8.根据权利要求1所述的一种基于多源数据注意力特征融合的典型地物目标分割方法,其特征在于,步骤(2)所述解码器包括两次1×1卷积和一次上采样。
9.根据权利要求1所述的一种基于多源数据注意力特征融合的典型地物目标分割方法,其特征在于,步骤(3)所述基于加权的交叉熵损失函数训练并优化模型参数,其计算方式如下:
