本发明涉及机器人自主导航与视觉识别,具体的说,是一种域不变信息挖掘的视觉场景识别方法。
背景技术:
1、视觉场景识别(visual place recognition,vpr)技术是智慧城市建设和国防安全建设不可或缺的关键技术,作为图像检索领域的下游任务,其在机器人和无人驾驶的导航定位系统中发挥着重要作用。一个vpr系统的基本流程是:给定一个查询图像,从已经存在的地理位置参考图像数据库中检索出最相似的图像,并将检索到的图像作为查询图像的估计地理位置。然而,受到不同视角和不同环境(如光照变化、季节变化等)的影响,同一地点的图像呈现出较大的风格差异,这给vpr任务带来了极大的挑战。
2、因此,如何提取场景图像中,能应对复杂环境变化下的鲁棒描述子,已成为提升vpr算法性能的主要入手点。然而,以往算法强调对图像通用性特征的提取和整合,而忽略了对vpr任务起到关键判别作用的显著性特征的挖掘。
技术实现思路
1、本发明的目的在于解决现有技术的不足,提供一种域不变信息挖掘的视觉场景识别方法,通过所采用的域不变信息挖掘模块(domain-invariant information miningmodule,dimm)在级联的卷积单元组中,纳入特征图不同空间区域间的相互依赖关系,达到dimnet模型对域不变的静态类物体的关注度增强的目的。
2、本发明通过下述技术方案实现:一种域不变信息挖掘的视觉场景识别方法,采用主干网络vgg-dimm、聚合头netvlad两部分组成dimnet模型实现,包括下述步骤:
3、1)对于给定的输入图像i,利用主干网络vgg-dimm初步提取其局部特征描述符且其中,h表示高度,w表示宽度,c表示通道数,r表示实数,输入图像i包括查询图像和数据库图像;
4、2)以主干网络vgg-dimm提取得到的局部特征描述符作为输入,使用原始的聚合头netvlad将聚合成一维的全局特征描述符f(i),且f(i)∈rd,其中d=cluster_num×c,cluster_num是netvlad中聚合cluster的数量(是一种可选参数,优选的设为64),c为的通道数,表达式如下:
5、
6、3)通过相似度算法,将查询图像的全局特征描述符f(i)与所有数据库图像的全局特征描述符f(i)进行一一比较,从而找出所有和查询图像归属同一场景的数据库图像。
7、进一步为更好地实现本发明所述的一种域不变信息挖掘的视觉场景识别方法,特别采用下述设置方式:所述相似度算法为余弦相似度、欧氏距离等中的任一种。
8、进一步为更好地实现本发明所述的一种域不变信息挖掘的视觉场景识别方法,特别采用下述设置方式:所述步骤1)包括下述具体步骤:
9、1.1)输入图像i通过主干网络vgg-dimm的vgg16提取得到基础特征图
10、1.2)经步骤1.1)后,主干网络vgg-dimm的dimm首先通过步长为1的3×3卷积操作增加特征通道信息的容量,得到新的特征表示其中r为特征扩展率(为一种可选参数,优选的设置为4);
11、1.3)为了提高空间信息的容量和丰富度,在dimm中,采用k=3×3、stride=1的滑动窗口在新的特征表示上沿宽、高方向遍历(定义为expand操作);特别地,在进行遍历时,不进行卷积运算,仅仅是对滑动窗口所选择的局部感受野区域进行复制,并按照其原来的空间结构重新排列后得到特征图且表达式如下:
12、
13、式中,i、j分别表示新的特征表示在高、宽维度上的像素索引,即i=1,2,...,h,j=1,2,...,w;α×k+β由滑动窗口的尺寸控制,是局部感受野展开成列的参数,代表最后一个维度上的索引,其中α=0,1,...,k-1,β=1,2,...,k;
14、1.4)将dimm的权重生成模块weight-block输出的注意力掩码(与的形状相同)反馈到特征图中,以挖掘特征图中重要的域不变信息,得到具有强鲁棒性和强泛化能力的特征表达即:
15、
16、式中,表示权重生成模块输出的注意力掩码,即权重描述符;符号表示对应元素相乘;
17、1.5)步骤1.2)和1.3)分别从通道和空间两个维度丰富了特征图的细节信息。为了获取特征图空间信息的关联性,本发明将特征表达在最后一个维度k2上执行算术相加操作,以融合不同的局部感受野信息,得到
18、
19、1.6)此外,为了交互特征图的通道信息,进一步经过k=3×3、stride=1(k和stride皆为可选参数,两者也可设为其他参数值)的卷积运算,得到主干网络vgg-dimm最终输出的局部特征描述符
20、进一步为更好地实现本发明所述的一种域不变信息挖掘的视觉场景识别方法,特别采用下述设置方式:所述注意力掩码通过输入到权重生成模块内的注意力图attmap经过级联的卷积单元组处理后得到,其中,注意力图attmap为初始化形状为h×w×4的全1的张量。
21、进一步为更好地实现本发明所述的一种域不变信息挖掘的视觉场景识别方法,特别采用下述设置方式:所述注意力掩码的定义为:
22、
23、进一步为更好地实现本发明所述的一种域不变信息挖掘的视觉场景识别方法,特别采用下述设置方式:所述权重生成模块包括n个卷积单元,每一个卷积单元均由卷积层conv、层归一化ln和激活函数gelu组成;其中,激活函数gelu的定义为:式中,x表示需要被gelu处理的特征张量。
24、进一步为更好地实现本发明所述的一种域不变信息挖掘的视觉场景识别方法,特别采用下述设置方式:所述主干网络vgg-dimm采用vgg16的stage1-stage5部分和dimm串联组成,且stage5部分中不含有原始stage5中最后一个relu层及其之后的层。
25、其中,主干网络vgg-dimm中的vgg部分也可替换为其他已有网络结构,包括但不限于cnn类、transformer类或mlp类;聚合头netvlad也可以替换为其他聚合头,包括但不限于gem head、mixvpr等。
26、本发明与现有技术相比,具有以下优点及有益效果:
27、(1)本发明所采用的dimnet模型可有效挖掘场景图像中的域不变信息,增强模型对正负样本的判别性;在性能上超越了2024年新提出的dw-t和nocplace算法,尤其在tokyotm基准上达到了目前的最佳水平。
28、(2)本发明所提出的dimnet模型是一阶段网络,具有结构轻便、复杂度低的特点,可进行端到端的训练。
29、(3)本发明所设计的dimm模块是“即插即用”的,具有良好的迁移性,可以和其他任意模型(包括但不限于cnn类、transformer类或mlp类网络)相结合并发挥作用。
1.一种域不变信息挖掘的视觉场景识别方法,其特征在于:采用主干网络vgg-dimm、聚合头netvlad两部分组成dimnet模型实现,包括下述步骤:
2.根据权利要求1所述的一种域不变信息挖掘的视觉场景识别方法,其特征在于:所述相似度算法为余弦相似度、欧氏距离中的任一种。
3.根据权利要求1或2所述的一种域不变信息挖掘的视觉场景识别方法,其特征在于:所述步骤1)包括下述具体步骤:
4.根据权利要求3所述的一种域不变信息挖掘的视觉场景识别方法,其特征在于:所述注意力掩码通过输入到权重生成模块内的注意力图attmap经过级联的卷积单元组处理后得到,其中,注意力图attmap为初始化形状为h×w×4的全1的张量。
5.根据权利要求3所述的一种域不变信息挖掘的视觉场景识别方法,其特征在于:所述注意力掩码的定义为:
6.根据权利要求3所述的一种域不变信息挖掘的视觉场景识别方法,其特征在于:所述权重生成模块包括n个卷积单元,每一个卷积单元均由卷积层conv、层归一化ln和激活函数gelu组成;其中,激活函数gelu的定义为:
7.根据权利要求1或2或4或5或6所述的一种域不变信息挖掘的视觉场景识别方法,其特征在于:所述主干网络vgg-dimm采用vgg16的stage1-stage5部分和dimm串联组成,且stage5部分中不含有原始stage5中最后一个relu层及其之后的层。
8.根据权利要求3所述的一种域不变信息挖掘的视觉场景识别方法,其特征在于:所述主干网络vgg-dimm采用vgg16的stage1-stage5部分和dimm串联组成,且stage5部分中不含有原始stage5中最后一个relu层及其之后的层。
