本发明涉及目标跟踪领域,尤其涉及一种基于多层次特征感知的伪装目标跟踪方法。
背景技术:
1、目标跟踪技术对于视频监控、军事侦察、环境监测和野生动物监测等多个关键领域至关重要。伪装目标,由于其与周围环境的高度相似性,对跟踪算法提出了显著的挑战。在面对快速移动、光照变化或遮挡等复杂场景时,传统依赖手工设计特征和简单模型的跟踪算法往往难以保持高跟踪精度。
2、尽管基于卷积神经网络(cnn)的深度学习方法在自动特征提取和提高目标跟踪准确性方面取得了突破,但它们在处理伪装目标时仍受限于局部特征的捕捉和对全局上下文信息的不足。这些局限性在伪装目标与背景高度融合的情况下尤为明显,导致现有技术难以实现稳定和准确的跟踪。
3、为了克服这些局限,研究者们开始探索基于vision transformer(vit)的模型。vit通过自注意力机制能够有效捕捉图像中的长距离依赖和全局上下文信息,为伪装目标跟踪提供了新的视角。然而,vit在处理伪装目标时仍面临挑战,尤其是在实现高跟踪精度的同时保持算法的实时性方面。
4、本发明旨在提出一种基于多层次特征感知的伪装目标跟踪方法,该方法通过改进的vit架构,结合多层次特征感知编码器,以提高对伪装目标的跟踪精度和鲁棒性。本方法特别优化了对伪装目标特征的感知能力,使其在复杂环境下也能实现稳定和准确的跟踪,适用于军事侦察、安全监控、野生动物监测等多种应用场景。
技术实现思路
1、本发明的目的是提供一种基于多层次特征感知的伪装目标跟踪方法,旨在通过多层次特征的提取与融合,提升对伪装目标的跟踪精度和鲁棒性。
2、本发明的技术方案是设计并训练所提出的模型,利用该模型在伪装数据集上进行测试。
3、基于vit的伪装目标跟踪框架如图1所示。该框架由基于多层次特征感知vit的主干网络以及预测头部组成。
4、(1)主干网络
5、主干网络采用vit架构,集成了早期候选淘汰模块,形成多层次特征感知编码器。输入的目标模板 z和搜索图像 x被切割成 相同大小(16×16)的小块,然后通过可训练的线性层进行标记化,并产生k个向量,其表示为:
6、(1)
7、其中d表示每个向量的嵌入维度,向量序列和分别表示模板和搜索图像,其中。
8、本框架的核心思想是多层次特征感知编码器。这一结构由堆叠的ceblocks组成,我们引入了一个多层次特征感知结构,用于处理vit块输出的多层次特征。所有层次的特征通过拼接直接组合,允许模型同时使用来自较低层次的详细信息和来自较高层次的抽象信息。一个多层感知机(mlp)有效地减少这些多层次特征的维度,使用三层线性层和relu激活函数来压缩和优化特征表示。通过重塑和排列,该模块将数据适配到线性层,依次将维度从12减少到6,再到3,最后到1。这一系列减少通过relu激活补充,引入非线性,增强模型捕捉复杂特征模式的能力。考虑到每个ceblock中的早期候选消除模块可能会改变输入特征的形状,我们将ceblock分成两部分:一部分代表有早期候选消除的vit块(),另一部分代表没有早期候选消除的vit块()。对应的输出特征分别用和表示。多层次特征感知编码器的定义为:
9、(2)
10、其中,,表示用于将与对齐的填充和重塑,∈是平衡聚合特征与重要性的加权常数。mlp表示多层感知机网络。因此,我们的多层次特征感知编码器通过在多个层级捕获信息来增强特征表示。
11、(2)预测头
12、使用基于全卷积网络的预测头,包含三个分支,每个分支包括4个堆叠在一起的卷积-批量归一化-relu层,用于估计目标的边界框。从主干网络输出的向量中截取搜索图像的部分并重新解释为2维空间特征图输入到预测头中。其结果为目标分类得分,局部偏移量,以及归一化边界框大小(其中分别表示搜索图像的高和宽,表示将图像切成的小块的边长)。位置的初始估计由最大分类得分确定,表示为。然后基于这个粗略位置计算出预测的目标边界框为:
13、(3)
1.一种基于多层次特征感知的伪装目标跟踪方法,其特征在于:
