本发明属于计算机视觉,具体涉及一种基于自进化提示学习的目标部件检测分割方法。
背景技术:
1、细粒度目标部件检测和分割是计算机视觉领域的基础任务,在该领域中具有重要意义。细粒度目标部件检测指的是能够精确地识别和定位图像中的不同目标类别,甚至是同一大类中的子类别。而细粒度目标部件分割则是进一步在像素级别上对图像进行分割,从而获取每个目标的精确轮廓和区域。这些技术在自动驾驶、医学影像分析、安防监控等多个应用场景中都具有广泛的应用前景。近年来,基于深度学习的方法在目标检测和分割任务中取得了显著的进展,但仍面临检测分割粒度粗,数据依赖性强、模型复杂性高以及鲁棒性和泛化能力不足等挑战。为了解决上述挑战,近年来大模型的应用成为了一个重要的突破。
2、大模型在图像分类、目标检测和分割等任务中展现了强大的学习能力和泛化能力。尽管,多模态预训练模型(contrastive language-image pre-training,clip)等视觉语言大模型的图像-文本配准能力在对象级的检测分割任务上表现出来不俗的性能,但由于物体部件结构比物体更为复杂,难以对物体进行更加细粒度的检测分割。而依赖于自监督学习的大模型dinov2(data intensive object detection with self-supervisionversion 2),其学习到的语义信息不如有监督学习模型那样明确和精确,在细粒度的部件级别,检测和分割任务中,dinov2可能无法提供足够精确的语义表示。
技术实现思路
1、针对现有技术中的上述不足,本发明提供的一种基于自进化提示学习的目标部件检测分割方法,解决了现有技术中在细粒度的检测分割方面精度不高的问题。
2、为了达到上述发明目的,本发明采用的技术方案为:一种基于自进化提示学习的目标部件检测分割方法,包括如下步骤:
3、s1、获取部件数据集;
4、s2、使用部件数据集对神经网络进行训练,得到目标部件检测分割模型;
5、目标部件检测分割模型包括图像特征提取模块、文本提示特征提取模块、多模态特征融合模块和图像检测和分割模块;
6、图像特征提取模块用于对部件数据集进行特征提取,得到图像特征;
7、文本提示特征提取模块用于接收物体级文本提示信息和部件级文本提示信息,将物体级文本提示信息和部件级文本提示信息分别转化为物体级特征向量和部件级特征向量,根据物体级特征向量和部件级特征向量得到融合向量,并使用文本编码器对融合向量进行编码,得到文本提示特征;
8、多模态特征融合模块用于根据图像特征和文本提示特征,获取融合图像特征;
9、图像检测和分割模块用于根据融合图像特征得到检测分割结果;
10、s3、通过目标部件检测分割模型输入的检测分割结果和样本真实结果计算损失函数,并进行单阶段端到端的训练微调,得到微调后的目标部件检测分割模型;
11、损失函数为:
12、
13、其中,和表示权重参数,表示交叉熵损失,表示损失,且,,表示图像中像素的数量,表示第个像素的预测值,表示第个像素的真实值,表示图像中像素的预测值,表示图像中像素的真实值;
14、s4、将目标部件图像数据输入微调后的目标部件检测分割模型,通过微调后的目标部件检测分割模型输出目标部件图像数据对应的目标分割结果。
15、上述方案的有益效果是:
16、本发明基于自进化提示学习的目标部件检测分割方法能够在不同场景下,如城市或农村环境,有效地对目标进行细粒度的部件级检测分割,扩大了细粒度检测分割系统的应用范围,自进化提示学习模块能够生成自适应提示,增强不同类别中相同的部件类别的区分度,通过多模态特征融合模块,本发明能够自主进化学习,适应不同粒度的提示信息,提高了模型的泛化能力和检测分割准确性。
17、进一步地,该方法还包括:
18、根据检测分割结果和真实标注结果,获取检测分割分数。
19、上述进一步方案的有益效果是:通过比较分割模型预测的边界框或像素掩模与真实标注之间的重叠程度,可以量化模型在目标检测或图像分割任务上的性能,分割分数可以帮助研究人员或工程师识别模型的不足之处,进而调整网络架构、训练策略或损失函数等,以提高模型精度。
20、进一步地,多模态特征融合模块还用于对图像特征进行去噪,得到去噪后的图像特征;
21、根据去噪后的图像特征和文本提示特征,获取融合图像特征。
22、上述进一步方案的有益效果是:去噪可以减少图像中的随机噪声和干扰,使得图像特征更为清晰,有利于后续的图像识别、分类或物体检测等任务,提高系统的识别精度。
23、进一步地,步骤s1中,部件数据集包括partimagenet数据集和pascalpart数据集,partimagenet数据集包括11个对象类别和40个部件类别,pascalpart数据集包括17个对象类别和116个部件类别。
24、上述进一步方案的有益效果是:两个数据集覆盖了广泛的对象类别和部件类别,为模型提供了丰富的训练样本,有助于提升模型识别各种复杂部件的能力,增强了模型的泛用性和鲁棒性。
25、进一步地,图像特征提取模块为预训练的dinov2图像编码器;
26、文本提示特征提取模块包括clip文本编码器;
27、多模态特征融合模块为transform网络;
28、图像检测和分割模块为cnn网络。
29、上述进一步方案的有益效果是:预训练模型已经在海量图像数据上学习到了通用的视觉表示,这使得在具体任务上进行微调时,模型能够快速适应并达到良好性能,减少对大量标注数据的依赖,降低了训练成本。
30、进一步地,步骤s2中,目标部件检测分割模型的训练过程为单阶段端到端微调训练;
31、单阶段端到端微调训练在训练时,采用了adam优化器且最大的训练轮数为20;
32、单阶段端到端微调训练的初始学习率为1e-3,且每隔5轮减少至原来的一半;
33、单阶段端到端微调训练的批次大小为32;
34、单阶段端到端微调训练在训练时,使用了预训练的dinov2图像编码器和clip文本编码器,且目标部件检测分割模型中除预训练的dinov2图像编码器和clip文本编码器之外的所有模块均在partimagenet数据集和pascalpart数据集中先后进行了训练。
35、上述进一步方案的有益效果是:集成clip文本编码器的特征提取模块,不仅提高了模型在理解图像内容与文本描述之间对应关系的能力,还极大地扩展了其在跨模态应用中的潜力和灵活性。
1.一种基于自进化提示学习的目标部件检测分割方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述多模态特征融合模块还用于对所述图像特征进行去噪,得到去噪后的图像特征;
4.根据权利要求1所述的方法,其特征在于,所述步骤s1中,所述部件数据集包括partimagenet数据集和pascalpart数据集,所述partimagenet数据集包括11个对象类别和40个部件类别,所述pascalpart数据集包括17个对象类别和116个部件类别。
5.根据权利要求1所述的方法,其特征在于,所述图像特征提取模块为预训练的dinov2图像编码器;
6.根据权利要求4所述的方法,其特征在于,所述步骤s2中,所述目标部件检测分割模型的训练过程为单阶段端到端微调训练;
