本发明属于人工智能和计算机视觉,尤其涉及一种基于深度视觉特征的场景图生成方法。
背景技术:
1、场景图生成作为人工智能领域的一个重要议题,它深入融合了图像处理与自然语言处理的技术,是计算机视觉中的核心任务之一。场景图生成的目标是从给定的图像中识别并分类不同的对象实例,并准确预测这些实例之间的视觉关系。每一对实例关系通常通过名词和谓词来描述,并以三元组的形式呈现,例如“man-holding-plate”(男人-托举-盘子)。其中“man”是主体实例,“plate”是客体实例,“holding”是它们之间的关系。通过解析图像中所有这样的三元组,就可以构建出完整的场景图,为图像提供了一种结构化的语义理解。场景图生成不仅能够提高图像的信息获取效率,还能够为多种高级计算机视觉应用提供支持。这包括但不限于图像字幕生成、视觉问答、视觉导航以及图像和视频的内容检索。例如,在视觉问答任务中,生成的场景图能够帮助模型更好地理解问题的上下文,提供更精准的答案。此外,场景图的生成也有助于提升图像基于内容的检索效率和准确性,通过结构化的图像表示,使得搜索系统能够更好地理解和匹配用户的查询意图。
2、现有的场景图生成方法首先通过预训练好的目标检测器模型对输入图像进行实例识别和特征提取,然后通过场景图生成模型结合主体实例和客体实例的特征,预测出它们之间的关系。虽然当前大多数场景图生成模型通过平衡谓词分布、采用重加权技术和增强语义信息等方法,在减少头尾关系预测偏差方面取得了显著进展,但在关系预测的准确率上仍未取得较为理想效果。其原因在于图像中存在大量背景干扰,模型对这些干扰信息进行了错误分类,导致场景图生成方法无法准确预测关系。这种背景干扰导致错误分类的情况可能以多种形式出现,例如镜子反射的人像可能被模型误识别为实际存在的对象,如图1(a)所示:图像中实际只有一个人,但模型误将镜子中的人像识别为另一人,并推理出相应的错误关系。再如,电视或电脑屏幕上的图像可能被误认为是真实场景的一部分,如图1(b)所示:图像中没有实际存在的人,但模型将电视中的人像识别出来,并尝试预测此人与桌子的关系。此外,广告牌或照片上的人像也可能被模型误识别为真实人物,如图1(c)所示:墙上的照片中有一个清晰的人像,被模型错误地识别为真实人物。这些背景干扰现象会严重影响模型关系预测的准确性,并在生成的场景图中引入大量噪声关系,误导下游任务对图像内容的关注。
3、场景图生成作为一种预测图像中实例之间关系的任务,其效果在很大程度上依赖于模型准确识别图像中的实例信息。现有的场景图生成方法由于难以识别出背景干扰信息,导致模型对干扰信息进行了错误的关系预测,使得生成的场景图中包含了大量噪声关系。
技术实现思路
1、发明目的:本发明的目的在于提供一种基于深度视觉特征的场景图生成方法,进一步提升场景图生成模型在关系预测方面的准确性。
2、技术方案:本发明所提出的fadv-sgg的训练流程图如图5所示。在训练流程中可以按照计算机的性能来调整批量处理(batch-size)大小。对于本发明的训练流程介绍如下:
3、步骤1:将数据集中的训练图像输入到目标检测器中,生成待预测关系的主客体实例标签,进入步骤2;
4、步骤2:采用语义提取器来提取主体和客体的实例特征,对其进一步的建模生成细化的主客体实例特征,将主客体实例特征进行特征融合得到关系特征,进入步骤3;
5、步骤3:使用fullyadaptive transformer对每个训练图像对应的深度图进行特征提取和编码,形成深度视觉特征表示,进入步骤4;
6、步骤4:对步骤2获得的关系特征与步骤3获得的深度视觉特征进行融合生成深度视觉关系特征表示,进入步骤5;
7、步骤5:生成步骤4的深度视觉关系特征表示的标签分布,与真实关系标签进行交叉熵损失计算,然后进行模型训练,进入步骤6;
8、步骤6:若达到设置的批量处理(batch-size)大小,返回步骤2;若训练图片全部读取完成,进入步骤7。
9、步骤7:输出训练好的模型,结束。
10、作为优选,步骤1中的训练图像均来自场景图生成的标准数据集visualgenome150(vg 150)。该数据集由108077张图像组成,包含最常见的150个实例类和50个谓词类。本发明将数据集中的70%图像划分为训练集、剩余30%图像为测试集。目标检测器采用预训练好的faster r-cnn模型,通过目标检测器得到主客体实例标签。
11、作为优选,本发明在步骤2中生成关系特征的步骤如下:
12、步骤2-1:使用语义提取器来提取步骤1获得的实例标签中的主体实例特征fs和客体实例特征fo,如公式1所示。其中,ws,wo为主客体实例的可学习权重参数,t表示矩阵转置,cs,co分别表示主体、客体标签通过glove模型生成的词嵌入。
13、
14、步骤2-2:对实例特征进行特征细化得到实例特征表示,如公式2所示。其中,和分别为主体和客体实例的实例特征表示,fc(·),ln(·),relu(·)分别表示全连接层、层归一化操作以及relu激活函数,最后通过残差连接来提高实例特征的表达能力。
15、
16、步骤2-3:按照公式3融合主客体实例的特征表示得到关系特征fso。
17、
18、作为优选,本发明在步骤3中编码深度图得到深度视觉特征的步骤如下:
19、步骤3-1:输入步骤1中训练图像对应的深度图(vg-depth),使用初始卷积层提取深度图的初始特征vi,通过条件位置编码网络cpe获取vi的位置信息,并通过残差连接生成视觉特征vd,如公式4所示。
20、vd=cpe(vi)+vi (4)
21、步骤3-2:采用如公式5所示的细粒度下采样策略对视觉特征vd进行建模生成细粒度视觉特征该方法能够最大程度地减少全局信息的损失。其中bn(·),dw(·)分别为批归一化和深度卷积操作,conv1*1(·)为1×1的卷积。
22、
23、步骤3-3:使用多头自注意力机制msa对细粒度视觉特征进行全局自适应聚合,如公式6所示。其中vg′lobal为全局聚合的结果,表示对进行线性投影,为矩阵乘法运算,wd为可学习的权重参数;
24、vg′lobal=msa(qd,kd,vd) (6)
25、步骤3-4:通过sigmoid激活函数生成上下文感知权重,并将其与深度卷积dw(·)相结合,以自适应地聚合局部信息,如公式7所示。其中⊙表示逐元素乘积,vlo′cal为局部聚合的结果。
26、vlo′cal=dw(qd)⊙sigmoid(dw(qd)) (7)
27、步骤3-5:通过“局部到全局”和“全局到局部”的双向自适应交互机制融合vg′lobal和vlo′cal,使得局部特征和全局特征能够包含彼此的信息。局部到全局的交互过程如公式8所示,全局到局部的交互过程如公式9所示。其中,vlocal为融合之后的局部特征,vglobal为融合之后的全局特征。
28、vlocal=vlo′cal⊙sigmoid(vg′lobal) (8)
29、vglobal=vg′lobal⊙sigmoid(vlo′cal) (9)
30、步骤3-6:为了结合局部特征和全局特征,使用矩阵乘法逐元素乘积⊙和线性投影实现全局和局部特征之间的混合,如公式10所示。其中,wgl为可学习的权重参数,vg_l为混合之后的结果。
31、
32、步骤3-7:使用卷积前馈网络convffn和下采样操作ds(·)对vg_l进一步建模得到最终的深度视觉特征表示其中,ln(·)为层归一化操作。
33、
34、作为优选,本发明在步骤4的生成深度视觉关系特征表示的具体步骤如下:
35、步骤4-1:将步骤2得到的关系特征fso和深度视觉特征表示沿着y轴进行拼接并通过网络层的进一步细化,得到深度视觉关系特征表示如公式12所示。其中[·,·]为拼接操作,fc(·),ln(·),relu(·)分别表示全连接层、层归一化操作以及relu激活函数。
36、
37、作为优选,本发明在步骤5中交叉熵损失计算的步骤如下:
38、步骤5-1:采用语义提取器来提取谓词特征fp,如公式10所示。其中,wp为谓词的可学习权重参数,t表示矩阵转置,cp为表示谓词标签的词嵌入。
39、fp=wptcp (13)
40、步骤5-2:对深度视觉关系特征表示和谓词特征fp进行标准化处理,深度视觉关系的标签分布fp由公式14进行计算。其中,||·||表示l2范数,⊙为逐元素乘积运算,exp为指数运算,γ为可学习的缩放因子,用于调整深度视觉关系标签分布的范围。
41、
42、步骤5-3:通过如公式15所示的交叉熵损失函数计算深度视觉关系的标签分布fp与真实关系标签ft之间的损失作为模型训练的关系损失lrel。其中,ftj和fpj分别为第j个关系样本的真实关系标签和深度视觉关系标签分布,n为每个图像上的关系样本总数。
43、
44、作为优选,本发明在三个子任务下分别进行测试,分别是谓词分类(predicateclassification,predcls)、场景图分类(scene graph classification,sgcls)和场景图检测(scene graph detection,sgdet)。
45、在谓词分类任务中,模型以图像中所有实例的边界框信息和标签为输入,目标是预测实例之间的关系类别,侧重于理解实体之间的相互作用,而不涉及实例识别的挑战。
46、场景图分类任务与谓词分类任务相似,其输入同样包括所有实例的边界框信息,但不包含实例类别信息。因此,模型不仅需要识别每个实例的类别,还要预测实例之间的关系。这一任务更具挑战性,因为实例分类的准确性直接影响关系预测的效果。
47、场景图检测是最具挑战性的任务。在这个任务中,输入图像中不含任何实例的边界框和类别信息。模型需独立识别所有实例的位置和类别,并预测它们之间的关系。从零开始进行实例识别可能会导致与人工标注数据的偏差,增加关系预测的难度,从而影响整体的准确率。
48、为了测试基于深度视觉特征的场景图生成方法中输出训练好的模型,本发明的测试流程包括以下步骤:
49、步骤1:将测试图像以及对应的深度图输入到上述训练好的模型中进行关系预测,进入步骤2;
50、步骤2:将关系预测结果与真实谓词标签进行比较,使用目前常用的评估指标对结果进行评估,进入步骤3;
51、步骤3:输出关系预测结果和评估结果,结束。
52、作为优选,测试流程中的步骤1中的测试图像选取vg150数据集中划分好的测试集,具体步骤如下:
53、步骤1-1:进行谓词分类任务。模型利用测试集提供的所有实例的位置和类别标签信息。在每个实例的位置和类别已知的前提下,模型专注于预测这些实例之间的关系。
54、步骤1-2:进行场景图分类任务。模型不能使用图像中实例的类别标签信息,而需要独立预测每个实例的类别。这些预测结果随后用于关系预测,即基于实例分类的结果继续预测实例之间的关系。
55、步骤1-3:进行场景图检测任务。模型无法访问图像中实例的位置和类别标签信息。它首先需要识别并定位图像中的每个实例,然后预测这些实例的类别。在完成这些步骤之后,模型进一步预测实例之间的关系。由于需要从零开始理解图像内容,这一过程比前两个任务更具复杂性和挑战性。
56、作为优选,测试流程中的步骤2中,为了比较关系预测结果与真实谓词标签,本发明采用了当前场景图生成领域内广泛认可的评价标准recall@k(r@k)来精准评估模型的测试效果。该指标的值越高,测试结果越好,表明模型在应对多样化的背景干扰信息时表现出的性能越佳。recall@k指标衡量的是模型在其前k个预测关系中正确识别谓词类别的频率。具体来说,本发明采用了r@50,r@100指标进行评价。
57、有益效果:与现有技术相比,本发明具有如下显著优点:
58、(1)本发明提出了一种基于深度视觉特征的场景图生成方法,该方法采纳了一种最新的轻量级vit模型fullyadaptive transformer(fat),用于编码单目深度估计器生成的深度图(vg-depth)的视觉特征,通过让场景图生成模型对深度图的视觉特征进行学习,来识别背景干扰信息,从而提升关系预测的准确性。fat模型通过完全自适应自注意力(fasa)机制,以上下文感知的方式对局部和全局视觉特征以及它们之间的双向交互进行建模,然后使用细粒度下采样策略,以增强下采样自注意力机制,获得更细粒度的全局感知能力。本发明通过该模型生成的深度视觉特征为场景图生成提供了重要的视觉信息,有助于模型更准确地理解图像内容和识别背景干扰信息。这些深度视觉特征将与关系特征相融合,形成更加细化的关系特征表示,来提高模型关系预测的准确性。具体地,本发明提出完全自适应深度视觉场景图生成网络fadv-sgg(fully adaptive depth visual scenegraph generation network),该网络的总体框架图如图3所示,其中完全自适应注意力模块结构如图4所示。与如图2所示的通过dg-bgn细化关系特征表示的现有技术相比,本发明融合了深度视觉特征,减少了背景干扰信息的影响,提高了场景图生成模型关系预测的准确性。
59、(2)本发明在vg150数据集上进行实验,该数据集包含最常见的150种实例类和50种谓词类。本发明分别在谓词分类、场景图分类和场景图检测三个子任务中进行指标评估。在谓词分类任务中,本发明的方法最终得到的评估结果如下:r@50为67.9%,r@100为69.6%;在场景图分类任务中,本发明的方法最终得到的评估结果如下:r@50为40.7%,r@100为41.3%;在场景图检测任务中,本发明的方法最终得到的评估结果如下:r@50为31.9%,r@100为35.9%。
1.一种基于深度视觉特征的场景图生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于深度视觉特征的场景图生成方法,其特征在于,步骤2具体包括如下步骤:
3.根据权利要求1所述的一种基于深度视觉特征的场景图生成方法,其特征在于,步骤3具体包括如下步骤:
4.根据权利要求1所述的一种基于深度视觉特征的场景图生成方法,其特征在于,步骤4具体为:
5.根据权利要求1所述的一种基于深度视觉特征的场景图生成方法,其特征在于,步骤5具体包括如下步骤:
6.一种测试方法,其特征在于,用于测试如权利要求1-5任意一项所述的基于深度视觉特征的场景图生成方法中输出训练好的模型,包括以下步骤:
7.根据权利要求6所述的测试方法,其特征在于,所述步骤1中的测试图像选取vg150数据集中划分的测试集。
8.根据权利要求6所述的测试方法,其特征在于,所述步骤2中,为比较关系预测结果与真实谓词标签,采用当前场景图生成领域内广泛认可的评价标准recall@k来精准评估模型的测试效果;该指标的值越高,测试结果越好,表明模型在应对多样化的背景干扰信息时表现出的性能越佳;recall@k指标衡量的是模型在其前k个预测关系中正确识别谓词类别的频率。
9.根据权利要求8所述的测试方法,其特征在于,所述评价标准recall@k选用r@50或r@100指标。