基于ViT的单目深度估计和语义分割方法及系统

专利2025-04-06 38

本发明涉及人工智能，具体的是基于vit的单目深度估计和语义分割方法及系统。

背景技术：

1、场景深度估计与语义分割在机器视觉领域扮演着一个重要角色，它使得机器能够加强对现实三维场景的感知和理解，因此在机器人导航，自动驾驶和虚拟现实等任务中有着广泛的应用，从基于手工设计特征到基于双目相机图像训练的模型，再到基于单目相机图像训练的模型，体现了对于人工智能更高层次的追求。

2、处理这些任务都遵循着把模型分为两个部分的惯例，一个编码器和一个解码器。编码器通常是基于一个图像分类的网络，又称为骨干网络，总是在一个大型图像数据集，如imagenet上面进行预训练的，解码器负责将经编码器输出的特征表示进行组合并生成最后的预测结果。

3、基于卷积的骨干网络通过对输入图像下采样来提取不同尺度的特征表示，下采样操作可以逐渐增加感受野，将低层次的特征汇聚形成更抽象的高层次特征，同时确保网络模型对计算和内存开销是可负担的，然而下采样操作在处理密集型任务时表现出明显的缺点，在模型的深层阶段会造成特征分辨率和粒度的丢失，这在解码器处理过程中是难以恢复的。

技术实现思路

1、为解决上述背景技术中提到的不足，本发明的目的在于提供基于vit的单目深度估计和语义分割方法及系统。

2、第一方面，本发明的目的可以通过以下技术方案实现：基于vit的单目深度估计和语义分割方法，方法包括以下步骤：

3、接收待处理图像，将待处理图像输入至预先建立的基于vit骨干网络的编码器内，将待处理图像分割为互不重叠的方块，将方块映射到特征空间中得到词元；

4、将词元输入至预先建立的vit骨干网络的编码器的reassemble块进行组合处理，得到类图像的特征表示，通过卷积解码器的fusion块对类图像的特征表示进行处理，得到处理图像的特征表示；

5、将类图像特征表示与处理图像的特征表示进行拼接，得到拼接特征表示，将拼接特征表示输入至卷积解码器的两个连续的卷积单元内进行上采样操作处理，通过fusion块的连续操作处理，得到最终特征图；

6、将最终特征图输入至预先构建的单目深度估计和语义分割的任务头内，计算得出总损失。

7、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述基于vit骨干网络的编码器将图像处理成p2个互不重叠的方块，随后这些方块被展平成张量，然后分别使用线性层映射成嵌入表示。

8、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述基于vit骨干网络的编码器内生成嵌入的过程如下：将一张h×w像素的图片处理成一系列词元其中代表readout词元，d表示为每个词元的特征维度；

9、输入的词元经过l个transformer层形成特征表示tl，其中l表示为由第l层输出的。

10、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述reassemble块分解的表达式如下：

11、

12、其中，s表示对于输入的待处理图像所恢复的特征的比率，表示输出特征的维度。

13、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述卷积解码器将np+1个词元映射成一组np个词元，拼接成类图像的特征表示，操作示意如下：

14、

15、本操作负责处理readout词元。

16、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述readout词元处理的方法是将readout词元的信息拼接到所有其它的词元上，操作表达式如下：

17、

18、在read操作之后，根据位置嵌入将得到的np个词元重新组合成类图像的特征表示，应用空间拼接操作，得到一张d通道的尺寸为的特征图，操作示意如下：

19、

20、最终将特征传递到resample层，将特征表示缩放为d通道的尺寸为的特征表示。

21、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述预先构建的单目深度估计和语义分割的任务头的损失函数如下：

22、数据集d中包含原图片xi，与相对应的深度估计图以及标注的语义分割图损失函数由深度估计损失和语义分割损失组成；

23、

24、对于单目深度估计任务，采用的损失函数是尺度与平移不变的裁剪损失：

25、

26、其中，y是真实值，是预测值.是单个数据点的损失，选择为l2损失函数形式，s是选择后的数据点集合，去掉了异常值后的数据点索引集合，|s表示集合s中元素的个数；

27、集合s的构造过程如下：

28、

29、其中，n是总数据点数，α是去除的比例；

30、带掩码的均方误差mse损失函数的数学表达式如下：

31、

32、其中，是总损失，是预测值，y是真实值，m是掩码矩阵，m＝∑i,jmi,j是每个样本的有效元素数量，reduction是对每个样本损失进行的归约操作。

33、第二方面，为了达到上述目的，本发明公开了基于vit的单目深度估计和语义分割系统，包括：

34、编码提取模块，用于接收待处理图像，将待处理图像输入至预先建立的基于vit骨干网络的编码器内，将待处理图像分割为互不重叠的方块，将方块映射到特征空间中得到词元；

35、解码处理模块，用于将词元输入至预先建立的vit骨干网络的编码器的reassemble块进行组合处理，得到类图像的特征表示，通过卷积解码器的fusion块对类图像的特征表示进行处理，得到处理图像的特征表示；

36、拼接处理模块，用于将类图像特征表示与处理图像的特征表示进行拼接，得到拼接特征表示，将拼接特征表示输入至卷积解码器的两个连续的卷积单元内进行上采样操作处理，通过fusion块的连续操作处理，得到最终特征图；

37、单目深度估计和语义分割模块，用于将最终特征图输入至预先构建的单目深度估计和语义分割的任务头内，计算得出总损失。

38、结合第二方面，在第二方面的某些实现方式中，该系统还包括：所述编码提取模块基于vit骨干网络的编码器将图像处理成p2个互不重叠的方块，随后这些方块被展平成张量，然后分别使用线性层映射成嵌入表示；

39、编码提取模块基于vit骨干网络的编码器内生成嵌入的过程如下：将一张h×w像素的图片处理成一系列词元其中np＝代表readout词元，d表示为每个词元的特征维度；

40、输入的词元经过l个transformer层形成特征表示tl，其中l表示为由第l层输出的；

41、解码处理模块reassemble块分解的表达式如下：

42、

43、其中，s表示对于输入的待处理图像所恢复的特征的比率，表示输出特征的维度；

44、解码处理模块卷积解码器将np+1个词元映射成一组np个词元，拼接成类图像的特征表示，操作示意如下：

45、

46、本操作负责处理readout词元。

47、解码处理模块readout词元处理的方法是将readout词元的信息拼接到所有其它的词元上，操作表达式如下：

48、

49、在read操作之后，根据位置嵌入将得到的np个词元重新组合成类图像的特征表示，应用空间拼接操作，得到一张d通道的尺寸为的特征图，操作示意如下：

50、

51、最终将特征传递到resample层，将特征表示缩放为d通道的尺寸为的特征表示；

52、单目深度估计和语义分割模块预先构建的单目深度估计和语义分割的任务头的损失函数如下：

53、数据集d中包含原图片xi，与相对应的深度估计图以及标注的语义分割图损失函数由深度估计损失和语义分割损失组成；

54、

55、对于单目深度估计任务，采用的损失函数是尺度与平移不变的裁剪损失：

56、

57、其中，y是真实值，是预测值.是单个数据点的损失，选择为l2损失函数形式，s是选择后的数据点集合，去掉了异常值后的数据点索引集合，|s表示集合s中元素的个数；

58、集合s的构造过程如下：

59、

60、其中，n是总数据点数，α是去除的比例；

61、带掩码的均方误差mse损失函数的数学表达式如下：

62、

63、其中，是总损失，是预测值，y是真实值，m是掩码矩阵，m＝∑i,jmi,j是每个样本的有效元素数量，reduction是对每个样本损失进行的归约操作。

64、在本发明的另一方面，为了达到上述目的，公开了一种终端设备，包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序，所述存储器中存储有能够在处理器上运行的计算机程序，所述处理器加载并执行计算机程序时，采用了如上所述的基于vit的单目深度估计和语义分割方法。

65、本发明的有益效果：

66、本发明应用基于vit骨干网络的dpt模型实现单目深度估计和图像语义分割的联合模型，融合不同transformer层所提取的特征表示，vit带来的细粒度和更一致的全局深度估计可以解决cnns在加深网络的过程中所损失的粒度和分辨率等对密集型任务预测重要信息的问题，引入带平衡系数的组合损失函数，可以在同时训练单目深度估计和语义分割任务时加快收敛速度，并对两个任务带来一定的性能提升。实验获得了预期效果，可以对图像中的物体进行有效的深度估计和对复杂场景图像中的人类进行有效的语义分割。

技术特征：

1.基于vit的单目深度估计和语义分割方法，其特征在于，方法包括以下步骤：

2.根据权利要求1所述的基于vit的单目深度估计和语义分割方法，其特征在于，所述基于vit骨干网络的编码器将图像处理成p2个互不重叠的方块，随后这些方块被展平成张量，然后分别使用线性层映射成嵌入表示。

3.根据权利要求2所述的基于vit的单目深度估计和语义分割方法，其特征在于，所述基于vit骨干网络的编码器内生成嵌入的过程如下：将一张h×w像素的图片处理成一系列词元其中代表readout词元，d表示为每个词元的特征维度；

4.根据权利要求1所述的基于vit的单目深度估计和语义分割方法，其特征在于，所述reassemble块分解的表达式如下：

5.根据权利要求1所述的基于vit的单目深度估计和语义分割方法，其特征在于，所述卷积解码器将np+1个词元映射成一组np个词元，拼接成类图像的特征表示，操作示意如下：

6.根据权利要求5所述的基于vit的单目深度估计和语义分割方法，其特征在于，所述readout词元处理的方法是将readout词元的信息拼接到所有其它的词元上，操作表达式如下：

7.根据权利要求1所述的基于vit的单目深度估计和语义分割方法，其特征在于，所述预先构建的单目深度估计和语义分割的任务头的损失函数如下：

8.基于vit的单目深度估计和语义分割系统，其特征在于，包括：

9.根据权利要求8所述的基于vit的单目深度估计和语义分割系统，其特征在于，所述编码提取模块基于vit骨干网络的编码器将图像处理成p2个互不重叠的方块，随后这些方块被展平成张量，然后分别使用线性层映射成嵌入表示；

10.一种终端设备，包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序，其特征在于，所述存储器中存储有能够在处理器上运行的计算机程序，所述处理器加载并执行计算机程序时，采用了权利要求1至7中任一项所述的基于vit的单目深度估计和语义分割方法。

技术总结
本发明公开了基于ViT的单目深度估计和语义分割方法及系统，涉及人工智能技术领域，包括：接收待处理图像，将待处理图像输入至预先建立的基于ViT骨干网络的编码器内，将待处理图像分割为互不重叠的方块，将方块映射到特征空间中得到词元；将词元输入至预先建立的ViT骨干网络的编码器的Reassemble块进行组合处理，得到类图像的特征表示，通过卷积解码器的Fusion块对类图像的特征表示进行处理，得到处理图像的特征表示；将类图像特征表示与处理图像的特征表示进行拼接，得到拼接特征表示，将拼接特征表示输入至卷积解码器的两个连续的卷积单元内进行上采样操作处理，通过Fusion块的连续操作处理，得到最终特征图；将最终特征图输入至预先构建的单目深度估计和语义分割的任务头内，计算得出总损失。

技术研发人员：陈海建,游涛
受保护的技术使用者：上海师范大学
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-23153.html