网络训练及对象姿态估计方法、装置、设备、存储介质与流程

专利2025-11-10  9


本公开涉及但不限于计算机视觉,尤其涉及一种网络训练及对象姿态估计方法、装置、设备、存储介质。


背景技术:

1、作为计算机视觉领域中一个十分重要且有挑战性的问题,对象姿态估计在很多领域得到了广泛应用。相关技术中,可以利用视觉转换器网络(vision transformer,vit)实现对象姿态估计任务。但是,在相关技术的对象姿态估计方案中,一方面,需要使用大量额外的预训练样本数据对视觉转换器网络进行预训练;另一方面,上游的预训练任务与下游的对象姿态估计任务之间存在较大的偏差,导致利用训练后的视觉转换器网络实现的对象姿态估计任务的准确性不高。


技术实现思路

1、有鉴于此,本公开实施例至少提供一种网络训练及对象姿态估计方法、装置、设备、存储介质。

2、本公开实施例的技术方案是这样实现的:

3、本公开实施例提供一种网络训练方法,所述方法包括:

4、获取包含预设对象的第一样本图像和所述第一样本图像中每一对象关键点的位置标注;

5、基于所述每一对象关键点的位置标注,对所述第一样本图像中的至少一个图像子块进行遮挡处理,得到遮挡图像;

6、利用待训练的视觉转换器网络,对所述遮挡图像进行特征提取,得到第一视觉标记序列;

7、利用第一解码器网络,基于所述第一视觉标记序列,对所述遮挡图像中被遮挡的图像子块进行还原处理,得到还原图像;

8、基于所述第一样本图像和所述还原图像之间的第一损失值,对所述视觉转换器网络的网络参数进行至少一次更新,得到已训练的所述视觉转换器网络。

9、本公开实施例提供一种对象姿态估计方法,所述方法包括:

10、获取包含预设对象的第一图像,以及设定的第四关键点标记序列,所述第四关键点标记序列中的每一关键点标记分别对应所述预设对象的一个对象关键点;

11、利用已训练的视觉转换器网络,对所述第一图像进行特征提取,得到第三视觉标记序列;其中,所述视觉转换器网络是采用上述网络训练方法训练得到的;

12、利用已训练的第二预测网络,基于所述第四关键点标记序列和所述第三视觉标记序列,对所述第一图像中对象关键点的位置进行预测,得到每一所述对象关键点在所述第一图像中的预测位置。

13、本公开实施例提供一种网络训练装置,所述装置包括:

14、第一获取模块,用于获取包含预设对象的第一样本图像和所述第一样本图像中每一对象关键点的位置标注;

15、遮挡模块,用于基于所述每一对象关键点的位置标注,对所述第一样本图像中的至少一个图像子块进行遮挡处理,得到遮挡图像;

16、第一提取模块,用于利用待训练的视觉转换器网络,对所述遮挡图像进行特征提取,得到第一视觉标记序列;

17、还原模块,用于利用第一解码器网络,基于所述第一视觉标记序列,对所述遮挡图像中被遮挡的图像子块进行还原处理,得到还原图像;

18、第一更新模块,用于基于所述第一样本图像和所述还原图像之间的第一损失值,对所述视觉转换器网络的网络参数进行至少一次更新,得到已训练的所述视觉转换器网络。

19、本公开实施例提供一种对象姿态估计装置,所述装置包括:

20、第三获取模块,用于获取包含预设对象的第一图像,以及设定的第四关键点标记序列,所述第四关键点标记序列中的每一关键点标记分别对应所述预设对象的一个对象关键点;

21、第三提取模块,用于利用已训练的视觉转换器网络,对所述第一图像进行特征提取,得到第三视觉标记序列;其中,所述视觉转换器网络是采用上述网络训练方法训练得到的;

22、第二预测模块,用于利用已训练的第二预测网络,基于所述第四关键点标记序列和所述第三视觉标记序列,对所述第一图像中对象关键点的位置进行预测,得到每一所述对象关键点在所述第一图像中的预测位置。

23、本公开实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。

24、本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。

25、本公开实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。

26、本公开实施例中,获取包含预设对象的第一样本图像和第一样本图像中每一对象关键点的位置标注;基于每一对象关键点的位置标注,对第一样本图像中的至少一个图像子块进行遮挡处理,得到遮挡图像;利用待训练的视觉转换器网络,对遮挡图像进行特征提取,得到第一视觉标记序列;利用第一解码器网络,基于第一视觉标记序列对遮挡图像中被遮挡的图像子块进行还原处理,得到还原图像;基于第一样本图像和还原图像之间的第一损失值,对视觉转换器网络的网络参数进行至少一次更新,得到已训练的视觉转换器网络。这样,一方面,由于遮挡图像是基于每一对象关键点的位置标注对第一样本图像中的至少一个图像子块进行遮挡处理得到的,因此,基于第一样本图像和还原图像之间的第一损失值,对视觉转换器网络的网络参数进行至少一次更新,可以引导视觉转换器网络学习对对象关键点相关的语义进行理解的能力,从而使得视觉转换器网络能够更好地提取与对象关键点相关的特征,以在利用训练后的视觉转换器网络实现对象姿态估计任务的情况下,提高对象姿态估计的准确性;另一方面,对视觉转换器网络进行训练所采用的第一样本图像为包含预设对象的图像,并且第一样本图像具有每一对象关键点的位置标注,而在对象姿态估计任务中进行网络训练所采用的样本图像通常也为包含预设对象且具有每一对象关键点的位置标注的图像,这样,可以在对视觉转换器网络进行预训练以及将预训练后的视觉转换器网络迁移至对象姿态估计任务后的网络训练过程中使用相同的样本图像,从而可以减少对训练样本数据的需求量。

27、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开的技术方案。



技术特征:

1.一种网络训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述每一对象关键点的位置标注,对所述第一样本图像中的至少一个图像子块进行遮挡处理,得到遮挡图像,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述图像子块分别与每一所述目标图像子块之间的距离,确定所述图像子块对应的遮挡概率,包括:

4.根据权利要求1至3中任一项所述的方法,其特征在于,在所述基于所述第一样本图像和所述还原图像之间的第一损失值,对所述视觉转换器网络的网络参数进行至少一次更新,得到已训练的所述视觉转换器网络之后,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述第一预测网络包括基于转换器的第二解码器网络、以及位置分类网络;所述利用第一预测网络,基于所述第一关键点标记序列和所述第二视觉标记序列,对所述第二样本图像中对象关键点的位置进行预测,得到每一所述对象关键点在所述第二样本图像中的预测位置,包括:

6.根据权利要求5所述的方法,其特征在于,所述第二解码器网络包括自注意力层、交叉注意力层和前馈网络层;

7.根据权利要求6所述的方法,其特征在于,所述采用自注意力机制,对所述第一关键点标记序列进行更新,得到第二关键点标记序列,包括:

8.根据权利要求6或7所述的方法,其特征在于,所述采用交叉注意力机制,基于所述第二视觉标记序列,对所述第二关键点标记序列进行更新,得到第三关键点标记序列,包括:

9.根据权利要求5至8中任一项所述的方法,其特征在于,所述位置分类网络包括第一分类网络和第二分类网络,所述预测位置包括在水平方向上的第一位置信息和在竖直方向上的第二位置信息;

10.一种对象姿态估计方法,其特征在于,所述方法包括:

11.根据权利要求10所述的方法,其特征在于,所述第四关键点标记序列包括采用如权利要求4至9中任一项所述的网络训练方法得到的第一关键点标记序列,所述第二预测网络包括采用如权利要求4至9中任一项所述的网络训练方法得到的第一预测网络。

12.一种网络训练装置,其特征在于,包括:

13.一种对象姿态估计装置,其特征在于,包括:

14.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至9任一项所述方法或权利要求10至11中任一项所述方法中的步骤。

15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9任一项所述方法或权利要求10至11中任一项所述方法中的步骤。


技术总结
本公开实施例公开了一种网络训练及对象姿态估计方法、装置、设备、存储介质,其中,所述方法包括:获取包含预设对象的第一样本图像和所述第一样本图像中每一对象关键点的位置标注;基于每一对象关键点的位置标注,对所述第一样本图像中的至少一个图像子块进行遮挡处理,得到遮挡图像;利用待训练的视觉转换器网络,对所述遮挡图像进行特征提取,得到第一视觉标记序列;利用第一解码器网络,基于所述第一视觉标记序列,对所述遮挡图像中被遮挡的图像子块进行还原处理,得到还原图像;基于所述第一样本图像和所述还原图像之间的第一损失值,对所述视觉转换器网络的网络参数进行至少一次更新,得到已训练的所述视觉转换器网络。

技术研发人员:余一宽,李彦杰,朱烽
受保护的技术使用者:上海商汤智能科技有限公司
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-27723.html