场景建模方法、装置、设备、计算机可读存储介质及产品与流程

专利2025-06-24  7


本申请涉及通信,尤其是指一种场景建模方法、装置、设备、计算机可读存储介质及产品。


背景技术:

1、当前技术中,若需要在场景由自由视角观看,则需对整个场景进行人工建模或者使用三维重建算法重建出无线网格(mesh),并将纹理贴合到mesh表面,形成完整的三维模型,进而在任意位置安放虚拟相机对场景进行观看,最后将虚拟相机视角的3d范围进行渲染,从而得到该视角下的图片。

2、现有对场景建模方法为基于几何的多视图三维重建:首先通过对物体或者场景在多个视角拍摄多组图片,接着对拍摄得到的图片进行特征点检测和匹配从而恢复相机位姿,进而再进行稠密匹配得到深度图并对多张深度图进行融合,然后使用泊松重建等算法得到三维模型,最后使用纹理贴图的方法给三维模型贴图得到完整且有纹理的模型。该方案的流程中各个节点涉及到的算法均十分复杂,门槛极高,现实应用中往往会因为相机位姿、深度图估计不准等问题,导致生成的三维模型有很多凹凸坑、缺少光影以及真实感缺失等问题,需要人工后续修饰,在自由视角观看时效果往往不佳。

3、当建模完成可实现自由视角生成,但其存在较大的缺陷,具体如下:

4、该方案中流程中各个节点涉及到的算法均十分复杂,门槛极高,同时最后生成的三维模型效果并不一定较佳,往往需要手工修饰,导致最后合成新视角的图片质量并不一定真实和可靠。


技术实现思路

1、本申请的目的在于提供一种场景建模方法、装置、设备、计算机可读存储介质及产品,以解决现有场景建模方法涉及的算法复杂且生成的三维模型效果不佳的问题。

2、为了解决上述问题,本申请提供一种场景建模方法,包括:

3、获取目标视频中的多张原始2d图片;所述目标视频为包含目标场景各个角度的至少一段视频;

4、检测每张所述原始2d图片的2d特征点,确定每张所述原始2d图片的匹配图片;

5、针对每张所述原始2d图片及其匹配图片,进行2d特征点匹配及位姿计算,得到每张所述原始2d图片对应的相机位姿以及每张所述原始2d图片上的匹配2d特征点对应的3d特征点;

6、分别对每张所述原始2d图片对应的3d特征点进行渲染,得到与每张所述原始2d图片对应的渲染2d图片;

7、对所述渲染2d图片与对应的所述原始2d图片进行相似度计算得到损失函数进行训练,得到所述场景的场景模型。

8、其中,所述检测每张所述原始2d图片的2d特征点,确定每张所述原始2d图片的匹配图片,包括:

9、检测每张所述原始2d图片的2d特征点,将所述原始2d图片编码成向量;

10、将每张所述原始2d图片的向量分别与其他原始2d图片的向量进行相似度计算,确定每张所述原始2d图片的匹配图片。

11、其中,针对每张所述原始2d图片及其匹配图片,进行2d特征点匹配及位姿计算,得到每张所述原始2d图片对应的相机位姿以及每张所述原始2d图片上的匹配2d特征点对应的3d特征点,包括:

12、针对每张所述原始2d图片及其匹配图片,进行图片内的2d特征点匹配,得到每张所述原始2d图片上的匹配2d特征点;

13、通过三角测量方法对每张所述原始2d图片上的匹配2d特征点进行分析,得到每张所述原始2d图片对应的原始相机位姿;

14、使用因子图对每张所述原始2d图片对应的原始相机位姿进行恢复,得到每张所述原始2d图片对应的相机位姿以及每张所述原始2d图片上的匹配2d特征点对应的3d特征点。

15、其中,针对每张所述原始2d图片及其匹配图片,进行图片内的2d特征点匹配,得到每张所述原始2d图片上的匹配2d特征点,包括:

16、针对每张所述原始2d图片及其匹配图片,采用lightglue算法进行图片内的2d特征点匹配,得到每张所述原始2d图片上的匹配2d特征点。

17、其中,分别对每张所述原始2d图片对应的3d特征点进行渲染,得到与每张所述原始2d图片对应的渲染2d图片,包括:

18、根据每张所述原始2d图片对应的3d特征点,分别创建一组三维高斯分布;

19、通过图像空间对每组所述三维高斯分布分别进行渲染,得到与每张所述原始2d图片对应的渲染2d图片。

20、其中,对所述渲染2d图片与对应的所述原始2d图片进行相似度计算得到损失函数进行训练,得到所述场景的场景模型,包括:

21、通过最小化损失函数迭代更新场景模型的参数,进行模型训练;在所述渲染2d图片与原始2d图片的相似度高于预设值的情况下,模型训练完成,得到所述场景的场景模型。

22、其中,所述方法还包括:

23、获取相机的任意位姿参数;

24、将所述任意位姿参数输入至所述场景模型,获取所述场景模型合成的与所述任意位姿参数对应的场景视角。

25、本申请实施例还提供一种场景建模设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述处理器执行所述程序时实现如上所述的场景建模方法。

26、本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的场景建模方法中的步骤。

27、本申请实施例还提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时实现如上所述的场景建模方法的步骤。

28、本申请的上述技术方案至少具有如下有益效果:

29、本申请实施例的场景建模方法、装置、设备、计算机可读存储介质及产品中,通过能够覆盖场景的各个角度的目标视频即能完成场景建模,自由输出任意视角的图像;该建模方法的流程简单、建模速度快,且新视角合成质量效果较佳。



技术特征:

1.一种场景建模方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述检测每张所述原始2d图片的2d特征点,确定每张所述原始2d图片的匹配图片,包括:

3.根据权利要求1所述的方法,其特征在于,针对每张所述原始2d图片及其匹配图片,进行2d特征点匹配及位姿计算,得到每张所述原始2d图片对应的相机位姿以及每张所述原始2d图片上的匹配2d特征点对应的3d特征点,包括:

4.根据权利要求3所述的方法,其特征在于,针对每张所述原始2d图片及其匹配图片,进行图片内的2d特征点匹配,得到每张所述原始2d图片上的匹配2d特征点,包括:

5.根据权利要求1所述的方法,其特征在于,分别对每张所述原始2d图片对应的3d特征点进行渲染,得到与每张所述原始2d图片对应的渲染2d图片,包括:

6.根据权利要求1所述的方法,其特征在于,对所述渲染2d图片与对应的所述原始2d图片进行相似度计算得到损失函数进行训练,得到所述场景的场景模型,包括:

7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:

8.一种场景建模设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的场景建模方法。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7任一项所述的场景建模方法中的步骤。

10.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令被处理器执行时实现如权利要求1至7中任一项所述的场景建模方法的步骤。


技术总结
本申请提供一种场景建模方法、装置、设备、计算机可读存储介质及产品,该方法包括:获取目标视频中的多张原始2D图片;检测每张所述原始2D图片的2D特征点,确定每张所述原始2D图片的匹配图片;针对每张所述原始2D图片及其匹配图片,进行2D特征点匹配及位姿计算,得到每张所述原始2D图片对应的相机位姿以及每张所述原始2D图片上的匹配2D特征点对应的3D特征点;分别对每张所述原始2D图片对应的3D特征点进行渲染,得到与每张所述原始2D图片对应的渲染2D图片;对损失函数进行训练,得到所述场景的场景模型;本申请实施例通过能够覆盖场景的各个角度的目标视频即能完成场景建模,自由输出任意视角的图像;该建模方法的流程简单、建模速度快,且新视角合成质量效果较佳。

技术研发人员:蔡永辉,蒋晨晨,陈霖甲,艾永春
受保护的技术使用者:咪咕文化科技有限公司
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-25676.html