基于图神经网络和窗口注意力机制的三维点云语义分割方法及系统、存储介质

专利2026-06-17 4

本发明涉及三维点云语义分割领域，具体地涉及一种基于图神经网络和窗口注意力机制的三维点云语义分割方法及系统、存储介质。

背景技术：

1、3d数据在不同领域有广泛的应用，包括自动驾驶、机器人、遥感、医疗和设计行业。3d数据通常可以用不同的格式表示，包括深度图像、点云、网格和体积网格。作为一种常用的格式，点云表示保留了3d空间中的原始几何信息，没有任何离散化。因此，点云是许多场景理解相关应用(例如自动驾驶和机器人)的首选表示。而三维点云语义分割是三维场景语义理解和分析的基础，是导航定位、模式识别、无人驾驶等领域中的关键。

2、三维点云的语义分割方法主要分为基于常规监督机器学习的方法和基于深度学习的方法。

3、基于常规监督机器学习的方法可以分为两类。一类仅根据单独的特征对每个点或每个点簇进行分类，例如基于高斯混合模型的最大似然分类器、支持向量机(svm)、随机森林和贝叶斯判别分类器等。另一类由统计上下文模型组成，例如关联和非关联马尔可夫网络、条件随机场(crf)、简化的马尔科夫随机场(mrf)，专注于点云统计和不同尺度的关系信息的多级推理程序，以及对数据中固有的中长期依赖性进行建模的空间推理机。上述算法主要是针对特定任务设计特征进行分割，适用于简单场景下的语义分割，对于复杂的场景，难以找到适合的特征组合。

4、基于深度学习的方法主要可以分为三类:基于多视图、基于体素和基于点。

5、基于多视图的方法通过投影将3d点云用多视图2d图像表示，然后基于2d cnn进行处理。随后，分类结果恢复为3d。多视图方法很好地解决了点云数据的结构化问题，但这些方法存在两个严重的缺点。首先，该方法没有充分利用底层的几何和结构信息，因为投影步骤不可避免地会引入信息丢失。其次，其性能对视点选择和遮挡敏感，多视图投影图像必须覆盖所有包含点的空间。对于大型、复杂的场景，很难选择足够多合适的视点进行多视图投影。因此，很少有研究将基于多视图的深度学习架构用于三维点云语义分割。

6、基于体素的方法首先将点云划分为一组占用体素。然后，使用3d卷积神经网络以进行体素分割。最后，体素内的所有点被分配与该体素相同的语义标签。然而与点云相比，体素结构的分辨率较低，体素化本质上会导致信息丢失。此外，高分辨率会导致较高的内存和计算成本，而低分辨率会导致细节丢失。在实践中选择合适的分辨率并非易事。

7、基于点的方法直接在不规则点云上工作，不用再经过转换，减少维度转换过程中导致的几何信息损失，实现端到端的训练学习。该方法普适性相对较高，是现在研究的热点。

8、过去的几年里，注意力机制被逐渐引入到三维点云分割领域，并取得了显著的进展，然而很多基于注意力机制的方法却忽略了局部几何特征的作用，对局部几何特征的利用明显不足，限制了语义分割的准确度。

技术实现思路

1、本发明的目的是克服现有技术存在的问题，提供一种基于图神经网络和窗口注意力机制的三维点云语义分割方法及系统、存储介质，能够将局部几何特征深度融入到窗口注意力机制中，将局部几何信息和上下文信息有效地结合在一起，提高当前三维点云语义分割算法的准确度，丰富高准确度的三维点云语义分割算法。

2、为了实现上述目的，本发明第一方面提供一种基于图神经网络和窗口注意力机制的三维点云语义分割方法，包括以下步骤：

3、s1、获取输入点云；

4、s2、重构输入点云，调换点的任意两组目标信息位置，额外增加一组信息位置；

5、s3、对重构的点云使用图神经网络中的边缘卷积提取点与其相邻点之间的边缘关系，得到包含边缘关系的点云f表示点的信息维数，n表示点的个数；

6、s4、使用核点卷积对步骤s1中的输入点云处理，提取点云的局部信息得到点云将包含边缘关系的点云和局部特征点云相加，依次经过批归一化和激活函数处理得到注意力机制的输入点云

7、s5、执行窗口注意力机制，获取上下文信息将和融合到一起得到全面的局部特征；

8、s6、对窗口注意力机制下全面的局部特征进行下采样，然后再次进行多次窗口注意力，通过上采样聚合特征实现解码操作，最后完成语义分割。

9、本发明第二方面提供一种基于图神经网络和窗口注意力机制的三维点云语义分割系统，包括

10、重构输入点云模块，用于重构获取的输入点云，调换点的任意两组目标信息位置，额外增加一组信息位置；

11、边缘卷积提取模块，用于对重构的点云使用图神经网络中的边缘卷积提取点与其相邻点之间的边缘关系，得到包含边缘关系的点云f表示点的信息维数，n表示点的个数；

12、核点卷积处理模块，用于使用核点卷积对步骤s1中的输入点云处理，提取点云的局部信息得到点云将包含边缘关系的点云和局部特征点云相加，依次经过批归一化和激活函数处理得到注意力机制的输入点云

13、窗口注意力机制模块，用于执行窗口注意力机制，获取上下文信息将和融合到一起得到全面的局部特征；

14、语义分割模块，用于对窗口注意力机制下全面的局部特征进行下采样，然后再次进行多次窗口注意力，通过上采样聚合特征实现解码操作，最后完成语义分割。

15、本发明第三方面提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行本申请上述基于图神经网络和窗口注意力机制的三维点云语义分割方法的步骤。

16、本发明第三方面提供一种处理器，用于运行程序，其中，所述程序被运行时用于执行：基于图神经网络和窗口注意力机制的三维点云语义分割方法。

17、通过上述技术方案，本发明具有以下有益效果：1)设计了不对称特征，即在原始点云特征的基础上额外增加坐标特征，使点云特征从rgb-xyz两组信息变成rgb-xyz-xyz三组信息，有利于后续提取局部几何信息；2)图神经网络与核点卷积相结合能够提取更加丰富、真实、有效性的局部信息；3)窗口注意力机制提取局部上下文信息，然后与图神经网络提取到的局部几何信息相结合，显著提高了语义分割的准确性。

技术特征：

1.一种基于图神经网络和窗口注意力机制的三维点云语义分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤s2中，调换点的坐标信息和颜色信息的位置，额外增加一组坐标信息，此时第i个点表示为pi′＝(ri,gi,bi,xi,yi,zi,xi,yi,zi)，一共包含9维信息，整个点云表示为

3.根据权利要求1所述的方法，其特征在于，步骤s3中，所述对重构的点云使用图神经网络中的边缘卷积提取点与其相邻点之间的边缘关系，得到局部几何特征具体为：

4.根据权利要求2所述的方法，其特征在于，步骤s5中，所述执行窗口注意力机制，获取上下文信息具体包括以下过程：

5.根据权利要求4所述的方法，其特征在于，所述将和融合到一起得到全面的局部特征feats公式如下：

6.根据权利要求4所述的方法，其特征在于，所述方法还包括，进行步骤s6之前，先将窗口位移以上一个窗口的输出特征为输入，在新的窗口执行窗口注意力。

7.根据权利要求1-6中任一所述的方法，其特征在于，步骤s4中，所述核点卷积的公式如下：

8.一种基于图神经网络和窗口注意力机制的三维点云语义分割系统，其特征在于，包括

9.一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行本申请上述权利要求1-7中任一项方法的步骤。

10.一种处理器，其特征在于，用于运行程序，其中，所述程序被运行时用于执行：如权利要求1-7中任意一项所述的基于图神经网络和窗口注意力机制的三维点云语义分割方法。

技术总结
本发明涉及三维点云语义分割领域，具体公开了一种基于图神经网络和窗口注意力机制的三维点云语义分割方法及系统、存储介质，设计了不对称特征，即在原始点云特征的基础上额外增加坐标特征，使点云特征从rgb‑xyz两组信息变成rgb‑xyz‑xyz三组信息，有利于后续提取局部几何信息；图神经网络与核点卷积相结合能够提取更加丰富、真实、有效性的局部信息窗口注意力机制提取局部上下文信息，然后与图神经网络提取到的局部几何信息相结合，显著提高了语义分割的准确性。

技术研发人员：胡海兵,李晨阳,丁辉
受保护的技术使用者：合肥工业大学
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-31698.html