一种矢量数据二路空间相交方法、装置及系统

专利2025-06-16  9


本发明涉及一种矢量数据二路空间相交方法、装置及系统,属于地理计算。


背景技术:

1、近年来,随着地理信息在交通、土地、水利等领域的广泛应用,矢量数据的规模出现成倍增长的趋势,继而面临数量级达到tb级甚至pb级的矢量数据处理问题。

2、二路空间矢量相交是矢量数据集中最基本也是最常用的空间操作,然而随着矢量数据的规模不断增长,传统的串行方法耗时过长,已无法满足决策者的需求。

3、高性能计算在地理信息领域已经得到了广泛的使用,作为一种典型的数据密集型的应用,二路空间矢量相交能够通过高性能并行技术得到速度上的提升。但是矢量数据作为一种空间数据,其空间分布通常不规律并表现出严重的异质性。目前,已支持并行矢量空间相交的开源框架,例如spatial hadoop和spatial spark,都忽略了矢量数据的空间异质性,导致并行过程中出现负载失衡以及性能瓶颈。


技术实现思路

1、本发明的目的在于提供一种矢量数据二路空间相交方法、装置及系统,能够在提高矢量数据二路空间相交效率的同时,保证并行过程中负载均衡。

2、为达到上述目的,本发明提供如下技术方案:

3、第一方面,本发明提供一种矢量数据二路空间相交方法,包括:

4、获取待处理的矢量数据集;

5、基于待处理的矢量数据集,生成不同尺度的索引块,以及以索引块标识符为键、与索引块相交的所有矢量数据的集合为值的弹性分布式数据集;

6、将所述弹性分布式数据集输入至训练好的索引块计算强度预测模型进行索引块计算强度预测,获取各索引块的计算强度;

7、基于各索引块的计算强度,将各索引块映射至各任务处理分区;

8、利用各任务处理分区对其所映射的各索引块内矢量数据执行二路空间相交;

9、其中,所述索引块计算强度预测模型是基于预获取的矢量数据集,利用sparkml机器学习库生成并训练的。

10、结合第一方面,进一步的,所述矢量数据集包括矢量数据,以及矢量数据所对应的对象标识符和对象几何信息;其中,所述对象几何信息包括矢量数据的结构、分布和拓扑特性。

11、结合第一方面,进一步的,基于待处理的矢量数据集,生成不同尺度的索引块包括:

12、基于待处理的矢量数据集,利用四叉树划分法,生成不同尺度的索引块;

13、其中,与索引块相交的矢量数据被判定为落入该索引块。

14、结合第一方面,进一步的,基于待处理的矢量数据集,生成以索引块标识符为键、与索引块相交的矢量数据集为值的弹性分布式数据集包括:

15、基于待处理的矢量数据集,生成以对象标识符为键、对象几何信息为值的第一数据集;

16、基于第一数据集,生成以索引块标识符为键、与索引块相交的对象标识符和对象几何信息为值的第二数据集;

17、基于第二数据集,生成以索引块标识符为键、与索引块相交的矢量数据的集合为值的第三数据集;

18、对第三数据集进行合并,生成以索引块标识符为键、与索引块相交的所有矢量数据的集合为值的弹性分布式数据集。

19、结合第一方面,进一步的,基于预获取的矢量数据集,利用sparkml机器学习库生成并训练索引块计算强度预测模型包括:

20、基于预获取的矢量数据集,生成不同尺度的训练索引块;

21、基于所述训练索引块,利用sparkml机器学习库生成索引块计算强度预测模型;

22、以所述训练索引块内矢量数据的相交时间为标签,矢量数据的结构、分布和拓扑特性为特征,基于所述训练索引块,生成训练样本;

23、将所述训练样本输入至所述索引块计算强度预测模型,利用sparkml机器学习库进行训练,获取训练好的索引块计算强度预测模型。

24、结合第一方面,进一步的,基于预获取的矢量数据集,生成不同尺度的训练索引块包括:

25、基于预获取的矢量数据集,利用四叉树划分法,生成不同尺度的训练索引块;

26、其中,与训练索引块相交的矢量数据被判定为落入该训练索引块。

27、结合第一方面,进一步的,基于各索引块的计算强度,将各索引块映射至各任务处理分区包括:对计算强度大于预设阈值的索引块进行四叉划分,直至所有索引块的计算强度小于预设阈值或达到预设划分终止条件为止,将各索引块映射至各任务处理分区,使得各任务处理分区所映射的各索引块的计算强度的总和相等。

28、结合第一方面,进一步的,利用各任务处理分区对其所映射的各索引块内矢量数据执行二路空间相交包括:利用各任务处理分区对其所映射的各索引块内矢量数据构建r树索引,并基于所述r树索引,对各索引块内矢量数据执行二路空间相交。

29、第二方面,本发明提供一种矢量数据二路空间相交装置,包括:

30、数据获取模块,用于获取待处理的矢量数据集;

31、弹性分布式数据集生成模块,用于基于待处理的矢量数据集,生成不同尺度的索引块,以及以索引块标识符为键、与索引块相交的所有矢量数据的集合为值的弹性分布式数据集;

32、计算强度预测模块,用于将所述弹性分布式数据集输入至训练好的索引块计算强度预测模型进行索引块计算强度预测,获取各索引块的计算强度;

33、索引块映射模块,用于基于各索引块的计算强度,将各索引块映射至各任务处理分区;

34、执行模块,用于利用各任务处理分区对其所映射的各索引块内矢量数据执行二路空间相交;

35、其中,所述索引块计算强度预测模型是基于预获取的矢量数据集,利用sparkml机器学习库生成并训练的。

36、第三方面,本发明提供一种计算机系统,包括:

37、存储介质:用于存储计算机程序;

38、处理器:用于执行所述计算机程序以实现第一方面任一项所述矢量数据二路空间相交方法的步骤。

39、第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面任一项所述矢量数据二路空间相交方法的步骤。

40、第五面,本发明提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面任一项所述矢量数据二路空间相交方法的步骤。

41、与现有技术相比,本发明的有益效果是:

42、本发明提供的矢量数据二路空间相交方法,基于sparkml机器学习库,获取训练好的索引块计算强度预测模型,对各索引块进行计算强度预测,基于各索引块的计算强度,将各索引块映射至各任务处理分区,由各任务处理分区对索引块内矢量数据执行二路空间相交,考虑了影响矢量数据二路空间相交计算强度的因素,实现了并行任务复杂度评估,能够在提高矢量数据二路空间相交效率的同时,保证并行过程中负载均衡。

43、本实施例提供的矢量数据二路空间相交方法,利用四叉树划分法生成不同尺度的训练索引块,能够提高训练样本的多样性,实现训练样本的自动生成。


技术特征:

1.一种矢量数据二路空间相交方法,其特征在于,包括:

2.根据权利要求1所述的矢量数据二路空间相交方法,其特征在于,所述矢量数据集包括矢量数据,以及矢量数据所对应的对象标识符和对象几何信息;其中,所述对象几何信息包括矢量数据的结构、分布和拓扑特性。

3.根据权利要求1所述的矢量数据二路空间相交方法,其特征在于,基于待处理的矢量数据集,生成不同尺度的索引块包括:

4.根据权利要求1所述的矢量数据二路空间相交方法,其特征在于,基于待处理的矢量数据集,生成以索引块标识符为键、与索引块相交的矢量数据集为值的弹性分布式数据集包括:

5.根据权利要求1所述的矢量数据二路空间相交方法,其特征在于,基于预获取的矢量数据集,利用sparkml机器学习库生成并训练索引块计算强度预测模型包括:

6.根据权利要求5所述的矢量数据二路空间相交方法,其特征在于,基于预获取的矢量数据集,生成不同尺度的训练索引块包括:

7.根据权利要求1所述的矢量数据二路空间相交方法,其特征在于,基于各索引块的计算强度,将各索引块映射至各任务处理分区包括:对计算强度大于预设阈值的索引块进行四叉划分,直至所有索引块的计算强度小于预设阈值或达到预设划分终止条件为止,将各索引块映射至各任务处理分区,使得各任务处理分区所映射的各索引块的计算强度的总和相等。

8.根据权利要求1所述的矢量数据二路空间划分方法,其特征在于,利用各任务处理分区对其所映射的各索引块内矢量数据执行二路空间相交包括:利用各任务处理分区对其所映射的各索引块内矢量数据构建r树索引,并基于所述r树索引,对各索引块内矢量数据执行二路空间相交。

9.一种矢量数据二路空间相交装置,其特征在于,包括:

10.一种计算机系统,其特征在于,包括:


技术总结
本发明公开了一种矢量数据二路空间相交方法、装置及系统,属于地理计算技术领域,方法包括:基于待处理的矢量数据集,生成不同尺度的索引块,以及以索引块标识符为键、与索引块相交的所有矢量数据的集合为值的弹性分布式数据集;将弹性分布式数据集输入至训练好的索引块计算强度预测模型进行索引块计算强度预测,获取各索引块的计算强度;基于各索引块的计算强度,将各索引块映射至各任务处理分区;利用各任务处理分区对索引块内矢量数据执行二路空间相交;索引块计算强度预测模型是基于预获取的矢量数据集,利用SparkML机器学习库生成并训练的。该方法能够在提高矢量数据二路空间相交效率的同时,保证并行过程中负载均衡。

技术研发人员:高凡,路威,甘麟露
受保护的技术使用者:中国人民解放军陆军工程大学
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-25392.html