本发明主要涉及数据处理,尤其涉及一种基于gis的地址数据智能化分析处理方法及相关装置。
背景技术:
1、随着智慧城市建设水平的提高,地址数据的分析处理已成为各企业开展业务的重要支撑。地址信息数据的分词是地址数据分析处理中十分重要的一环,目前主要通过人工构建地址词典来实现地址信息数据的分词,但该方式过于依赖分词人员的专业素养和地址先验知识,导致无法保障地址分词的准确性,并且所投入的人力成本也过高。同时在目前的地址数据分析处理中,较少会考虑到对于地址类型的识别处理,缺乏对地址类型的识别处理,会导致地址匹配的准确度和效率无法得到有效提升,并且当用户的地址数据输入稍有错误时,便无法得到满意的地址匹配结果。在目前的地址数据处理中,为了能够更快速地定位到所匹配的用户位置,通常会将地址标记到楼宇视图中,因此,如何获取准确的楼宇视图图像也成为了研究的重点,而目前主要是通过特征阈值的选定来检测建筑物轮廓以生成楼宇视图,但该方式对于特征阈值的选定存在较大的不稳定性,容易导致所获得的建筑物轮廓与实际情况的偏差过大,使最终所获得的楼宇视图的可靠性不高。
技术实现思路
1、本发明的目的在于克服现有技术的不足,本发明提供了一种基于gis的地址数据智能化分析处理方法及相关装置,提高了地址数据分析处理的效率和准确度,使地址数据的分析处理达到更为理想的效果。
2、为了解决上述技术问题,本发明提供了一种基于gis的地址数据智能化分析处理方法,应用于客户端设备和地理信息系统gis服务器,所述客户端设备与所述gis服务器通信连接;所述方法包括:
3、gis服务器接收用户在客户端设备中输入的报装地址信息数据,并对所述报装地址信息数据进行预处理,获得预处理后的报装地址信息数据;
4、对预处理后的报装地址信息数据进行初步切分,获得初步切分后的报装地址信息数据,并对初步切分后的报装地址信息数据进行分词标注,获得分词标注结果;
5、基于所述分词标注结果对初步切分后的报装地址信息数据进行叠字扩展,获得叠字扩展后的报装地址信息数据,并基于贝叶斯概率模型对叠字扩展后的报装地址信息数据进行地址分词处理,获得地址分词信息;
6、基于所述地址分词信息结合地址要素索引分析进行地址类型识别,获得目标地址类型信息;
7、基于所述地址分词信息和目标地址类型信息进行地址匹配,获得目标匹配地址;
8、调用gis地图提取与所述目标匹配地址对应的楼宇实景图像,并对所述楼宇实景图像进行建筑物掩膜检测,获得建筑物掩膜信息;
9、基于所述建筑物掩膜信息进行轮廓提取,获得楼宇轮廓信息,基于所述楼宇轮廓信息结合楼宇标签生成目标楼宇视图,并将所述目标匹配地址标记在所述目标楼宇视图的对应位置中。
10、可选的,所述对所述报装地址信息数据进行预处理,获得预处理后的报装地址信息数据,包括:
11、对所述报装地址信息数据进行清洗处理,获得清洗处理后的报装地址信息数据;
12、对清洗处理后的报装地址信息数据进行规范化处理,获得预处理后的报装地址信息数据。
13、可选的,所述对预处理后的报装地址信息数据进行初步切分,获得初步切分后的报装地址信息数据,并对初步切分后的报装地址信息数据进行分词标注,获得分词标注结果,包括:
14、基于预设切分单元对预处理后的报装地址信息数据进行初步切分,获得初步切分后的报装地址信息数据;
15、获取预设叠字标注关系表和切分训练语料,基于所述预设叠字标注关系表和切分训练语料进行模型统计学习,获得目标叠字标注模型;
16、基于所述目标叠字标注模型对初步切分后的报装地址信息数据进行分词标注,获得分词标注结果。
17、可选的,所述基于所述分词标注结果对初步切分后的报装地址信息数据进行叠字扩展,获得叠字扩展后的报装地址信息数据,并基于贝叶斯概率模型对叠字扩展后的报装地址信息数据进行地址分词处理,获得地址分词信息,包括:
18、将初步切分后的报装地址信息数据中具有分词标注的字进行叠字扩展,获得叠字扩展后的报装地址信息数据;
19、基于预设停用词表生成词袋词频向量,并基于所述词袋词频向量构建贝叶斯概率模型;
20、基于所述贝叶斯概率模型进行主题-词项分布分析,获得特征词库;
21、基于分词字符串对切分训练语料进行映射标识遍历,获得目标映射分词标识,并基于所述目标映射分词标识构建分词数组;
22、基于所述分词数组和特征词库对叠字扩展后的报装地址信息数据进行地址分词处理,获得地址分词信息。
23、可选的,所述基于所述地址分词信息结合地址要素索引分析进行地址类型识别,获得目标地址类型信息,包括:
24、基于所述地址分词信息获取对应的地域编码,基于所述地域编码与预存的字典树进行索引信息比对,获得目标字典树;
25、基于所述目标字典树确定与所述地址分词信息对应的兴趣点信息;
26、基于地址要素词典对所述地址分词信息进行地址要素提取,获得地址要素信息,基于所述地址要素信息进行空间索引分析,获得空间索引信息;
27、基于所述空间索引信息结合兴趣点信息进行地址类型识别,获得目标地址类型信息。
28、可选的,所述基于所述地址分词信息和目标地址类型信息进行地址匹配,获得目标匹配地址,包括:
29、基于所述地址分词信息和目标地址类型信息利用语法树递归运算在标准地址数据库中进行地址的相似度计算,获得对应的相似度计算结果,并基于所述相似度计算结果进行地址精准匹配,获得地址精准匹配结果,基于所述地址精准匹配结果判断是否匹配到目标匹配地址;
30、若判断出未匹配到目标匹配地址,则基于词向量模型对所述地址分词信息和目标地址类型信息进行向量化处理,获得地址分词信息向量和目标地址类型信息向量;
31、将所述地址分词信息向量和目标地址类型信息输入至地址匹配模型中进行基于编辑距离的模糊匹配处理,获得模糊匹配结果;
32、基于所述模糊匹配结果结合从客户端设备中所得到的用户反馈信息确定目标匹配地址。
33、可选的,所述对所述楼宇实景图像进行建筑物掩膜检测,获得建筑物掩膜信息,包括:
34、对所述楼宇实景图像进行预处理,获得预处理后的楼宇实景图像;
35、对预处理后的楼宇实景图像进行二值化处理,获得二值化楼宇实景图像;
36、对所述二值化楼宇实景图像进行腐蚀处理,获得腐蚀处理后的二值化楼宇实景图像,并对腐蚀处理后的二值化楼宇实景图像进行反色处理,获得反色处理后的二值化楼宇实景图像;
37、对反色处理后的二值化楼宇实景图像进行连通域滤波,获得建筑物掩膜信息。
38、可选的,所述基于所述建筑物掩膜信息进行轮廓提取,获得楼宇轮廓信息,包括:
39、基于所述楼宇实景图像进行三角网格化处理,获得目标三角网格,并对所述目标三角网格进行语义分割处理,获得若干个建筑物簇;
40、基于所述建筑物掩膜信息利用若干个建筑物簇提取建筑物轮廓线,基于所述建筑物轮廓线利用共线方程进行合并线匹配,获得目标合并线;
41、基于所述目标合并线和建筑物轮廓线进行建筑物的二维轮廓生成,获得楼宇轮廓信息。
42、另外,本发明还提供了一种基于gis的地址数据智能化分析处理装置,应用于客户端设备和地理信息系统gis服务器,所述客户端设备与所述gis服务器通信连接;所述装置包括:
43、数据预处理模块:用于gis服务器接收用户在客户端设备中输入的报装地址信息数据,并对所述报装地址信息数据进行预处理,获得预处理后的报装地址信息数据;
44、分词标注模块:用于对预处理后的报装地址信息数据进行初步切分,获得初步切分后的报装地址信息数据,并对初步切分后的报装地址信息数据进行分词标注,获得分词标注结果;
45、地址分词模块:用于基于所述分词标注结果对初步切分后的报装地址信息数据进行叠字扩展,获得叠字扩展后的报装地址信息数据,并基于贝叶斯概率模型对叠字扩展后的报装地址信息数据进行地址分词处理,获得地址分词信息;
46、地址类型识别模块:用于基于所述地址分词信息结合地址要素索引分析进行地址类型识别,获得目标地址类型信息;
47、地址匹配模块:用于基于所述地址分词信息和目标地址类型信息进行地址匹配,获得目标匹配地址;
48、建筑物掩膜检测模块:用于调用gis地图提取与所述目标匹配地址对应的楼宇实景图像,并对所述楼宇实景图像进行建筑物掩膜检测,获得建筑物掩膜信息;
49、楼宇视图生成模块:用于基于所述建筑物掩膜信息进行轮廓提取,获得楼宇轮廓信息,基于所述楼宇轮廓信息结合楼宇标签生成目标楼宇视图,并将所述目标匹配地址标记在所述目标楼宇视图的对应位置中。
50、另外,本发明还提供了一种基于gis的地址数据智能化分析处理系统,所述系统包括客户端设备和地理信息系统gis服务器,所述客户端设备与所述gis服务器通信连接;所述系统被配置为用于执行上述的基于gis的地址数据智能化分析处理方法。
51、在本发明实施例中,基于分词标注结果对初步切分后的报装地址信息数据进行叠字扩展,能够避免分词的模棱两可所带来的歧义;基于贝叶斯概率模型对叠字扩展后的报装地址信息数据进行地址分词处理,能够提高地址分词的准确性,在不影响所得到的地址分词信息的可靠性的同时降低了所投入的人力成本。基于地址分词信息结合地址要素索引分析进行地址类型识别,能够保障地址类型识别的可靠性,为地址匹配提供足够的特征信息。基于地址分词信息和目标地址类型信息进行地址匹配,分别有地址精准匹配和地址模糊匹配,即便用户的地址数据输入存在描述不准确的情况,也能够实现地址的高效精确匹配。基于所获得的建筑物掩膜信息进行轮廓提取,获得楼宇轮廓信息以结合楼宇标签生成目标楼宇视图,能够避免所获得的楼宇视图与实际情况的偏差过大,将目标匹配地址标记在目标楼宇视图的对应位置中,进而能够更快速地定位和查看所匹配的用户位置。
1.一种基于gis的地址数据智能化分析处理方法,其特征在于,应用于客户端设备和地理信息系统gis服务器,所述客户端设备与所述gis服务器通信连接;所述方法包括:
2.根据权利要求1所述的基于gis的地址数据智能化分析处理方法,其特征在于,所述对所述报装地址信息数据进行预处理,获得预处理后的报装地址信息数据,包括:
3.根据权利要求1所述的基于gis的地址数据智能化分析处理方法,其特征在于,所述对预处理后的报装地址信息数据进行初步切分,获得初步切分后的报装地址信息数据,并对初步切分后的报装地址信息数据进行分词标注,获得分词标注结果,包括:
4.根据权利要求1所述的基于gis的地址数据智能化分析处理方法,其特征在于,所述基于所述分词标注结果对初步切分后的报装地址信息数据进行叠字扩展,获得叠字扩展后的报装地址信息数据,并基于贝叶斯概率模型对叠字扩展后的报装地址信息数据进行地址分词处理,获得地址分词信息,包括:
5.根据权利要求1所述的基于gis的地址数据智能化分析处理方法,其特征在于,所述基于所述地址分词信息结合地址要素索引分析进行地址类型识别,获得目标地址类型信息,包括:
6.根据权利要求1所述的基于gis的地址数据智能化分析处理方法,其特征在于,所述基于所述地址分词信息和目标地址类型信息进行地址匹配,获得目标匹配地址,包括:
7.根据权利要求1所述的基于gis的地址数据智能化分析处理方法,其特征在于,所述对所述楼宇实景图像进行建筑物掩膜检测,获得建筑物掩膜信息,包括:
8.根据权利要求1所述的基于gis的地址数据智能化分析处理方法,其特征在于,所述基于所述建筑物掩膜信息进行轮廓提取,获得楼宇轮廓信息,包括:
9.一种基于gis的地址数据智能化分析处理装置,其特征在于,应用于客户端设备和地理信息系统gis服务器,所述客户端设备与所述gis服务器通信连接;所述装置包括:
10.一种基于gis的地址数据智能化分析处理系统,其特征在于,所述系统包括客户端设备和地理信息系统gis服务器,所述客户端设备与所述gis服务器通信连接;所述系统被配置为用于执行权利要求1至权利要求8中任意一项所述的基于gis的地址数据智能化分析处理方法。
