[小O地图-数据] - 地址分词及对比

[小O地图-数据] - 地址分词及对比

【概述】

小O地图除了提供互联网地图数据挖掘、图表功能外,还提供了地理数据处理功能。本文介绍使用小O地图进行“地址比较”功能。

物流、快递公司经常有大量地址数据需要处理,同一个地点由于输入不规范,通常会记录不同文字内容,例如:

中国纺织机械和技术进出口有限公司
地址1:北京市朝阳区北京市朝阳区建国路99号中服大厦18层
地址2:北京市朝阳区建国路99号
上述两个地址分别都是公司地址,但输入原因导致文字上差异很大,传统文字比较很难判断为同一个地址。

为解决这个问题,小O地图新推出了【地址比较】功能,利用地理分词技术对地址进行解析,判断地址是否为同一个地址。

下面简要介绍步骤:

 

【1】新建任务

新建“地址比较”任务,在任务界面中输入必要参数,保存新建任务。

[小O地图-数据] - 地址分词及对比

 

【2】导入待处理地址(支持两列地址)

在任务菜单里选择导入数据功能,将待处理数据导入任务。待导入的数据通常包括:地址1、地址2、名称、编号等关键字段,地址1和地址2为待比较的字段,名称或编号作为保留字段导入,待处理完导出时关联原始数据。

[小O地图-数据] - 地址分词及对比

使用任务导入数据功能

[小O地图-数据] - 地址分词及对比

 

【3】执行任务

导入后,登陆小O地图,非登录处理条数有限制。选择任务栏上的【爬虫】图表,启动任务进行地址分析及比较功能。小O地址比较功能支持离线,处理过程无需联网,不受地图KEY的限制

[小O地图-数据] - 地址分词及对比

 

【4】导出结果

执行完成后,选择任务的导出数据功能,将处理结果导出为CSV格式文件,可在Excel文件中打开查看或做后续处理。

下图中:地址分词1、地址分词2、相似度,三个字段分别为比较处理结果。

  • 地址1和地址2:为导入的待处理地址。
  • 地址分词1:为地址1的分词结果,每个意义词之间用空格分隔,格式:省 市 区 街道 门牌号 楼 楼层 房间号。
  • 地址分词2:为地址2的分词结果。
  • 相似度:为地址1和地址2的比较结果,TRUE为相同地址,FALSE为不相同。

[小O地图-数据] - 地址分词及对比

 

一组地址比较结果说明: 

输入地址

地址1:北京市朝阳区北京市朝阳区建国路99号中服大厦18层
地址2:北京市朝阳区建国路99号

处理结果

分词1:北京市 朝阳区 北京市 朝阳区 建国路 99号 中服大厦 18层
分词2:北京市 朝阳区 建国路 99号
相似度:TRUE - 表示同一地址

 

【本文完】