基于互联网大数据的小区宜居性评价 ——以广州为例
作者:暂时匿名
1 摘要
随着我国经济的快速发展,人们对居住环境的要求越来越高,宜居的生活环境越来越受到人们的重视,在购房或租房时,居民小区是否宜居已经成为人们决策时的重要参考依据。传统小区宜居性评价方法所采用数据现势性低,且传统数据无法从客观真实反应小区情况,针对以上问题,利用FME从百度地图、链家、大众点评等平台爬取了大量互联网数据,以城市居民小区作为研究对象,并利用重力模型对广州小区进行宜居性评价,同时制作了小区选址模版,利用FME制作广州互联网交通时空圈,根据所选择的中心点,模型即可给出半小时时空圈内所有小区的宜居性指数,为其提供购(租)房参考。
2 总体思路
2017年,腾讯位置服务联合腾讯房产、摩拜单车发布了腾讯位置大数据《北京交通等时圈选房指南》,以帮助购房者提供大量有价值的决策参考信息。《北京交通等时圈选房指南》通过网络问卷调查,总结出了大众最关心的小区指标:好位置、低总价、好配套,并详细给出了每一项指标计算方法。本文以广州为例,参考《北京交通等时圈选房指南》,对广州小区进行宜居性评价。
图 1 总体计算流程
其中:
(1)15分钟步行圈为大数据测算的步行距离范围。公共交通便利程度=地铁便利程度×0.7+公交便利程度×0.3。
(2)配套设施计算参考腾讯房产频道给出的权重。
图 2 配套设施计算权重
(3)推荐指数根据公式
计算得到。
3 方案实现
3.1 火星坐标系转WGS84
由于在整个评价过程中,经常需要从百度地图API中获取数据,其中就牵涉到了国测局(GCJ02)、百度坐标系(BD09)转WGS84功能,结合本次研究,我利用FME制作了一个CoordinateTranslate转换器,已经发布在FME Hub(https://hub.safe.com/publishers/zzhnb/transformers/coordinatetranslate#description)上,支持GCJ02、BD09、WGS84之间坐标系互转。在FME WorkBench中,可以直接获取使用。
图 3 CoordinateTranslate转换器
3.2 爬取链家小区信息
目的是从链家爬取链家网上所有的广州小区,然后利用百度地图开发平台获取地理位置,对其进行坐标转换落图。
图 4 链家小区信息
图 5 链家爬虫FME模板
1)这里算是一点点创新,将FME和Python结合起来做爬虫,因为有的网站他是有检测爬虫的,所以这里利用FME中的PythonCaller结合Python的Requests库,爬取小区信息,以及其历史交易记录。
2)从链家网上爬取的小区记录不带空间信息,因此还需要利用HttpCaller结合百度地图开发平台获取坐标,最终进行落图。
图 6 HttpCaller参数
图 7 广州市小区分布
3.3 爬取大众点评信息
目的是从大众点评爬取上所有银行、商业体、医院、超市便利店、学校、休闲场所、餐厅信息,在爬取大众点评网站时,每条信息会附带一个“data-poi”,参考****上方法,利用Python对其进行坐标解析。
图 8 大众点评爬虫模板
首先在大众点评搜索分别搜索银行、商业体、医院、超市便利店、学校、休闲场所、餐厅,分析URL结构,利用HttpCaller获取每一页信息,在利用PythonCaller进行数据规则化,利用VertexCreator构建点最终存储到shp文件中。
图 9 大众点评信息
3.4 获取广州公交和地铁站点
分别分析https://guangzhou.8684.cn/网站结构,先用HttpCaller结合正则表达式以及HtmlExtractor获取所有站点信息,然后拼接Url,使用HttpCaller获取每条站点的公交站点,构建List去重,在使用HttpCaller获取每个站点坐标入库。
广州地铁站点信息(http://www.gzmtr.com/)也是同样思路,这里就不在赘述。
图 10 FME公交站点爬虫模板
图 11 广州公交站点分布
3.5 构建互联网时空圈
目的是为了为每个小区划定15分钟步行时空圈,进而在该范围内统计其各位POI数量。
图 12 互联网时空圈FME模板
1)首先利用Buffer对从链家网爬的小区做一个缓冲区(这里假设一个人15分钟步行距离不会超过2000米),然后使用2DGridAccumulator对每一个缓冲区创建200mx200m的网格,使用CenterPointExtractor提取每个网格的中心点,在使用FeatureJoiner将每个中心点和小区名字以及小区位置挂接起来。
2)这个时候已经拿到了每个格网的中心点坐标和他对应的小区坐标,然后就能使用HttpCaller调用百度地图API计算小区到每个格网的步行时间了。
3)利用AttributeCreator对每个格网附加一个字段Type,他有两个取值,当时间小于15分的时候取Inner,当时间大于等于15分的时候取Outer,然后在利用Dissolver,在这里对小区名和Type字段进行分组,然后融合,最终就能得到每个小区的15分钟真实步行圈了。
图 13 小区15分钟步行圈
3.6 小区宜居性指数计算
到了这一步就很简单了,将我们之前所有爬取、整理的数据根据我们在第2节提到的计算公式进行计算,就可得到广州市小区宜居性了。
图 14 小区宜居性计算模板
1)利用PointOnOverlayer转换器得到每个小区15分钟步行圈范围内的银行、商业体、医院、超市便利店、学校、休闲场所、餐厅POI总数;
2)和(1)一样的思路,计算出每个小区15分钟步行圈范围内的公交站点和地铁站点,分别统计个数;
3)最终是要分析每个小区的宜居性,所以这里把小区的shp读进来,用FeatureMerge将(1)、(2)中统计的指标统一挂接在小区shp上;
4)然后进行简单的指标清洗;
5)这一步就是计算小区宜居性了,考虑到不同区的经济、设施情况不一,为了更公平衡量,这里采用归一化方法对每个小区的每类POI数量进行归一化,首先使用StatisticCalculator计算每项POI数量的最大值和最小值,然后利用公式
进行归一化。房价以万为单位。
6)利用AttributeCreator计算生活便利性和交通便利性指标:
7)直接根据公式
计算得到小区宜居性指数。
8)利用FeatureJoin把时空圈和小区POI关联起来,把刚刚计算得到的小区宜居性指数赋给小区POI。
9)大功告成,在ArcMap等GIS软件中简易配图,就可直接看到广州每个小区的宜居指数了。
图 15 广州小区宜居性
4 结论
4.1 广州房价变化趋势
在这个第3节中,实际上我们还拿到了获得了一个重要数据,那就是小区历史成交记录(2016-2019),通过这个,我们先可以看到广州近几年房价变化情况。首先是价格变化趋势,我们这里将广州11区房价变化趋势分为了3类:先升后稳、先升后降、先降后升。
“2017年3月5日,中央首次点名“粤港澳大湾区”,将其正式写入《政府工作报告》,标志着粤港澳大湾区城市群,发展上升为国家战略”、“2018年,粤港澳大湾区建设或将进入实质启动”(http://dy.163.com/v2/article/detail/DGGELOQ905158BB0.html),将这两条新闻对应到房价,就不难理解为什么2017年后南沙房价开始逐渐攀升了。
图 16 先升后稳型
图 17 先升后降型
图 18先降后升型
4.2 广州房屋成交总量
从成交量来看,白云、番禺、海珠、天河是购置房屋的主要选择。
图 19 2016年-2019年各区房屋成交总量
4.3 广州小区宜居指数
经过前面那么多努力,我们终于得到了广州小区宜居性,从图 15可以看到广州小区宜居性高的小区大多还是集中于中心城区(越秀、天河、荔湾),一个是中心城区学位普遍要好,另外交通方便,广州是现在很多证券、金融、互联网等企业的首选之地,越秀仍然是政治中心,荔湾还是老广州人的心之所向。
4.3 广州小区智能选址
最开始在做这个选题的时候,其实就是想要做这么一个智能选址模板,经过前期铺垫,这里其实就简单了。利用3.5节中的时空圈模板,选定中心点,分别制作了半小时驾车和公交时空圈,然后利用Clipper裁剪该范围内的小区POI,利用一些GIS制图工具配图,就完成了。
图 20和图 21分别在以广州市政府为中心,做的半小时驾车和公交时空圈,然后把裁剪后的小区POI叠上来,一起在ArcGIS Insights展示,这里颜色越亮的就代表小区宜居指数越高,从这两幅图中,就能直观的看到哪些小区好哪些小区一般了,为我们日后买(租)房可以提供一个参考。
图 20 半小时驾车时空圈
图 21 半小时公交时空圈
5 不足
1)本次只爬到了链家网站2800个小区以及24000条成交记录,这是因为链家网大多是是二手交易,并且还有其他平台的数据未加入到,所以此次研究未能将广州所有小区考虑进来。接下来,计划将贝壳、广州阳光家园网等网站信息聚合起来,更全面的分析广州小区宜居性。
2)在做小区15分钟步行时空圈的时候,因为百度API对每个token有调用次数限制,所以将网格划分粒度较粗,下一步计划申请企业开发者,申请更多的调用次数,更精准的制作小区15分钟步行圈。
3)现在制图还是用的ArcMap或者Insights,都需要把分析结果手动上传,很不智能。下一步打算利用在线制图,比如极海等工具,打通FME和在线制图,将分析结果实时展现,做到一键式分析。
6 结语
其实第一次结识FME,是在2018年底,那个时候我们院立项了一个院级科研课题,希望打造一个院基础平台,来把全院的数据整合起来,把我们从数据提供者的角色变为产品提供这,然后在2019年我们院请了安图的技术人员来给我们进行为期一周的FME使用培训,在这期间,我深深被FME强大工作模式折服,没想到数据还可以这么玩!在项目开展阶段,我也渐渐的爱上了FME,FME为我提供了强大的数据交互能力,我再也不用每种数据都要解析一次,再也不用写Java不停的调试、测试,FME让我可以专注与数据分析、挖掘。
可以说FME让我从一位GIS开发工程师转变成了一位数据分析师,我也希望能借此文章可以给更多在数据分析者带来一些FME的使用经验。在这里,我还要感谢FME中国技术交流群里的各位技术达人,也正是与他们一次一次的交流,让我能顺利完成这项研究,谢谢FME!。