基于互联网大数据的小区宜居性评价 ——以广州为例

作者:暂时匿名

 

1 摘要

随着我国经济的快速发展,人们对居住环境的要求越来越高,宜居的生活环境越来越受到人们的重视,在购房或租房时,居民小区是否宜居已经成为人们决策时的重要参考依据。传统小区宜居性评价方法所采用数据现势性低,且传统数据无法从客观真实反应小区情况,针对以上问题,利用FME从百度地图、链家、大众点评等平台爬取了大量互联网数据,以城市居民小区作为研究对象,并利用重力模型对广州小区进行宜居性评价,同时制作了小区选址模版,利用FME制作广州互联网交通时空圈,根据所选择的中心点,模型即可给出半小时时空圈内所有小区的宜居性指数,为其提供购(租)房参考。

2 总体思路

2017年,腾讯位置服务联合腾讯房产、摩拜单车发布了腾讯位置大数据《北京交通等时圈选房指南》,以帮助购房者提供大量有价值的决策参考信息。《北京交通等时圈选房指南》通过网络问卷调查,总结出了大众最关心的小区指标:好位置、低总价、好配套,并详细给出了每一项指标计算方法。本文以广州为例,参考《北京交通等时圈选房指南》,对广州小区进行宜居性评价。

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                                 图 1 总体计算流程

其中:

(1)15分钟步行圈为大数据测算的步行距离范围。公共交通便利程度=地铁便利程度×0.7+公交便利程度×0.3。

(2)配套设施计算参考腾讯房产频道给出的权重。

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                                     图 2 配套设施计算权重

(3)推荐指数根据公式

基于互联网大数据的小区宜居性评价 ——以广州为例

计算得到。

3 方案实现

3.1 火星坐标系转WGS84

由于在整个评价过程中,经常需要从百度地图API中获取数据,其中就牵涉到了国测局(GCJ02)、百度坐标系(BD09)转WGS84功能,结合本次研究,我利用FME制作了一个CoordinateTranslate转换器,已经发布在FME Hub(https://hub.safe.com/publishers/zzhnb/transformers/coordinatetranslate#description)上,支持GCJ02、BD09、WGS84之间坐标系互转。在FME WorkBench中,可以直接获取使用。

基于互联网大数据的小区宜居性评价 ——以广州为例

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                         图 3 CoordinateTranslate转换器

3.2 爬取链家小区信息

目的是从链家爬取链家网上所有的广州小区,然后利用百度地图开发平台获取地理位置,对其进行坐标转换落图。

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                                         图 4 链家小区信息

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                                     图 5 链家爬虫FME模板

1)这里算是一点点创新,将FME和Python结合起来做爬虫,因为有的网站他是有检测爬虫的,所以这里利用FME中的PythonCaller结合Python的Requests库,爬取小区信息,以及其历史交易记录。

2)从链家网上爬取的小区记录不带空间信息,因此还需要利用HttpCaller结合百度地图开发平台获取坐标,最终进行落图。

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                                     图 6 HttpCaller参数

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                               图 7 广州市小区分布

3.3 爬取大众点评信息

目的是从大众点评爬取上所有银行、商业体、医院、超市便利店、学校、休闲场所、餐厅信息,在爬取大众点评网站时,每条信息会附带一个“data-poi”,参考****上方法,利用Python对其进行坐标解析。

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                                图 8 大众点评爬虫模板

首先在大众点评搜索分别搜索银行、商业体、医院、超市便利店、学校、休闲场所、餐厅,分析URL结构,利用HttpCaller获取每一页信息,在利用PythonCaller进行数据规则化,利用VertexCreator构建点最终存储到shp文件中。

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                                     图 9 大众点评信息

3.4 获取广州公交和地铁站点

分别分析https://guangzhou.8684.cn/网站结构,先用HttpCaller结合正则表达式以及HtmlExtractor获取所有站点信息,然后拼接Url,使用HttpCaller获取每条站点的公交站点,构建List去重,在使用HttpCaller获取每个站点坐标入库。

广州地铁站点信息(http://www.gzmtr.com/)也是同样思路,这里就不在赘述。

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                            图 10 FME公交站点爬虫模板

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                                     图 11 广州公交站点分布

3.5 构建互联网时空圈

目的是为了为每个小区划定15分钟步行时空圈,进而在该范围内统计其各位POI数量。

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                       图 12 互联网时空圈FME模板

1)首先利用Buffer对从链家网爬的小区做一个缓冲区(这里假设一个人15分钟步行距离不会超过2000米),然后使用2DGridAccumulator对每一个缓冲区创建200mx200m的网格,使用CenterPointExtractor提取每个网格的中心点,在使用FeatureJoiner将每个中心点和小区名字以及小区位置挂接起来。

2)这个时候已经拿到了每个格网的中心点坐标和他对应的小区坐标,然后就能使用HttpCaller调用百度地图API计算小区到每个格网的步行时间了。

3)利用AttributeCreator对每个格网附加一个字段Type,他有两个取值,当时间小于15分的时候取Inner,当时间大于等于15分的时候取Outer,然后在利用Dissolver,在这里对小区名和Type字段进行分组,然后融合,最终就能得到每个小区的15分钟真实步行圈了。

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                           图 13 小区15分钟步行圈

3.6 小区宜居性指数计算

到了这一步就很简单了,将我们之前所有爬取、整理的数据根据我们在第2节提到的计算公式进行计算,就可得到广州市小区宜居性了。

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                                  图 14 小区宜居性计算模板

1)利用PointOnOverlayer转换器得到每个小区15分钟步行圈范围内的银行、商业体、医院、超市便利店、学校、休闲场所、餐厅POI总数;

2)和(1)一样的思路,计算出每个小区15分钟步行圈范围内的公交站点和地铁站点,分别统计个数;

3)最终是要分析每个小区的宜居性,所以这里把小区的shp读进来,用FeatureMerge将(1)、(2)中统计的指标统一挂接在小区shp上;

4)然后进行简单的指标清洗;

5)这一步就是计算小区宜居性了,考虑到不同区的经济、设施情况不一,为了更公平衡量,这里采用归一化方法对每个小区的每类POI数量进行归一化,首先使用StatisticCalculator计算每项POI数量的最大值和最小值,然后利用公式

基于互联网大数据的小区宜居性评价 ——以广州为例

进行归一化。房价以万为单位。

6)利用AttributeCreator计算生活便利性和交通便利性指标:

7)直接根据公式

基于互联网大数据的小区宜居性评价 ——以广州为例

计算得到小区宜居性指数。

8)利用FeatureJoin把时空圈和小区POI关联起来,把刚刚计算得到的小区宜居性指数赋给小区POI。

9)大功告成,在ArcMap等GIS软件中简易配图,就可直接看到广州每个小区的宜居指数了。

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                                       图 15 广州小区宜居性

4 结论

4.1 广州房价变化趋势

在这个第3节中,实际上我们还拿到了获得了一个重要数据,那就是小区历史成交记录(2016-2019),通过这个,我们先可以看到广州近几年房价变化情况。首先是价格变化趋势,我们这里将广州11区房价变化趋势分为了3类:先升后稳、先升后降、先降后升。

“2017年3月5日,中央首次点名“粤港澳大湾区”,将其正式写入《政府工作报告》,标志着粤港澳大湾区城市群,发展上升为国家战略”、“2018年,粤港澳大湾区建设或将进入实质启动”(http://dy.163.com/v2/article/detail/DGGELOQ905158BB0.html),将这两条新闻对应到房价,就不难理解为什么2017年后南沙房价开始逐渐攀升了。

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                                     图 16 先升后稳型

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                                      图 17 先升后降型

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                                       图 18先降后升型

4.2 广州房屋成交总量

从成交量来看,白云、番禺、海珠、天河是购置房屋的主要选择。

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                           图 19 2016年-2019年各区房屋成交总量

4.3 广州小区宜居指数

经过前面那么多努力,我们终于得到了广州小区宜居性,从图 15可以看到广州小区宜居性高的小区大多还是集中于中心城区(越秀、天河、荔湾),一个是中心城区学位普遍要好,另外交通方便,广州是现在很多证券、金融、互联网等企业的首选之地,越秀仍然是政治中心,荔湾还是老广州人的心之所向。

4.3 广州小区智能选址

最开始在做这个选题的时候,其实就是想要做这么一个智能选址模板,经过前期铺垫,这里其实就简单了。利用3.5节中的时空圈模板,选定中心点,分别制作了半小时驾车和公交时空圈,然后利用Clipper裁剪该范围内的小区POI,利用一些GIS制图工具配图,就完成了。

图 20和图 21分别在以广州市政府为中心,做的半小时驾车和公交时空圈,然后把裁剪后的小区POI叠上来,一起在ArcGIS Insights展示,这里颜色越亮的就代表小区宜居指数越高,从这两幅图中,就能直观的看到哪些小区好哪些小区一般了,为我们日后买(租)房可以提供一个参考。

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                                 图 20 半小时驾车时空圈

基于互联网大数据的小区宜居性评价 ——以广州为例

                                                                                  图 21 半小时公交时空圈

5 不足

1)本次只爬到了链家网站2800个小区以及24000条成交记录,这是因为链家网大多是是二手交易,并且还有其他平台的数据未加入到,所以此次研究未能将广州所有小区考虑进来。接下来,计划将贝壳、广州阳光家园网等网站信息聚合起来,更全面的分析广州小区宜居性。

2)在做小区15分钟步行时空圈的时候,因为百度API对每个token有调用次数限制,所以将网格划分粒度较粗,下一步计划申请企业开发者,申请更多的调用次数,更精准的制作小区15分钟步行圈。

3)现在制图还是用的ArcMap或者Insights,都需要把分析结果手动上传,很不智能。下一步打算利用在线制图,比如极海等工具,打通FME和在线制图,将分析结果实时展现,做到一键式分析。

6 结语

其实第一次结识FME,是在2018年底,那个时候我们院立项了一个院级科研课题,希望打造一个院基础平台,来把全院的数据整合起来,把我们从数据提供者的角色变为产品提供这,然后在2019年我们院请了安图的技术人员来给我们进行为期一周的FME使用培训,在这期间,我深深被FME强大工作模式折服,没想到数据还可以这么玩!在项目开展阶段,我也渐渐的爱上了FME,FME为我提供了强大的数据交互能力,我再也不用每种数据都要解析一次,再也不用写Java不停的调试、测试,FME让我可以专注与数据分析、挖掘。

可以说FME让我从一位GIS开发工程师转变成了一位数据分析师,我也希望能借此文章可以给更多在数据分析者带来一些FME的使用经验。在这里,我还要感谢FME中国技术交流群里的各位技术达人,也正是与他们一次一次的交流,让我能顺利完成这项研究,谢谢FME!。