分析4万条房天下业主论坛数据1---“朝阳新城”小区的全方位测评
本来是学爬虫的,然后,灵感一现,爬爬业主论坛看看北京小区咋样,然后爬了30多万业主论坛的数据,爬了就要分析一下啦,又花了一整个寒假学习分析这些数据,一遍自学NLP一遍实践^_^,利用情感分析+分类器(这块不是我做的,另一个队友),最终得到了以下结果。分析的不够全面,没有结合mapreduce、机器学习等技术,所以数据量(分配到朝阳新城)大概就几百条,所以结果仅供娱乐~
使用:爬虫是用Python3.5写的,情感分析是基于标题不断迭代结合TFIDF.blabla...也是用Python
本篇文章的分析对象是“朝阳新城”,他们是业主论坛最活跃的啊!!!(真的热闹。。。)
分析了11个方面
综合评分 | 治安 | 供暖 | 环境卫生 | 环境美化 | 物业服务 | 居民 | 电梯 | 路面 | 照明 | 车位 | 房屋质量 |
-0.38 | -0.22 | -0.21 | -0.01 | -0.33 | -0.36 | -0.01 | -0.14 | -0.32 | -2 | -0.34 | -0.2 |