微博爬虫/数据分析/可视化

微博的数据分析以及可视化

最近在学习数据分析,数据挖掘以及数据可视化的内容,之前断断续续地采集了接近1亿条微博数据,还有几十万的用户的信息。所以筛选了一部分数据来分析分析。下面的内容大多以《广州发布》为例。

  • 微博数量分析
  • 微博时间分析
  • 地域分析
  • 数据可视化

《中国广州发布》是广州市互联网信息办公室的官方微博账号。截止到6月27号凌晨,一共采集了广州发布50138条微博。这里面只有很小部分是转发的,其他都是原创。
微博爬虫/数据分析/可视化

现在看看这5万多条微博的一个数据总览。
微博爬虫/数据分析/可视化
发现几个比较奇怪的地方,2013年下半年有一个节点怎么微博的转发数和评论数突然爆炸增长,然后2017年也有一个节点获得的赞数特别多。我们详细看看这两个点。
微博爬虫/数据分析/可视化

通过代码对数据筛选,可以看到2013年8月是有一个高峰,其他的月份数量还是挺接近的。再来看看8月每天的数据量。
微博爬虫/数据分析/可视化

可以看到2013年8月只是30那天出现了异常大的转发评论,其他的时候还是比较均衡。再看看8月30号那天发生了什么事,我倒是没什么印象。

微博爬虫/数据分析/可视化

原来是某一条微博造成了这个的情况。我们再来看看这条微博的内容:
微博爬虫/数据分析/可视化
这条微博获得的关注也远超其他微博,原来是投稿类的帖子,内容大概是环保征文。这里也可以获取到一个信息,市民的环保意识还是挺好的,可能征文的奖品对大家还是颇为诱惑。接下来我们看看2017年获得点赞异常的部分。
微博爬虫/数据分析/可视化
也是8月的某一条微博获得了非常高的赞数,直接把这条贴微博出来。
微博爬虫/数据分析/可视化
原来是关于暴雨的帖子,基本上每年都会带来很多话题,今年6月份刚过去的艾云尼台风也对广州乃至整个广东地区造成很大影响。这条微博还有配有图片,我们到爬虫的数据库查询出来。
微博爬虫/数据分析/可视化
这类传播正能量的微博获得大量点赞,也是正常的。未来我会采集这些微博的评论做一些情感分析,大家可以留意后续的更新内容。
不知道大家是否发现了一个现象。从某个时间段开始,微博越来越不像社交软件,变得像自媒体平台了。我们看看下面的数据。是对《广州发布》的转发/评论/点赞做每个月的平均值可视化。
微博爬虫/数据分析/可视化
可以看出,《广州发布》被转发和获得评论相对前几年是越来越少的,而点赞数越来越多。这点也印证了点赞功能是到后面才被更多的人使用。(点赞功能是后来才更新的功能,就像2015/16年左右新浪才推出的长微博[可以发超过140个字的微博帖子]),我们结合《广州发布》每天的数据看看。
微博爬虫/数据分析/可视化
图中有几条异常流量的微博(上面提到其中的两条),是不利于我们分析整体情况的,所以我们清洗掉这些数据。再看:
微博爬虫/数据分析/可视化
经历了13年的高峰之后,《广州发布》的转发和评论获得的互动是越来越少的。可能很多人看到这类新闻微博,觉得有想法的话,更多的会直接点赞。我想其他微博平台信息类的博主也应该是这个趋势。
我们再来挖掘《广州发布》的其他信息。
微博爬虫/数据分析/可视化
我们从图中可以得到一些信息:

  • 每年的年初都会有个发博量下降,估计小编春节假期在好好玩耍。
  • 经过了2013年的顶峰,小编每年发得微博也是逐渐趋少了,有一部分原因应该是微信公众号平台对微博造成了冲击。

我们再来看看《广州发布》的每天活跃时间:
微博爬虫/数据分析/可视化
看来小编的发微博的工作周末都要进行啊,不知道是否有加班奖励呢?6年多以来每周的平均值,可以看到小编周一是最积极的。周五有个小反弹,准备要周末休息?想想都激动!但是我觉得《广州发布》的小编应该不止一个人。继续看看小编每天的活跃情况吧。
微博爬虫/数据分析/可视化
小编早上7点就开始更新微博了,挺勤奋的嘛。中午休息过后一直奋斗到晚上。工作态度值得我们学习。再看看粉丝们的表现。
微博爬虫/数据分析/可视化
上图是一周七天所有数据的平均值,看来广大市民最活跃是小周末星期五。我们再看看小编用什么途径更新微博的:
微博爬虫/数据分析/可视化
多达二十多个发博的来源,从苹果到OPPO,从网页到活动分享。即使是网页端也有来自不同浏览器的微博标识。这也印证了我的想法,小编不是一个人。是多个人同时使用《广州发布》这个账号。上图不太直观,我们剔除数量很少的一部分,再来看看:
微博爬虫/数据分析/可视化
《微博 weibo.com》就是官网首页发布的标识,其他也主要是用电脑网页发布的。我们再看看其他的一些媒体平台。这里我挑选了2000多个带认证的博主,再来挖掘一些信息。
微博爬虫/数据分析/可视化

这些博客主要以政府机构(共青团、法院、公安局等),大型门户网站(网易、新浪等),国内知名媒体(人民日报,澎拜新闻等)以及少部分著名微博大V组成。(注意:数据量不多,数据只作参考。)
微博爬虫/数据分析/可视化
可以看到,来自政治中心北京获得的关注也是最多的。我大广东全国经济的领头羊在文化传媒上现在还是略逊一些。推荐@君临的一遍文章:广州和深圳是怎么跻身「北上广深」之列的?
再来看看这些博客的发博情况:
微博爬虫/数据分析/可视化
最后来一个上图的平均值作热力图结束:
微博爬虫/数据分析/可视化
这次的内容先到这里,下次我将会尝试做一些情感分析和文本聚类,目标依然是新浪微博。