爬虫抓取微信读书的想法
最近有个想法,把这几年在微信读书的笔记和想法抓下来。
工具准备:
1、云采爬虫 (数据采集)
2、charles (抓包+代理)
抓包
首先你得让你的iPhone 使用 MAC代理上网。
启动 charles, 他有个代理功能。
然后使用iPhone连接这个代理上网就行了。这个步骤就省略了,网上教程很多。
抓包的界面如图所示:
这个过程就不再详细介绍了。不是重点。
首先你得拿到请求的url、cookie,还有一个叫做 skey 的 东西。
抓取数据
请求地址:
数据如下所示:
是json数据,结构很简单。
如何翻页?
url里面的 maxIdx 参数,就是每一次获取到的json数据的最后一条记录的 createTime ,把这个放进去构造下一页请求地址就行了。
整个抓取流程图如下:
总共抓取到666个想法,生成词云如下:
这是我的笔记:
这是原始的书摘: