记爬虫小分队(二)

  • 2017年4月19日,关于简书收录专题爬取的思路。
    1.首先是异步加载,这里就不多说,就是找包,下图为收录专题的加载的包。


    记爬虫小分队(二)

    2.可在Preview中看到json数据的格式,我们可以看到一个total_page,这个为收录专题的总页数(非常重要!!!!)。


    记爬虫小分队(二)

    3.url中有一串数字,我们返回简书七日热门首页,发现数字对应的是每个文章的,嘿嘿,快夸我!
    记爬虫小分队(二)

总结

先从首页抓取data-note-id构造收录专题url第一页,爬取total_page,构造所有收录专题ur,json数据怎么解析,不用说了吧!!!!哈哈

TeamViewer远程

昨天给喵喵同学QQ远程,各种bug,所以推荐同学使用TeamViewer远程。

  1. 直接去网上下载


    记爬虫小分队(二)
  2. 安装一定要选择个人使用!!!!


    记爬虫小分队(二)
  3. 安装完注册即可享用,开启后,把账号密码发给别人,别人就可以操作啦。


    记爬虫小分队(二)