记一次我百万数据级python爬虫的未成功案例

今天,突发奇想,要不把****的所有用户信息给爬下来咋样呢。

想想自己能完成这样一个高端有趣的爬虫就兴奋诶,爬完我就可以自称,百万数据高级爬虫工程狮了!

记一次我百万数据级python爬虫的未成功案例

挥一挥衣袖,说干就干!

Test One

如果要爬取所有用户,那应该从哪下手呢?

这个超简单嘛,我先看看****到底有多少用户

记一次我百万数据级python爬虫的未成功案例
从这里就可以看出,用户应该是134万人左右吧

知道用户数了,要爬取还不简单么?

很明显,从每个人的粉丝开始出发!只要将周榜前一百所有大佬的粉丝爬下来不就有好几十万了吧,哈哈哈

说弄就弄!点击大佬粉丝页面。。。大佬就是大佬,粉丝好几万,我爬完就直接有百分之一的用户了,我可真是个小机灵鬼????

记一次我百万数据级python爬虫的未成功案例
诶,不对啊,为啥看了二十个粉丝就没动静了呀,这。。。他喵的行不通!

不过没关系,就这难道就能难道机智的我么!看我下波操作

记一次我百万数据级python爬虫的未成功案例
好了,现在只能退而求其次了,不过还是有办法的,我可以从 榜单前一百大佬里面获取他们每个人的20个粉丝,然后再从这20x100个用户的粉丝页面获取他们的粉丝,之后不断循环迭代! 直到找不见人为止

哈哈哈,妙,实在是妙啊

记一次我百万数据级python爬虫的未成功案例首先,获取大佬们的所有信息,从周榜页面中得到

记一次我百万数据级python爬虫的未成功案例
没错,就是这个包,里面有所有的信息,我们仅需获取里面的所有json数据就可以了

获取完之后,我们再一个一个的寻找他们的粉丝,再将粉丝加入到列表中,不断遍历,遍历,遍历

Over,就是这么简单

记一次我百万数据级python爬虫的未成功案例
好了,修修改改后,终于将充满各种bug的代码给弄好了,终于,克服了重重的困难,将自己的爬虫成功的打进了敌人内部!

OK,代码,给我Start Run!

记一次我百万数据级python爬虫的未成功案例
看着一条条数据进入到我的电脑,输入我的文件,走进我的程序。可能做爬虫的,最惬意的感觉,就是这样吧。

算算时间,还有十分钟,就能爬完所有数据了。

给自己泡上一杯枸杞,微微摇晃我的红茶杯,看着不断刷新的屏幕,脸上不由得露出一丝满意的笑容。

记一次我百万数据级python爬虫的未成功案例
终于爬完了,很好,我的爬虫,你完成了自己的任务!给予嘉奖,先休息吧

给大家瞅瞅我这百万数据

记一次我百万数据级python爬虫的未成功案例
再看看这十多分钟的下载速度

记一次我百万数据级python爬虫的未成功案例
多么完美的杰作啊,来,我们再看看我存储到txt里面的数据,那才是这次我和****爬虫战役的胜利品。

记一次我百万数据级python爬虫的未成功案例
记一次我百万数据级python爬虫的未成功案例
嗯??怎么肥是??我的百万数据呢?为什么只有2000多?是谁!删了我的数据

我。。。我。。。我的????。。破了

我一点都不伤心,真的,

编了一下午,边学边爬,本以为运行的很好的程序,运行了大半天的程序。。。

哎,我要坚强

记一次我百万数据级python爬虫的未成功案例不,我不能放弃!

Test Two

于是,我又改了下程序,哈哈哈哈嗝

结果很快就出来了

记一次我百万数据级python爬虫的未成功案例嗯。。笑着笑着就哭了出来。

看来是这个思路的问题了。。。

只能说我输了~ 也许是你怕了~ 我们的回忆~

好了,至此我才发现,爬虫是真滴难,太难啦!

至于代码。。还是不给大家看了,看着难受(算了,还是给大家眇一眼吧,就一眼哦)

记一次我百万数据级python爬虫的未成功案例

Summary

以上就是这次 成功 失败 案例的所有内容,虽然结果不乐观,但是在爬取的过程中,我学到了很多的东西,比如说之前就没有用过多进程,在经过各种学习后才把多进程给用到了这次爬虫里。

遇见的困难有很多,解决了一部分,剩下了一部分,最终还是因为自己的能力不足导致的,要学的东西还有太多太多。等实力济时,再来挑战!

我承认这次起这个标题有点标题党了,但是,还蛮有趣的哈

自己这次 我算是 头顶生目,脚下生手——眼高手低了。

生活就是需要在不断的挑战中进行,没有挑战来丰富生活,增添色彩。如果像英国的幽默小短片《坠楼》男主一样活着,那可多无趣~

记一次我百万数据级python爬虫的未成功案例
让我们,共同进步吧,再会