记一次我百万数据级python爬虫的未成功案例
今天,突发奇想,要不把****的所有用户信息给爬下来咋样呢。
想想自己能完成这样一个高端有趣的爬虫就兴奋诶,爬完我就可以自称,百万数据高级爬虫工程狮了!
挥一挥衣袖,说干就干!
Test One
如果要爬取所有用户,那应该从哪下手呢?
这个超简单嘛,我先看看****到底有多少用户
从这里就可以看出,用户应该是134万人左右吧
知道用户数了,要爬取还不简单么?
很明显,从每个人的粉丝开始出发!只要将周榜前一百所有大佬的粉丝爬下来不就有好几十万了吧,哈哈哈
说弄就弄!点击大佬粉丝页面。。。大佬就是大佬,粉丝好几万,我爬完就直接有百分之一的用户了,我可真是个小机灵鬼????
诶,不对啊,为啥看了二十个粉丝就没动静了呀,这。。。他喵的行不通!
不过没关系,就这难道就能难道机智的我么!看我下波操作
好了,现在只能退而求其次了,不过还是有办法的,我可以从 榜单前一百大佬里面获取他们每个人的20个粉丝,然后再从这20x100个用户的粉丝页面获取他们的粉丝,之后不断循环迭代! 直到找不见人为止
哈哈哈,妙,实在是妙啊
首先,获取大佬们的所有信息,从周榜页面中得到
没错,就是这个包,里面有所有的信息,我们仅需获取里面的所有json数据就可以了
获取完之后,我们再一个一个的寻找他们的粉丝,再将粉丝加入到列表中,不断遍历,遍历,遍历
Over,就是这么简单
好了,修修改改后,终于将充满各种bug的代码给弄好了,终于,克服了重重的困难,将自己的爬虫成功的打进了敌人内部!
OK,代码,给我Start Run!
看着一条条数据进入到我的电脑,输入我的文件,走进我的程序。可能做爬虫的,最惬意的感觉,就是这样吧。
算算时间,还有十分钟,就能爬完所有数据了。
给自己泡上一杯枸杞,微微摇晃我的红茶杯,看着不断刷新的屏幕,脸上不由得露出一丝满意的笑容。
终于爬完了,很好,我的爬虫,你完成了自己的任务!给予嘉奖,先休息吧
给大家瞅瞅我这百万数据
再看看这十多分钟的下载速度
多么完美的杰作啊,来,我们再看看我存储到txt里面的数据,那才是这次我和****爬虫战役的胜利品。
嗯??怎么肥是??我的百万数据呢?为什么只有2000多?是谁!删了我的数据
我。。。我。。。我的????。。破了
我一点都不伤心,真的,
编了一下午,边学边爬,本以为运行的很好的程序,运行了大半天的程序。。。
哎,我要坚强
不,我不能放弃!
Test Two
于是,我又改了下程序,哈哈哈哈嗝
结果很快就出来了
嗯。。笑着笑着就哭了出来。
看来是这个思路的问题了。。。
只能说我输了~ 也许是你怕了~ 我们的回忆~
好了,至此我才发现,爬虫是真滴难,太难啦!
至于代码。。还是不给大家看了,看着难受(算了,还是给大家眇一眼吧,就一眼哦)
Summary
以上就是这次 成功 失败 案例的所有内容,虽然结果不乐观,但是在爬取的过程中,我学到了很多的东西,比如说之前就没有用过多进程,在经过各种学习后才把多进程给用到了这次爬虫里。
遇见的困难有很多,解决了一部分,剩下了一部分,最终还是因为自己的能力不足导致的,要学的东西还有太多太多。等实力济时,再来挑战!
我承认这次起这个标题有点标题党了,但是,还蛮有趣的哈
自己这次 我算是 头顶生目,脚下生手——眼高手低了。
生活就是需要在不断的挑战中进行,没有挑战来丰富生活,增添色彩。如果像英国的幽默小短片《坠楼》男主一样活着,那可多无趣~
让我们,共同进步吧,再会