爬虫工程师都是做什么?
阅读文本大概需要 5 分钟。
爬虫工程师的日常
两周前我还在重庆,对自己的未来充斥着迷茫,而现在我已经在公司工作了一周。有很多人问我「爬虫的工作都是做些什么?」,既然是爬虫的工作,那当然是去爬取一些网站的数据。我们公司爬虫的框架都已搭建好了,所以平常爬虫的任务还暂时不需要我。再者就是爬一些其他部门需要的数据,这类数据是来自一些小的网站。
至于工作上的爬虫都需要用到哪些技术,这就看公司的要求。我们公司只要你能把对应的数据给我就好,不管你用什么技术。但还是 scrapy、selenium 用的多,数据的存储主要是用 mongodb 和 mysql。
还有读者问过我「我最近看到一则新闻是一个人做爬虫的工作,抓取别人的数据被法院判刑了。爬虫的工作真的犯法吗?」
爬虫犯不犯法,看你抓取的数据是什么内容。如果是一些网上公开可看的信息就不违法的。就这个问题我还专门去问了爬虫领域的专家「崔庆才」,他给我的答复是这样的。
公开可查的就可以爬,这个就没啥事。那些用某些特殊权限的账号登陆才可见的就比较危险。还有必须**才能爬的就构成犯罪了,另外都建议各种设置代理,一个反爬,一个隐藏真实 ip。
所以只要不去触碰一些敏感未公开的数据,都是可以爬取。
上海的生活
回想起我第一次来上海,还是我小学毕业那年,那时候才屁点大,什么也不懂。10 之后大学毕业,我又一次来到上海,物是人非,我逐渐长大,有了自己的思想,带着自己的梦想。
来到上海有两周的时间了,对于上海这座城市慢慢有了点认识。第一周我主要把精力放在找工作和找房子上。我到上海第一件事就是找个落脚的地方,刚毕业没有钱,所以我把区域锁定在 2 号线最后几站的地铁。之所以选择 2 号线是因为这里互联网公司多,再者这里的租金也比较便宜。我现在租的房子一个月 1500,对于上海来说已经是很便宜的价格了。
在如今的生活,你想要得到好的服务,一定是要花不少的钱。所以我租到一个便宜的房子,相应我得到的服务是非常的差。我租的地方离地铁,需要走 10 分钟。周围的环境很一般,甚至荒凉。并且我那站还是人流量最大的一站,我非常清楚记得我第一天去上班的情景。
我公司在黄浦区,离我租的地方需要坐地铁 1 小时 20 分钟的路程。第一天上班我肯定是不能迟到,公司是 9 点上班,所以我就预计早上我 7 点出发,2 小时的时间应该足够了,天真的我就这样安心里德的就去睡觉。
第二天早晨我就感到了绝望,我的确是 7 点出发,到了地铁站 7 点 15 分。发现地铁早已站满了人,我只能慢慢的等待。而到站的地铁里也全是人,此时的地铁只能在容纳两三个人。而这两三个幸运儿,都是靠门最近的,被后面的人群活生生挤上去,根本就不用自己走动。
在这期间我等了 5 趟的地铁无一例外,全是这种情况。中途有个女生都被里面拥挤的环境给弄哭,但身边的人全是一脸冷漠,甚至有点厌烦女生的哭声,吵到大家,或许大家早已习惯。
最后我迟到了,迟到了 5 分钟左右。原本 1 小时的路程,我花了 2 小时,非常多的时间花在了排队等待。
第二天我改变了策略,为了不在拥挤的坐地铁,我每天都 6 点起床。这时候我的作息就变成 6 点起,晚上 8 点才到租的地方,这就是我现在的生活。这样的作息对于我来说很累,但生活并会不去理会你。适者生存,你适应不了你就会被淘汰。
大城市遍地是机会,但遍地也是生存的压力。路边的行人都是加速行走,生怕错过任何机会。
幸运的是来到上海我结识了很多朋友,其中一位是公众号「Python专栏」的作者。来到上海第一周,我们两就面基了一波。非常好相处的一位大帅哥,期间我们找了一家火锅就聊了起来。我们两性格非常相似,都是很随和。聊的很开心,虽然他比我大几岁,但完全没有隔阂感。
他也是一名非常厉害的大佬,从零开始奋斗起来的。现如今是普华永道-TechLeader,中国第十五位 MongoDB Professional,「红色警戒:复兴」联合创始人,平安集团 MongoDB 特邀讲师 ,马哥教育 Python 负责人,海量数据学院 Python 金牌讲师,专注于 Python / 运维开发 /数据库/ Web 应用。
他的公众号「Python专栏」,注重 Python 原创、技巧,关注Linux、运维、数据库领域的深度技术,理性分析热点,资源分享。值得大家关注。
推荐阅读:
人必有痴,而后有成