python爬虫! 网站维护人员:真的求求你们了,不要再来爬取了,受不了了!!
话说
在很久很久以前
小明不小心发现了一个叫做
学习python的正确姿势
从此一发不可收拾
看到什么网站都想爬取
有一天
小明发现了一个小黄网
里面的小姐姐
一个比一个诱人
看了一会这个小黄网
小明不知道在倒腾什么
反正30秒之后小明虎躯一震
....
那天晚上
小明躺在床上
夜不能寐
脑子一直都停留在那个小黄网上
突然灵光一闪
我这不是刚学了爬虫技术么
我应该把那个网站上的小姐姐都爬取到自己的电脑啊
就算下次那个小黄网没了
自己也还有东西可看
真是佩服自己的机智啊
.....
第二天小明就开始爬取小黄网了
小明使用
python爬虫入门01:教你在 Chrome 浏览器轻松抓包
抓了一下数据的请求
然后用
python爬虫04 | 长江后浪推前浪,Requests库urllib库拍在沙滩上
开启一顿的骚操作
...
哎~
小明还是太年轻了
这时候网络运维人员看到了自己的服务器
“瓦里割草”
怎么突然被疯狂的请求?
赶紧看一下日志
妈的,都是同一个 IP
谁他妈闲着没事来搞我?
小伙再定睛一看
我去, user-agent 是 python 程序
把小伙子给气的啊
直接把对方的 ip 地址给封了(加入黑名单)
....
小明本来以为一切都能按自己计划行事
没想到突然中断了
小明重新运行了一下程序
发现完全无法连接了
以为是自己的网络断了
可是自己上百度是可以的啊
后来突然想到
好像之前 小帅b 说过
爬虫要学会伪装,要不然很容易被对方识破的
....
原来如此
小明使用了代理ip
把 user-agent 设置为 Chrome 浏览器
然后又开始一顿的爬取了
还特么开启了多线程
....
运维人员又发现不对劲
妈的
这数据不正常,这不正常
肯定有人又来搞事情了
然后就把网站设置为只有登录的人才可以获取数据
.....
小明发现了
觉得这是小意思
在这个网站注册了账号
然后设置了相应的cookie
继续爬!
....
没过多久
小明的手机突然响了
小明以为是自己的外卖到了
拿起电话就说:来了~
结果没想到的是
手机那边传来:wcnmlgb!你他妈再爬你看我不弄死你
吓得小明差点yw
挖槽
原来刚刚自己注册的是自己的手机号码
小明突然觉得自己太 sb 了
....
小明本来想就这样算了的
可是刚被骂的觉得很不爽
小明把自己的手机关机
然后自己注册了很多个账号
搞了多个 cookie 池
一起爬!!
....
这次运维人员慌了
没想到对方这么会搞事情
开始对那些频繁访问的ip给封了
然后给自己的网站加了验证码
谁他妈想要请求数据
都要先输入一次验证码才可以
这次看你怎么搞
....
小明这次真的是杠上了
机器学习识别验证码都搞上了
直接在程序自动识别验证码然后进行请求
这次小明完全不把小帅b放在眼里了
....
运维人员快要没办法了
突然看到了一些大量的请求都只是获取 HTML 数据
但是 js 和 css 这些都不请求的
不合理
于是把整个网站
都不直接返回 HTML 了
用 ajax 加载
.....
小明呵呵一笑
这能难倒我?
拿出最近小帅b说的
如果大家对Python感兴趣的话,可以加一下我的薇信哦:abb436574,免费领取一套学习资料和视频课程哟~
python爬虫09 | 上来,自己动!这就是 selenium 的牛逼之处
直接模仿人类操作
这还没完
听 小帅b 说还有一个叫做 phantomjs 的玩意
selenium + phantomjs 可以达到完全模拟浏览器操作
友情提示:小帅b 下篇推文会跟大家说怎么使用selenium + phantomjs
....
这下
运维人员真的没办法了
玩不动了
只能说一句
真的求求你们了,不要再来爬取了!
....