Python——爬虫
爬虫基本操作
*基本流程
目标数据
来源地址
结构分析
实现构思
操刀编码
*基本手段
**请求限制
请求头控制
控制请求书频率(根据实际情景)
IP代理
签名/加密参数从html/cookie/js分析
**登录授权
请求带上用户cookie信息
**验证码
简单的验证码可以使用识图验证码第三方库
*解析数据
HTML Dom解析
正则匹配,通过的正则表达式来匹配想要爬取的数据,如有些数据不是在html标签里,而是在html的script标签的js变量中。
使用第三方库解析html dom,比较喜欢类jquery
数据字符串
正则匹配(根据场景使用)
转JSON/XML 对象进行解析
反爬虫的手段
合法检测:请求效验(useragent,referer,接口加签名,等)
小黑屋:IP/用户限制请求评率,直接拦截。
投毒:返回虚假的数据给爬取者。、
Python爬虫
涉及模块包
请求:
urllib
requests
多线程:
threading
正则:
re
json解析:
json
html dom 解析:
beautiful soup
lxml:
xpath
操作浏览器
PS: 欢迎补充和指正