Python——爬虫

爬虫基本操作

Python——爬虫

*基本流程
目标数据
来源地址
结构分析
实现构思
操刀编码
*基本手段
**请求限制
请求头控制
控制请求书频率（根据实际情景）
IP代理
签名/加密参数从html/cookie/js分析
**登录授权
请求带上用户cookie信息
**验证码
简单的验证码可以使用识图验证码第三方库
*解析数据
HTML Dom解析
正则匹配，通过的正则表达式来匹配想要爬取的数据，如有些数据不是在html标签里，而是在html的script标签的js变量中。
使用第三方库解析html dom,比较喜欢类jquery
数据字符串
正则匹配（根据场景使用）
转JSON/XML 对象进行解析
反爬虫的手段
合法检测：请求效验（useragent,referer,接口加签名，等）
小黑屋：IP/用户限制请求评率，直接拦截。
投毒：返回虚假的数据给爬取者。、
Python爬虫
涉及模块包
请求：
urllib
requests
多线程：
threading
正则：
re
json解析：
json
html dom 解析：
beautiful soup
lxml：
xpath
操作浏览器

PS: 欢迎补充和指正

爬虫基本操作

相关推荐