爬虫学习笔记
爬虫简介
了解下爬虫和网络
1. 通讯协议
- 通讯步骤:
IP(地址)
端口(对象的数字标识)
通讯协议(定义通讯规则) - 协议:
TCP/IP传输控制/网际协议(Transmission Control Protocol/ Internet Protocol)
HTTP超文本传输协议(HyperText Transfer Protoco)
HTTPS协议是HTTP协议的安全版,加入了SSL的web安全传输协议
2 网络模型
3 爬虫介绍
- What:程序代替人去模拟浏览器进行网页操作
- Why:为其他程序提供数据源,数据分析,人工智能
- 趋势:2010PC端互联网——2015移动互联网——2020大数据互联网(爬虫)——人工智能
- scrapy:python中的爬虫框架
- 分类:
通用网络爬虫(获取所有数据,如百度)
聚焦网络爬虫(获取指定数据)
增量式网络爬虫(获取新增、变化数据)
深层网络爬虫(获取隐藏数据,如登录后页面)
4 浏览器的开发者工具
- 查看:右键——检查(Ctrl+Shift+I)
- 介绍:
Elements元素:网页源代码 (有些网页数据经过处理,反爬)
Console控制台:打印输出
Sources资源文件:网页数据来源
NetWork网络工作:网页请求(可用于信息抓包) - Headers标头
- url统一资源定位符:Uniform Resource Locator
- url组成:https协议,www.baidu.com域名服务器(Internet上某主机名),端口号(https默认433,http默认80),UTF-8编码规则(wd= %E9%B9%BF)
- Request Method请求方式:get(查询数据显示在url),post(查询数据隐藏在form,如登录页面)
- Status Code状态码:200请求成功,301永久重定向(如共用域名jingdong.com),302临时重定向(如临时登录界面),403拒绝请求,404请求失败,500内部请求
- Response Headers响应头
- Request Headers请求头
- User-Agent 用户代理:表示用户的浏览器,操作系统等
- Referer:请求来源的url
- HTML超文本标记语言:Hyper Text Marked Language网页文件