爬虫简介

了解下爬虫和网络

1. 通讯协议

通讯步骤：
IP（地址）
端口（对象的数字标识）
通讯协议（定义通讯规则）
协议：
TCP/IP传输控制/网际协议（Transmission Control Protocol/ Internet Protocol）
HTTP超文本传输协议（HyperText Transfer Protoco）
HTTPS协议是HTTP协议的安全版，加入了SSL的web安全传输协议

爬虫学习笔记

查看：右键——检查（Ctrl+Shift+I）
介绍：
Elements元素：网页源代码 (有些网页数据经过处理，反爬)
Console控制台：打印输出
Sources资源文件：网页数据来源
NetWork网络工作：网页请求（可用于信息抓包）
Headers标头
url统一资源定位符：Uniform Resource Locator
url组成：https协议，www.baidu.com域名服务器（Internet上某主机名），端口号（https默认433，http默认80），UTF-8编码规则（wd= %E9%B9%BF）
Request Method请求方式：get（查询数据显示在url），post（查询数据隐藏在form，如登录页面）
Status Code状态码：200请求成功，301永久重定向（如共用域名jingdong.com），302临时重定向（如临时登录界面），403拒绝请求，404请求失败，500内部请求
Response Headers响应头
Request Headers请求头
User-Agent 用户代理：表示用户的浏览器，操作系统等
Referer：请求来源的url
HTML超文本标记语言：Hyper Text Marked Language网页文件