爬虫学习笔记

爬虫简介

了解下爬虫和网络

1. 通讯协议

  • 通讯步骤:
    IP(地址)
    端口(对象的数字标识)
    通讯协议(定义通讯规则)
  • 协议:
    TCP/IP传输控制/网际协议(Transmission Control Protocol/ Internet Protocol)
    HTTP超文本传输协议(HyperText Transfer Protoco)
    HTTPS协议是HTTP协议的安全版,加入了SSL的web安全传输协议

2 网络模型

爬虫学习笔记
爬虫学习笔记

3 爬虫介绍

  • What:程序代替人去模拟浏览器进行网页操作
  • Why:为其他程序提供数据源,数据分析,人工智能
  • 趋势:2010PC端互联网——2015移动互联网——2020大数据互联网(爬虫)——人工智能
  • scrapy:python中的爬虫框架
  • 分类:
    通用网络爬虫(获取所有数据,如百度)
    聚焦网络爬虫(获取指定数据)
    增量式网络爬虫(获取新增、变化数据)
    深层网络爬虫(获取隐藏数据,如登录后页面)

4 浏览器的开发者工具

  • 查看:右键——检查(Ctrl+Shift+I)
  • 介绍:
    Elements元素:网页源代码 (有些网页数据经过处理,反爬)
    Console控制台:打印输出
    Sources资源文件:网页数据来源
    NetWork网络工作:网页请求(可用于信息抓包)
    爬虫学习笔记
    爬虫学习笔记
    爬虫学习笔记
    爬虫学习笔记
  • Headers标头
  • url统一资源定位符:Uniform Resource Locator
  • url组成:https协议,www.baidu.com域名服务器(Internet上某主机名),端口号(https默认433,http默认80),UTF-8编码规则(wd= %E9%B9%BF)
  • Request Method请求方式:get(查询数据显示在url),post(查询数据隐藏在form,如登录页面)
  • Status Code状态码:200请求成功,301永久重定向(如共用域名jingdong.com),302临时重定向(如临时登录界面),403拒绝请求,404请求失败,500内部请求
  • Response Headers响应头
  • Request Headers请求头
  • User-Agent 用户代理:表示用户的浏览器,操作系统等
  • Referer:请求来源的url
  • HTML超文本标记语言:Hyper Text Marked Language网页文件