Python3爬虫入门(快速简易)

Python3爬虫入门(快速简易)

网络爬虫简介

通用爬虫:百度、谷歌搜索引擎

聚焦爬虫:根据特定需求,从特定网站爬取特定数据

爬虫工具

pycharm -->编译器

anaconda -->python运行库集合

google chrome -->程序员首选的谷歌浏览器

基本网络常识

http和https协议:

http协议: 超文本传输协议, 是一种发布和接收HTML页面的方法

https协议:是http协议的加密版本,在http下加入了SSL层。服务器端口号是443端口。

与浏览器交互过程

浏览器—>输入url-----get/post请求----->http服务器---->网站服务器----返回html---->http服务器---->用户浏览器【浏览器追加请求html引用的css、js、等动态文件】—…--->显示给用户

url(链接)

在浏览器中请求一个url,浏览器会对这个url进行一个编码。除英文字母,数字和部分符号外,其他的全部使用百分号+十六进制码值进行编码

Get/Post请求

get: 只从服务器获取数据

post: 向服务器发送数据(登录)、上传文件等,会对服务器资源产生影响

爬虫时有反爬机制即强制要求用某种请求,具体爬虫时用哪种请求根据情况而定。

google chrome开发者模式(重要)

在某页面按F12进入开发者模式

Python3爬虫入门(快速简易)

Python3爬虫入门(快速简易)

Python系列****博客地址:

如需更系统学习,下面是博主关于Python爬虫的系列学习博客

  1. Python3爬虫入门(快速简易)
  2. Python3爬虫系列之urllib库
  3. Python3爬虫之request库
  4. Python3爬虫之XPath语法和lxml模块
  5. Python3爬虫之数据存储
  6. Python3爬虫之Scrapy框架入门
  7. Python3爬虫入门案例Scrapy爬取传智讲师个人信息
  8. Python3爬虫之Scrapy框架模拟登陆人人网
  9. Python3爬虫之Scrapy框架的下载器中间件
  10. Python3反反爬虫之Scrapy设置随机请求头