Python3爬虫入门（快速简易）

网络爬虫简介

通用爬虫：百度、谷歌搜索引擎

聚焦爬虫：根据特定需求，从特定网站爬取特定数据

pycharm -->编译器

anaconda -->python运行库集合

google chrome -->程序员首选的谷歌浏览器

http协议：超文本传输协议, 是一种发布和接收HTML页面的方法

https协议：是http协议的加密版本，在http下加入了SSL层。服务器端口号是443端口。

浏览器—>输入url-----get/post请求----->http服务器---->网站服务器----返回html---->http服务器---->用户浏览器【浏览器追加请求html引用的css、js、等动态文件】—…--->显示给用户

在浏览器中请求一个url，浏览器会对这个url进行一个编码。除英文字母，数字和部分符号外，其他的全部使用百分号+十六进制码值进行编码

Get/Post请求

get：只从服务器获取数据

post：向服务器发送数据（登录）、上传文件等，会对服务器资源产生影响

爬虫时有反爬机制即强制要求用某种请求，具体爬虫时用哪种请求根据情况而定。

在某页面按F12进入开发者模式

Python3爬虫入门（快速简易）

如需更系统学习，下面是博主关于Python爬虫的系列学习博客