Python3爬虫入门(快速简易)
Python3爬虫入门(快速简易)
网络爬虫简介
通用爬虫:百度、谷歌搜索引擎
聚焦爬虫:根据特定需求,从特定网站爬取特定数据
爬虫工具
pycharm -->编译器
anaconda -->python运行库集合
google chrome -->程序员首选的谷歌浏览器
基本网络常识
http和https协议:
http协议: 超文本传输协议, 是一种发布和接收HTML页面的方法
https协议:是http协议的加密版本,在http下加入了SSL层。服务器端口号是443
端口。
与浏览器交互过程
浏览器—>输入url-----get/post请求----->http服务器---->网站服务器----返回html---->http服务器---->用户浏览器【浏览器追加请求html引用的css、js、等动态文件】—…--->显示给用户
url(链接)
在浏览器中请求一个url
,浏览器会对这个url进行一个编码。除英文字母,数字和部分符号外,其他的全部使用百分号+十六进制码值进行编码
Get/Post请求
get: 只从服务器获取数据
post: 向服务器发送数据(登录)、上传文件等,会对服务器资源产生影响
爬虫时有反爬机制即强制要求用某种请求,具体爬虫时用哪种请求根据情况而定。
google chrome开发者模式(重要)
在某页面按F12进入开发者模式
Python系列****博客地址:
如需更系统学习,下面是博主关于Python爬虫的系列学习博客