Python爬虫学习笔记（一、准备工作）

基本流程

准备工作
通过浏览器查看分析网页，学习编程基础规范。
获取数据
通过HTTP库向目标站点发起请求，请求可以包含额外header等信息，如果服务器能正常响应，会得到一个Response，获取页面内容。
解析内容
得到的内容可能为HTML、json等格式，可以用页面解析库、正则表达式等进行解析。
保存数据
可以保存为文本，也可以保存到数据库。

任务

爬取豆瓣电影Top250的基本信息。
https://movie.douban.com/top250
Python爬虫学习笔记（一、准备工作）

每页25部电影信息，总共10页

一、分析网站链接
点击下一页观察网页链接发现，在原网页链接后加?start=25，显示出来为26-50部电影信息，试着把start=25改为start=67，发现显示信息为第68部以后的25部电影信息。
Python爬虫学习笔记（一、准备工作）

二、分析网页结构和网页访问原理
F12查看网页源代码，右侧点击network分析向服务器发送请求的过程。

基本信息
Request：请求访问网站链接
Status Code：状态码

查看用户代理，表示我们使用的浏览器版本等等，在后期做伪装会用到。
Python爬虫学习笔记（一、准备工作）
cookie
服务器为了能够标识具体电脑访问的加密信息，我们必须学会使用保存记录cookie，爬取需要登陆的页面信息，需要使用cookie。

三、编码规范
1.一般Python程序第一行需要加入
#-- codeing = utf-8 --
方便转码为utf-8,代码中可以出现中文
2.单一功能或者关联功能用函数实现，提高可读性和代码重复利用率，以def开头，return用于结束函数可以返回一个值、多个值，也可以不返回值（None）
3.Python文件中可以加入main函数用于测试程序
if name==“main”:

四、需要的函数库
Python爬虫学习笔记（一、准备工作）
函数库下载方法
pycharm–点击file–setting–Project interpreter–点击+号搜索相关库下载
如果下载失败或者搜索不到，需要更改镜像

更改镜像

这个镜像是清华大学的，也可以换别的镜像。然后进行库的准备工作。
Python爬虫学习笔记（一、准备工作）

Python爬虫学习笔记（一、准备工作）

基本流程

任务

相关推荐