爬虫知识1:了解爬虫知识体系、安装Scrapy等模块
1、爬虫的知识介绍及相关概念
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。通过爬虫爬取数据后,你就可以做一些数据分析、展示等工作。
1)知识图谱
要掌握爬虫,除了一些python中一些基础的语法、函数、模块、面向对象等知识,还需要了解或掌握以下知识点:
Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求抓取页面,但需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务,已经过时了。
Requests是使用Apache2 Licensed许可证的,基于Python开发的HTTP库,其在Python内置模块的基础上进行了高度的封装,从而使得Pythoner进行网络请求时,变得美好了许多,使用Requests模块可以轻而易举的完成浏览器可有的任何操作。
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。主要用来帮助你下载网页、解析网页、自定义一些模块。我们只需专注于提取数据就好了;
使用requests模块、或scrapy框架会更方便一点。
我们主要介绍Requests模块和Scrapy框架的应用。
2)http简介:
HTTP协议(HyperText Transfer Protocol,超文本传输协议)客户端和服务器端数据传输的协议。设计HTTP最初目的是为了提供一种发布和接收HTML页面的方法。
http请求的一些方法:最常用的就是get和post方法
GET:请求资源
POST:请求表单或者文件,可能修改服务器资源,比如登录就需要用POST请求
PUT:更新资源
DELETE:删除指定资源
OPTIONS:获取服务器支持的HTTP请求方法,检查服务器性能
http请求时包含请求行、请求头、请求数据。其中header请求头有一些字段:
Host:请求的服务器的域名
User-Agent:用户请求信息:浏览器、操作系统等信息
Accept:请求端接收数据类型
Accept-Encoding:指定接收数据的压缩编码类型
Cookie:cookie信息
Date:日期
Keep-Alive:长连接
比如请求百度页面的请求头:右键--检查元素---network
服务器应答的状态码的信息:
1xx:请求已接收,继续处理
2xx:请求成功
3xx:重定向,继续处理
4xx:客户端请求错误(403 Forbidden、404NOT FOUND、400BAD REQUEST...)
5xx:服务端错误
比如浏览百度时的code:
1、安装python
可以去python官网下载,可以直接下载一个最新版。https://www.python.org/downloads/
目前的3.6.4版本是会直接添加环境变量的,如果没有添加,比如发现说“不是内部或外部命令”则可能是因为没有添加环境变量。
添加的方法是:进入计算机---属性-高级系统设置---高级--环境变量---下面的第二个框找到path,把python和python中的Scripts的目录贴上去。
比如两个文件夹如下:中间用";"隔开
C:\Users\...\AppData\Local\Programs\Python\Python36;C:\Users\...\AppData\Local\Programs\Python\Python36\Scripts;
2、关于模块requests的安装
requests模块与安装其他的模块类似,直接使用pip3 install +模块名称即可。
步骤1:进入目录
开始—cmd,打开命令编辑框,输入如下命令(cd+空格+pip3所在的目录),进入pip3的目录:
输入的命令:cd C:\Users\huhuanhuan\AppData\Local\Programs\Python\Python36\Scripts
步骤2:输入 pip3 install requests
即可进行安装。
3、关于Scrapy框架的安装
系统为widows,
步骤1:进入目录
开始—cmd,打开命令编辑框,输入如下命令(cd+空格+pip3所在的目录),进入pip3的目录:
输入的命令:cd C:\Users\huhuanhuan\AppData\Local\Programs\Python\Python36\Scripts
步骤2:安装wheel
输入:pip3 install wheel
步骤3:下载twisted
进入以下网址https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,找到合适的版本,比如下图所示,保存到目录
步骤4:cd进入刚刚下载的twisted的存放目录
比如输入:cd C:\Users\huhuanhuan\AppData\Local\Programs\Python\Python36\Scripts
步骤5:安装twisted
输入:pip3 install Twisted-17.9.0-cp36-cp36m-win_amd64.whl
步骤6:cd进入pip3的目录,安装scrapy
输入:cd C:\Users\huhuanhuan\AppData\Local\Programs\Python\Python36\Scripts
安装:pip3 install scrapy
步骤7:下载pywin32
下载网址:进入网站https:
/
/
sourceforge.net
/
projects
/
pywin32
/
files
/
,选取合适的版本,exe下载,双击安装即可。
合适的版本,如果不清楚,可以根据你的python来看是32位还是64位
步骤8:其他问题
如果安装之后发现cmd中无法运行python,不清楚是什么原因,即使添加环境变量依然不能解决,这时可以重新从python官网再下载一次,选择修复性安装即可。
安装python后,再打开cmd,运行下pip3 install scrapy。
验证是否安装:可以看到scripts文件夹中发现scrapy.exe,或者python下运行import scrapy。
参考网址:
https://www.cnblogs.com/wuxl360/p/5567631.html
看端口号的命令,是进入cmd,输入“netstat”
看ip地址是,是进入cmd,输入“ipconfig/all”,选择ipv4那个