pyspider最易上手的初学教程

pyspider 是一个用python实现的功能强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用常用的数据库进行爬取结果的存储，还能定时设置任务与任务优先级等。

本篇文章只是对这个框架使用的大体介绍，更多详细信息可见官方文档。

首先是环境的搭建，网上推荐的各种安装命令，如：

pip install pyspider

但是因为各种权限的问题，博主安装报错了，于是采用了更为简单粗暴的方式，直接把源码下下来run。

pyspider的源码地址，直接download或者git clone都行，下载完成后，进入文件夹目录。

系统默认用的Python是2.7版本，自己另外装了个3.4的，源码用python3跑起来。

先进行安装，在pyspider的路径下敲命令：

python3 setup.py install

一堆的打印，完了之后没什么错误提示就是安装完成了。

接下来跑起来：

python3 run.py

运行结果如下图所示

pyspider最易上手的初学教程

可以看到webui运行在5000端口处，在浏览器打开127.0.0.1:5000或者localhost:5000，便能看到框架的UI界面，如下图

pyspider最易上手的初学教程

这样pyspider就算是跑起来了。有的文章会提到需要安装phantomjs，这个暂时用不上，先忽略。

拿这个网页来做例子：www.reeoo.com，爬取上面的数据。

pyspider最易上手的初学教程

新建任务

第一次跑起来的时候因为没有任务，界面的列表为空，右边有个Create按钮，点击新建任务。

pyspider最易上手的初学教程

填写完成后，点击Create，便创建成功并跳转到了另一个界面，如下图所示

pyspider最易上手的初学教程

界面右边区域自动生成了初始默认的代码：

on_start(self) 程序的入口，当点击左侧绿色区域右上角的 run 按钮时首先会调用这个函数
self.crawl(url, callback) pyspider库主要的API，用于创建一个爬取任务，url 为目标地址，这里为我们刚刚创建任务指定的起始地址，callback 为抓取到数据后的回调函数
index_page(self, response) 参数为 Response 对象，response.doc 为 pyquery 对象（具体使用可见pyquery官方文档），pyquery和jQuery类似，主要用来方便地抓取返回的html文档中对应标签的数据
detail_page(self, response) 返回一个 dict 对象作为结果，结果会自动保存到默认的 resultdb 中，也可以通过重载方法来讲结果数据存储到指定的数据库，后面会再提到具体的实现

其他一些参数