浅谈爬虫第一天

大数据时代，数据是十分重要的，那么数据的来源有哪呢：

但免费获取的数据质量不好，人工耗时耗力，一些第三方网站数据也往往是通过爬虫爬取下来的，所以爬虫是较好的选择途径。

什么是爬虫

模仿浏览器向服务端发送请求，接收响应，按一定的规则自动抓取网络信息的程序

爬虫他的作用是什么

那么爬虫的分类又有哪些呢

通用爬虫：通常指搜索引擎的爬虫

聚焦爬虫: 针对于特定的网站的爬虫

1.批量型网络爬虫：限制抓取的属性，包括抓取范围、特定目标、限制抓取时间、限制数据量以及限制抓取页面，总之明显的特征就是受限；
2.增量型网络爬虫（通用爬虫）：与前者相反，没有固定的限制，无休无止直到抓完所有数据。这种类型一般应用于搜索引擎的网站或程序；

3.垂直网络爬虫（聚焦爬虫）：简单的可以理解为一个无限细化的增量网络爬虫，可以细致的对诸如行业、内容、发布时间、页面大小等很多因素进行筛选。

爬虫的工作流程：

浅谈爬虫第一天

1.获取目标url

2.向URL发送请求，并获取响应

2.1 如果提取是数据就保存入库

2.2 如果是是url则继续请求响应

Robots协议：网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，但它仅仅是互联网中的一般约定