浅谈爬虫第一天
大数据时代,数据是十分重要的,那么数据的来源有哪呢:
- 去第三方的公司购买数据(如企查查)
- 去免费的数据网站下载数据(如国家统计局)
- 通过爬虫爬取数据
- 人工收集数据(问卷调查)
什么是爬虫
模仿浏览器向服务端发送请求,接收响应,按一定的规则自动抓取网络信息的程序
爬虫他的作用是什么
- 对抓取目标的描述或定义
- 对网页或数据的分析与过滤
-
对URL的搜索策略。
那么爬虫的分类又有哪些呢
通用爬虫:通常指搜索引擎的爬虫
聚焦爬虫: 针对于特定的网站的爬虫
1.批量型网络爬虫:限制抓取的属性,包括抓取范围、特定目标、限制抓取时间、限制数据量以及限制抓取页面,总之明显的特征就是受限;
2.增量型网络爬虫(通用爬虫):与前者相反,没有固定的限制,无休无止直到抓完所有数据。这种类型一般应用于搜索引擎的网站或程序;
3.垂直网络爬虫(聚焦爬虫):简单的可以理解为一个无限细化的增量网络爬虫,可以细致的对诸如行业、内容、发布时间、页面大小等很多因素进行筛选。
爬虫的工作流程:
1.获取目标url
2.向URL发送请求,并获取响应
2.1 如果提取是数据就保存入库
2.2 如果是是url则继续请求响应
3 robots协议
Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,但它仅仅是互联网中的一般约定