python爬虫基础知识

1.爬虫概念
定义:爬虫又称网络机器人或网络蜘蛛,它是通过程序自动下载网页数据的过程
知识链接:
互联网:由许多的超链接组成的信息网
url:统一资源定位符,俗称网址
2.可实现爬虫的语言
Php:对多进程和多线程支持不好
Java:较好,是python的主要竞争对象,代码多是缺点
c/c++:可以完成爬虫工作,当一般不用其做爬虫
Python:世界上最优雅的语言,代码简单且优美,学习成本低,支持的模块多,强大的scrapy框架
3.爬虫的分类
(1)通用爬虫
简介:通用爬虫其爬取对象由一批种子url扩充至整个web,主要由搜索引擎或大型的web服务提供商使用
特点:爬取范围和数据量大
爬虫速度及存储空间要求高
爬取页面顺序要求低
采用并行工作方式
原理: 抓取网页
采集数据
数据处理
提供检索服务
(2)聚焦爬虫
简介:根据特定的需求抓取指定的数据
原理:通过网页提供的url,模拟浏览器向服务器发送请求
下载网页数据
解析内容,提取数据
(3)增量式爬虫
简介:只对已下载网页采取增量式更新或只爬取新产生的及已经发生变化的网页
(4)深层网络爬虫
表层页面爬虫:按照超链接可达的方式爬取网站的静态页面
深层页面爬虫:通过页面表单中关键字获取页面内容的爬取方式
4.反爬虫定义及常见手段
定义:网站所有者从网站来访者中识别出爬虫并做出相应处理的过程
常见的反反爬手段:通过设置User-Agent模拟浏览器
通过设置网站访问时间间隔来调整访问频度
通过识别验证码实现验证码校验
应对网站结构变化
设置模拟登录方式绕过账号权限设置
通过设置ip代理池规避ip封禁问题
5.爬虫工具python爬虫基础知识