通用爬虫和聚焦爬虫的区别
根据使用场景网络爬虫可分为通用爬虫和聚焦爬虫两种。
1 通用爬虫
通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
1.1 目标
把互联网上所有的网页下载下来,放到本地服务器里形成备份,再对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。
通用爬虫工作流程:爬取网页–存储数据–内容处理–提供检索/排名服务
1.2 第一步:抓取网页
- 搜索引擎网络爬虫的基本抓取流程:
a)首先选取一部分已有的URL,把这些URL放到待爬取队列。
b)从队列里取出这些URL,然后解析DNS得到主机IP,然后去这个IP对应的服务器里下载HTML页面,保存到搜索引擎的本地服务器,之后把这个爬过的URL放入已爬取队列。
c)分析这些网页内容,找出网页里其他的URL链接,继续执行第二步,直到爬取条件结束。 - 搜索引擎如何获取一个新网站的URL:
a)主动向搜索引擎提交网址如:百度
b)在其他网站里设置网站的外链(尽可能处于搜索引擎爬虫爬取范围)
c)搜索引擎会和DNS服务商(如DNSPod等)进行合作,可以快速收录新的网站
DNS服务商:就是把域名解析成IP的一种技术。 - 通用爬虫并不是万物皆可爬,它也需要遵守规则:
Robots协议(也叫爬虫协议、机器人协议等)全称是“网络爬虫排除标准”(Robots Exclusion Protocol),:协议会指明通用爬虫可以爬取网页的权限。
淘宝网:https://www.taobao.com/robots.txt
腾讯网: http://www.qq.com/robots.txt
Robots.txt 只是一个建议,并不是所有爬虫都遵守,一般只有大型的搜索引擎爬虫才会遵守。
1.3 第二步:数据存储
搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。
1.4 第三步:预处理
搜索引擎将爬虫抓取回来的页面,进行各种步骤的预处理。
- 提取文字
- 中文分词
- 消除噪音(比如版权声明文字、导航条、广告等……)
- 索引处理
- 链接关系计算
- 特殊文件处理
- …
除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。
1.5 第四步:提供检索服务,网站排名
- 搜索引擎在对信息进行组织和处理后,为用户提供关键字检索服务,将用户检索相关的信息展示给用户。
- 同时会根据页面的PageRank值(链接的访问量排名)来进行网站排名,这样Rank值高的网站在搜索结果中会排名较前,当然也可以直接使用 Money 购买搜索引擎网站排名,简单粗暴。
课外阅读:Google搜索引擎的工作原理
1.6 通用爬虫的缺点:
a)只提供和文本相关的内容(HTML、Word、PDF)等等,但是不能提供多媒体文件(音乐、图片、视频)和二进制文件(程序、脚本)等等。
b)提供的结果千篇一律,不能针对不同北京领域的人提供不同的搜索结果。
c)不能理解人类语义上的检索
2 聚焦爬虫
为了解决通用爬虫的问题,聚焦爬虫出现了。聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。