Python爬虫：手把手教你写迷你爬虫架构！

语言&环境

语言：继续用Python开路！

一个迷你框架

下面以比较典型的通用爬虫为例，分析其工程要点，设计并实现一个迷你框架。架构图如下：

Python爬虫：手把手教你写迷你爬虫架构！

代码结构：

Python爬虫：手把手教你写迷你爬虫架构！

Python爬虫：手把手教你写迷你爬虫架构！

在互联网上，一个网页可能被多个网页中的超链接所指向。这样在遍历互联网这张图的时候，这个网页可能被多次访问到。为了防止一个网页被下载和解析多次，需要一个URL表记录哪些网页已经下载过。再遇到这个网页的时候，我们就可以跳过它。

crawl_thread.py

Python爬虫：手把手教你写迷你爬虫架构！

从网页中解析出URLs或者其他有用的数据。这个是上期重点介绍的，可以参考之前的代码。

保存页面的模块，目前将文件保存为文件，以后可以扩展出多种存储方式，如mysql，mongodb，hbase等等。

webpage_save.py

Python爬虫：手把手教你写迷你爬虫架构！

写到这里，整个框架已经清晰的呈现在大家眼前了，千万不要小看它，不管多么复杂的框架都是在这些基本要素上扩展出来的。

源码获取加群：850591259