简单爬虫结构以及BeautifulSoup

1、URL管理器
2、网页下载器
3、网页解析器

BeautifulSoup

1、结构化解析-DOM（Document Object Model）树
2、用法

1、URL管理器

管理待抓取的url集合和已抓取的URL集合，防止重复抓取、循环抓取添加新的url到待爬取集合中。然后，判断待添加url是否在容器中。
实现方式：
1、内存（内存可能不够用，不能永久储存）
—python内存—
待爬取的URL集合：set()
已爬取的URL集合：set()
set()可以直接取去除集合中重复的内容

2、关系数据库（能永久储存）
—MySQL—
urls(url, is_crawled)
用is_crawled来标志url是否已爬取，也就是说用一个表来存储待爬取和已爬取两个数据集合

3、缓存数据库（性能高）
—redis—
待爬取的URL集合：set
已爬取的URL集合：set