python爬虫02:网站树结构,深度优先及广度优先

python爬虫02:网站树结构,深度优先及广度优先

1.网站的url结构

url设计时都是有分层的
python爬虫02:网站树结构,深度优先及广度优先
有时候下层的网页里又会有上层的链接,所以爬取url时要进行去重。

2.深度优先算法

这个学过一些算法都应该知道吧,不细说了。python爬虫02:网站树结构,深度优先及广度优先
顺序:ABDEICFGH, scrapy也是这样来的。

二叉树版:
python爬虫02:网站树结构,深度优先及广度优先

3.广度优先算法

这个学过一些算法的也应该知道吧。
输出:ABCDEFGHI
二叉树版:
python爬虫02:网站树结构,深度优先及广度优先