爬虫xpath工具

python版本：3.6.7
pycharm版本：2018.3
爬取网页时有很多中办法筛选你所需要的数据，xpath是其中一种，下面我便讲一讲xpath的简单应用。
1：先导入一个包
爬虫xpath工具
2：准备所需要的筛选的数据，先转换为xpath对象

3：开始筛选

xpath()里面添加筛选的值，可以层层筛选，这里打印出来的是一个列表，列表里面的元素数量对映所查询出来的li标签的数量，元素数量=li标签数量
爬虫xpath工具
需要用tostring编码，再解码打印出来

因为是个列表，所以需要循环，打印结果：

把所有的li标签包括里面的值就出来了

4：查询标签里面的class值，也可以查询其他值，比如id,name，src等等，只需在前面添加@
爬虫xpath工具
打印结果便是所有li标签的class的值

5：层级查找

将会查找出全局li下的所有span，打印结果也是个列表，如果想看到数据则需要解码，这里不一一解说，详细请看第3步
6：
7：
因为取出来的是class的值，所有不需要解码，直接循环打印便可，或者取列表下标
8：爬虫xpath工具
打印时加上text便是取出a标签包括的文本信息

两种写法一样

9：表示查询所有标签class=bold的标签名，*表示所有匹配所有标签爬虫xpath工具

还有很多方式，我只列举了的简单的几种。组合起来便可以查询你想要的数据。

相关推荐