爬虫xpath工具

python版本:3.6.7
pycharm版本:2018.3
爬取网页时有很多中办法筛选你所需要的数据,xpath是其中一种,下面我便讲一讲xpath的简单应用。
1:先导入一个包
爬虫xpath工具
2:准备所需要的筛选的数据,先转换为xpath对象
爬虫xpath工具
3:开始筛选
爬虫xpath工具
xpath()里面添加筛选的值,可以层层筛选,这里打印出来的是一个列表,列表里面的元素数量对映所查询出来的li标签的数量,元素数量=li标签数量
爬虫xpath工具
需要用tostring编码,再解码打印出来
爬虫xpath工具
因为是个列表,所以需要循环,打印结果:
爬虫xpath工具
把所有的li标签包括里面的值就出来了

4:查询标签里面的class值,也可以查询其他值,比如id,name,src等等,只需在前面添加@
爬虫xpath工具
打印结果便是所有li标签的class的值
爬虫xpath工具
5:层级查找
爬虫xpath工具
将会查找出全局li下的所有span,打印结果也是个列表,如果想看到数据则需要解码,这里不一一解说,详细请看第3步
6:爬虫xpath工具
7:爬虫xpath工具
因为取出来的是class的值,所有不需要解码,直接循环打印便可,或者取列表下标
8:爬虫xpath工具
打印时加上text便是取出a标签包括的文本信息
爬虫xpath工具
两种写法一样

9:表示查询所有标签class=bold的标签名,*表示所有匹配所有标签爬虫xpath工具

还有很多方式,我只列举了的简单的几种。组合起来便可以查询你想要的数据。