Beautiful Soup库的基本使用

学习爬虫的小笔记，希望能和大家一起进步哈。
爬虫爬一般都是网页信息，beautifulsoup能够使用html.parse对网页信息进行解析，一个beautifulsoup对应一个网页的内容，就是使用requests（url）返回的对象的text。

下面讲一下beautifulsoup的几个基本元素:
Beautiful Soup库的基本使用
举几个例子说明一下吧。
tag是带有<>…</>标签的一段内容，比如我们现在已经通过beautifulsoup获得了一个soup,在soup下有一个a的子标签，那么tag=soup.a返回的就是…中的全部内容。

name就是…中的a,也可以通过soup.a.parent.name来访问它的父节点的名字。

attr是<a class：‘name’>…中的以字典形式组织的属性值。可以通过soup.a.attrs(class),返回的是‘name’。

string是返回非属性的字符串的格式，comment是返回该标签中的comment部分，都是对tag进行的操作。

另外，使用bs4库中的prettify（）来使html更加友好地显示，还可以使用遍历的方法来分析网页结构。

Beautiful Soup库的基本使用

相关推荐