Beautiful Soup库的基本使用

学习爬虫的小笔记,希望能和大家一起进步哈。
爬虫爬一般都是网页信息,beautifulsoup能够使用html.parse对网页信息进行解析,一个beautifulsoup对应一个网页的内容,就是使用requests(url)返回的对象的text。

下面讲一下beautifulsoup的几个基本元素:
Beautiful Soup库的基本使用
举几个例子说明一下吧。
tag是带有<>…</>标签的一段内容,比如我们现在已经通过beautifulsoup获得了一个soup,在soup下有一个a的子标签,那么tag=soup.a返回的就是中的全部内容。

name就是中的a,也可以通过soup.a.parent.name来访问它的父节点的名字。

attr是<a class:‘name’>…中的以字典形式组织的属性值。可以通过soup.a.attrs(class),返回的是‘name’。

string是返回非属性的字符串的格式,comment是返回该标签中的comment部分,都是对tag进行的操作。

另外,使用bs4库中的prettify()来使html更加友好地显示,还可以使用遍历的方法来分析网页结构。