学习beautifulsoup,并使用beautifulsoup提取内容。

学习beautifulsoup,并使用beautifulsoup提取内容。 使用beautifulsoup提取下面丁香园论坛的特定帖子的所有回复内容,以及回复人的信息。 丁香园直通点:晕厥待查——请教各位同仁
关于BeautifulSoup库,通俗来说是【解析、遍历、维护“标签树”(例如html、xml等格式的数据对象)的功能库 】
官方文档:Beautiful Soup Documentation
首先分析目标网址 图中方框部分就是我们需要抓取的部分
学习beautifulsoup,并使用beautifulsoup提取内容。
图中可以看出class="postbody"标签中的text文字就是我们需要抓取的。
回复人信息如图
学习beautifulsoup,并使用beautifulsoup提取内容。
find_all(name,attrs,recursive,text,**kwargs)
可以根据标签名,属性,内容查找文档
回复人名称:soup.find(‘div’, class_=“auth”).get_text()
回复内容:soup.find(‘td’, class_=“postbody”).get_text()
整体代码如下:
学习beautifulsoup,并使用beautifulsoup提取内容。