python爬虫----pyquery选择器
使用pyquery选择器爬取豆瓣读书《未来简史》短评
如下为部分短评:
F12或者右键–审查元素,如图:
pyquery使用心得:一层一层剥洋葱,即从上往下一层一层提取元素。
使用方法:
id--"#",如<div id="wrapper">,则为'div#wrapper'
class--".",如<div class="grid-16-8 clearfix">,则为'div.grid-16-8'
以下为详细代码:
#导入需要使用的库
import requests
from pyquery import PyQuery
#网页链接
url = 'https://book.douban.com/subject/26943161/comments/'
response = requests.get(url).text
#pyquery选择器
jpy = PyQuery(response)
#输出内容为文本:text,输出内容为图片:content
comment = jpy('body>div#wrapper>div#content>div.grid-16-8>div.article>div.comments-wrapper>div#comment-list-wrapper>div#comments>ul>li>div.comment>p>span').text()
print(comment)
爬取结果: