scrapy框架爬取网易云音乐billboard榜所有排行歌曲、链接、评论存入数据库中
实施前提:学习scrapy用法、Xpath用法、数据库连接方法(选用数据库:pymysql、pymongo、redis其中之一或几个)。观察网易云各排行榜之间的id关系。
具体实施:
踩点:图片如下
分析:页面嵌套真的是好多,比较头疼,总体思路就是,在tr标签且class = even下寻找<td class = 'rank'> 到 <div class = "f-cb">到<div class = "tt"> 到 <div class = "ttc">到<span class = "txt">中查找歌曲id,其中href="......"就是歌的链接地址的一部分,<b title=...>即为歌曲名字