python 爬取万方数据

万方数据是最早的数据平台,针对非计算机专业的用户群体来说,需要经常下载数据。

因此今天你用scrapy框架实现一个万方数据下载的爬虫。只需要简单部署即可使用,下载的数据采用万方统一的规定格式存储。

下面展示爬虫主代码:

python 爬取万方数据python 爬取万方数据python 爬取万方数据python 爬取万方数据python 爬取万方数据

items.py文件字段定义:

python 爬取万方数据

在代码中我尽可能详细的备注了才用xpath获取元素的方式和html结构中可能出现的坑。

若你在学习爬虫,可以参考代码仔细学习下。