数据分析学习笔记(一):获取数据

在DC学院上买了个数据分析的课程,OK!说干就干,记录下学习的笔记,希望能有所收获( ̄︶ ̄)↗

数据获取的方式

  1. 开放数据集
  2. 网站爬虫

开放数据集

  • 科研数据共享
  • 数据算法竞赛:DC学院,天池,kaggle
  • 政府公司分享
  • 个人分享

这个没什么好说的,科学上网,国外网站多的是!

网站爬虫

  • 建立网站连接
  • 爬取网页/API
  • 分析返回结果
  • 抽取所需信息

爬虫分两大类:

  1. 基于网站API的爬取:一般返回格式是JSON,这个和阿里云API返回的格式是一样的
  2. 基于网页的爬取:这个就比较难了,用过API的都明白(/▽\)

OK,刚学习了简单的网站API的爬取,下面实践一下!

这里是豆瓣API快速入门网址:https://developers.douban.com/wiki/?title=guide

我们可以访问请求的url来获取想要的信息
数据分析学习笔记(一):获取数据

但这样显然太麻烦了,我们也可以通过python的urllib包来解决问题

数据分析学习笔记(一):获取数据

返回的格式是JSON

我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。

稍微介绍一下JSON:

  • JSON 指的是 JavaScript 对象表示法(JavaScript Object Notation)
  • JSON 是轻量级的文本数据交换格式
  • JSON 独立于语言 ,JSON 使用 JavaScript 语法来描述数据对象,但是 JSON 仍然独立于语言和平台。JSON 解析器和 JSON 库支持许多不同的编程语言。
  • JSON 具有自我描述性,更易理解
  • 数据在名称/值对中(如:"Day" : "Sunday"),数据由逗号,分隔花括号保存对象,方括号保存数组

然后我们用python解析JSON,假设我们要获取的是上文(如图)“rating”中“average"键所对应的值
数据分析学习笔记(一):获取数据

来和浏览网站的时候所看到的对比一下

数据分析学习笔记(一):获取数据

如果需要将获得的数据存到本地,同样可以用python轻松解决

数据分析学习笔记(一):获取数据

在本地看一下

数据分析学习笔记(一):获取数据

获取多部电影

数据分析学习笔记(一):获取数据

这样是不是还不够便捷?

原文链接