数据分析学习笔记(一):获取数据
在DC学院上买了个数据分析的课程,OK!说干就干,记录下学习的笔记,希望能有所收获( ̄︶ ̄)↗
数据获取的方式
- 开放数据集
- 网站爬虫
开放数据集
- 科研数据共享
- 数据算法竞赛:DC学院,天池,kaggle
- 政府公司分享
- 个人分享
这个没什么好说的,科学上网,国外网站多的是!
网站爬虫
- 建立网站连接
- 爬取网页/API
- 分析返回结果
- 抽取所需信息
爬虫分两大类:
- 基于网站API的爬取:一般返回格式是JSON,这个和阿里云API返回的格式是一样的
- 基于网页的爬取:这个就比较难了,用过API的都明白(/▽\)
OK,刚学习了简单的网站API的爬取,下面实践一下!
这里是豆瓣API快速入门网址:https://developers.douban.com/wiki/?title=guide
我们可以访问请求的url来获取想要的信息
但这样显然太麻烦了,我们也可以通过python的urllib包来解决问题
返回的格式是JSON
我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。
稍微介绍一下JSON:
- JSON 指的是 JavaScript 对象表示法(JavaScript Object Notation)
- JSON 是轻量级的文本数据交换格式
- JSON 独立于语言 ,JSON 使用 JavaScript 语法来描述数据对象,但是 JSON 仍然独立于语言和平台。JSON 解析器和 JSON 库支持许多不同的编程语言。
- JSON 具有自我描述性,更易理解
- 数据在名称/值对中(如:"Day" : "Sunday"),数据由逗号,分隔花括号保存对象,方括号保存数组
然后我们用python解析JSON,假设我们要获取的是上文(如图)“rating”中“average"键所对应的值
来和浏览网站的时候所看到的对比一下
如果需要将获得的数据存到本地,同样可以用python轻松解决
在本地看一下
获取多部电影
这样是不是还不够便捷?