Python Recommendation System --准备工作

1. 配置开发环境

推荐使用jupyter notebook、Anaconda、pandas,在安装了Anaconda后会自动安装pandas。


 

2. 准备数据

 https://www.kaggle.com/rounakbanik/the-movies-dataset/downloads/movies_metadata.csv/7


 

3. 读取数据

import pandas as pd

df = pd.read_csv('文件的路径')

#查看表头

df.head()

Python Recommendation System --准备工作


 

4. DataFrame

每一行都是一部电影,每一列都是一个属性,获取电影数目:

Python Recommendation System --准备工作

 查看属性:

Python Recommendation System --准备工作

 获取某行数据:

Python Recommendation System --准备工作

 设置索引:

Python Recommendation System --准备工作

重置索引:

Python Recommendation System --准备工作

获取一个子集:

Python Recommendation System --准备工作 

获取指定前几行:

Python Recommendation System --准备工作

获取dataFrame的信息:

Python Recommendation System --准备工作

 格式转换:

Python Recommendation System --准备工作

直接尝试转换会报错,因为有字段不能正常转换,可以替换: 

Python Recommendation System --准备工作

 将年份信息转换成datatime:

Python Recommendation System --准备工作

 按年份进行排序:

Python Recommendation System --准备工作

按道路降序排序:

Python Recommendation System --准备工作

 条件查询:

Python Recommendation System --准备工作

 多条件筛选:

Python Recommendation System --准备工作


 

 5. Series

 

每行或者每列都是Series类型的数据:

Python Recommendation System --准备工作

获取某一列,取最大最小值:

Python Recommendation System --准备工作

 获取某列均值、中位数:

Python Recommendation System --准备工作

获取90%分位的电影的revenue:

Python Recommendation System --准备工作

获取到结构是8.26百万,这说明只有10%的数据超过8.26百万

对属性进行数量统计:

Python Recommendation System --准备工作