Python Recommendation System --准备工作
1. 配置开发环境
推荐使用jupyter notebook、Anaconda、pandas,在安装了Anaconda后会自动安装pandas。
2. 准备数据
https://www.kaggle.com/rounakbanik/the-movies-dataset/downloads/movies_metadata.csv/7
3. 读取数据
import pandas as pd
df = pd.read_csv('文件的路径')
#查看表头
df.head()
4. DataFrame
每一行都是一部电影,每一列都是一个属性,获取电影数目:
查看属性:
获取某行数据:
设置索引:
重置索引:
获取一个子集:
获取指定前几行:
获取dataFrame的信息:
格式转换:
直接尝试转换会报错,因为有字段不能正常转换,可以替换:
将年份信息转换成datatime:
按年份进行排序:
按道路降序排序:
条件查询:
多条件筛选:
5. Series
每行或者每列都是Series类型的数据:
获取某一列,取最大最小值:
获取某列均值、中位数:
获取90%分位的电影的revenue:
获取到结构是8.26百万,这说明只有10%的数据超过8.26百万
对属性进行数量统计: