您的位置: 首页 > 文章 > Python Recommendation System --准备工作

Python Recommendation System --准备工作

分类: 文章 • 2024-06-19 13:43:46

1. 配置开发环境

推荐使用jupyter notebook、Anaconda、pandas，在安装了Anaconda后会自动安装pandas。

2. 准备数据

https://www.kaggle.com/rounakbanik/the-movies-dataset/downloads/movies_metadata.csv/7

3. 读取数据

import pandas as pd

df = pd.read_csv('文件的路径')

#查看表头

df.head()

Python Recommendation System --准备工作

4. DataFrame

每一行都是一部电影，每一列都是一个属性，获取电影数目：

Python Recommendation System --准备工作

查看属性：

Python Recommendation System --准备工作

获取某行数据：

Python Recommendation System --准备工作

设置索引：

Python Recommendation System --准备工作

重置索引：

Python Recommendation System --准备工作

获取一个子集：

Python Recommendation System --准备工作

获取指定前几行：

Python Recommendation System --准备工作

获取dataFrame的信息：

Python Recommendation System --准备工作

格式转换：

Python Recommendation System --准备工作

直接尝试转换会报错，因为有字段不能正常转换，可以替换：

Python Recommendation System --准备工作

将年份信息转换成datatime：

Python Recommendation System --准备工作

按年份进行排序：

Python Recommendation System --准备工作

按道路降序排序：

Python Recommendation System --准备工作

条件查询：

Python Recommendation System --准备工作

多条件筛选：

Python Recommendation System --准备工作

5. Series

每行或者每列都是Series类型的数据：

Python Recommendation System --准备工作

获取某一列，取最大最小值：

Python Recommendation System --准备工作

获取某列均值、中位数：

Python Recommendation System --准备工作

获取90%分位的电影的revenue：

Python Recommendation System --准备工作

获取到结构是8.26百万，这说明只有10%的数据超过8.26百万

对属性进行数量统计：

Python Recommendation System --准备工作