1.2 读取观察数据

 

1.2 读取观察数据

数据文件上传到jupyter notebook后,接下来,就开始读取各个数据文件,然后将每个数据文件的前5行数据内容显示出来,观察一下数据列之间的关系。比如,首先来读取customer_master.csv文件中的内容,代码如下:

import pandas as pd
customer_master = pd.read_csv('customer_master.csv')
customer_master.head()

解释一下代码:

 

第1行:引入Python的软件包——pandas。

第2行:使用pandas中的read_csv函数,读取外部的“customer_master.csv”文件,转换成pandas的处理数据对象,存储到customer_master变量中,这个变量就是类似表格的数据结构。

第3行:使用head()函数,将customer_master变量的前5行数据显示出来。

 

点击"运行",执行效果如下图所示。

1.2 读取观察数据

按照同样的方法,我们把其它数据文件也读取并显示出来。如下图所示。

 

item_master.csv文件

1.2 读取观察数据

transaction_1.csv文件

1.2 读取观察数据

transaction_detail_1.csv文件

1.2 读取观察数据

在分析数据之前,了解“数据的轮廓”非常重要。如同中医看病一样,通过“望闻问切”等外在的观察,可以大致判断一个人的健康情况。所以在分析数据之前,首先把各个数据的轮廓大致了解清楚,使用上面的代码方法,就可以大体了解各个数据中的基本情况。如下表所示:

变量

解释

customer_master

顾客的性别和年龄等数据信息。

item_master

商品的名称和价格等数据信息。

transaction_1

有关“什么顾客,什么时候,花了多少钱”等交易数据信息。

transaction_detail_1

有关“交易商品的名称和数量”等数据信息。

 

了解完之后,接下来该如何进行分析呢?

 

我们还是要回到刘先生的需求这里,他很想知道,如何通过分析数据,可以让他的店铺销量越来越好呢?

 

观察上面的数据,显然,transaction_1transaction_detail_1 中的数据信息,更加符合刘先生的需求。我们就从这两个变量开始着手分析。可以发现,transaction_1是从“transaction_1.csv”文件中获取的变量,除了“transaction_1.csv”文件外,还有“transaction_2.csv”文件,这是因为交易的数据量非常多,被分成了两个文件来存储。transaction_detail_1 也是同样的情况。

 

所以,为了完整的数据分析,我们首先将“transaction_1.csv”文件和“transaction_2.csv”文件合并起来。下一节,继续!


此处为语雀文档,点击链接查看:https://www.yuque.com/codeclub/yvmeco/friz9v