数据清洗——Pandas的简单使用方法

pandas是用于数据清洗的库,是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

一、安装pandas

win+R打开cmd命令行输入pip install pandas即可,因为我已经安装了,这里就不展示图片了

二、导入包

import pandas as pd

2.1 向CSV写入数据

2.2 从CSV中读取数据

import pandas as pd

a = ['衬衫','工装裤','格子衫','打底裤','外套']
b = [99.0,286.0,298.0,279.0,59.0]

dataframe = pd.DataFrame({'商品':a,'价格':b}) #a,b对应列
dataframe.to_csv("taobao.csv",index=False,sep=',')
import pandas as pd
#从CSV中读取数据,还可以读取html、txt等格式的文件
data = pd.read_csv("text.csv")
print(data)

输出结果为:
商品 价格
0 衬衫 99.0
1 工装裤 286.0
2 格子衫 298.0
3 打底裤 279.0
4 外套 59.0

2.3 数据选择

2.3.1 行的选取

(1)切片

[a:b]

(2)索引 iloc(iloc[]适用于数据进行了筛选后造成索引号与原来不一致的情况)

data.iloc[1] 
data.iloc[1]['列名']

(3)指定位置 loc

data.loc[0]

列选择

data = pd.read_csv("text.csv")
rows = data[0:3] #打印0到2行数据
print(rows)

输出结果为:
商品 价格
0 衬衫 99.0
1 工装裤 286.0
2 格子衫 298.0

2.3.2 列的选取

columns = data[['商品','价格']]
rows = columns.iloc[1]
print(rows)

输出结果为:
商品 工装裤
价格 286

2.2.3 块的选取(行+列)

data = pd.read_csv("text.csv")
row = data.ix[0:3,['商品','价格']]
print(row)

这里有一个需要注意的地方,就是我在一本书上看到这样的一个例子
row = data.ix[0:3,[‘商品’,‘价格’]]
于是我print了一下发现出现了一个警告
数据清洗——Pandas的简单使用方法
警告显示原因是因为:

.ix已弃用。 请用
.loc用于基于标签的索引或
.iloc用于位置索引

把.ix改为.loc就可以了,具体可以参考pandas的官方文档

正在尝试写博客,把会的分享给你们,如有写的不好的地方,希望指点一下,谢谢!