数据清洗——Pandas的简单使用方法

pandas是用于数据清洗的库，是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

一、安装pandas

win+R打开cmd命令行输入pip install pandas即可，因为我已经安装了，这里就不展示图片了

二、导入包

import pandas as pd

2.1 向CSV写入数据

2.2 从CSV中读取数据

import pandas as pd

a = ['衬衫','工装裤','格子衫','打底裤','外套']
b = [99.0,286.0,298.0,279.0,59.0]

dataframe = pd.DataFrame({'商品':a,'价格':b}) #a，b对应列
dataframe.to_csv("taobao.csv",index=False,sep=',')

import pandas as pd
#从CSV中读取数据，还可以读取html、txt等格式的文件
data = pd.read_csv("text.csv")
print(data)

输出结果为：
商品价格
0 衬衫 99.0
1 工装裤 286.0
2 格子衫 298.0
3 打底裤 279.0
4 外套 59.0

2.3 数据选择

2.3.1 行的选取

（1）切片

[a:b]

（2）索引 iloc（iloc[]适用于数据进行了筛选后造成索引号与原来不一致的情况）

data.iloc[1] 
data.iloc[1]['列名']

（3）指定位置 loc

data.loc[0]

列选择

data = pd.read_csv("text.csv")
rows = data[0:3] #打印0到2行数据
print(rows)

输出结果为：
商品价格
0 衬衫 99.0
1 工装裤 286.0
2 格子衫 298.0

2.3.2 列的选取

columns = data[['商品','价格']]
rows = columns.iloc[1]
print(rows)

输出结果为：
商品工装裤
价格 286

2.2.3 块的选取（行+列）

data = pd.read_csv("text.csv")
row = data.ix[0:3,['商品','价格']]
print(row)

这里有一个需要注意的地方，就是我在一本书上看到这样的一个例子
row = data.ix[0:3,[‘商品’,‘价格’]]
于是我print了一下发现出现了一个警告
数据清洗——Pandas的简单使用方法
警告显示原因是因为：

.ix已弃用。请用
.loc用于基于标签的索引或
.iloc用于位置索引

把.ix改为.loc就可以了，具体可以参考pandas的官方文档

正在尝试写博客，把会的分享给你们，如有写的不好的地方，希望指点一下，谢谢！