python数据可视三大库之pandas库(二:Dataframe类型简易上手)
这篇笔记是对mooc所讲的pandas库的个人整理,资料来源于 中国大学mooc 北京理工大学开设的python数据可视化教程
文章目录
Dataframe类型
如果说series类型是一种一维标签数组,那么Dataframe就是二维的标签数组(载行和列上都有标签)。
DataFrame是一个表格型的数据类型,每列值类型可以不同DataFrame既有行索引、也有列索引DataFrame常用于表达二维数据(也可以表达多维数据)。
Dataframe类型的行和列的标签都是从0开始标记
创建方法
DataFrame类型可以由如下类型创建:
•二维ndarray对象
•由一维ndarray、列表、字典、元组或Series构成的字典
•Series类型
•其他的DataFrame类型
例
DataFrame创建的方法很多,我们主要挑选字典和nadarry对象创建方法来讲
二维的nadarray对象创建
这是numpy库和pandas结合
创建前要引入numpy库。
字典类型创建
我们用用python的字典类型创建
这是通过字典类型创造,我们还可以使用嵌套字典的方式
列表创造
我们使用python列表创建
属性(index,columns)
和series类型相似的是Dataframe类型的标签也可以自定义修改,与series不同的是Dataframe多了一个行标签columns。
我们来自定义行标和列标,尝试一下
我们通过index和columns属性来查看行标和列标
我们可以通过index和columns属性修改行标和列标
pandas库的数据类型操作(series,Dataframe)
重新索引
.reindex()能够改变或重排Series和DataFrame索引
来实践一下
1.我们首先创建新的columns(用insert())
其中insert(8,‘new’)里的8,表示位置new表示新增的标签名。
2.我们重新索引(用reindex())
Series和DataFrame的索引是Index类型,Index对象是不可修改类型,所以我们重新索引实际上是创建了一个新的对象,而不是在原来的Index对象上面修改
删除指定索引对象
.drop()能够删除Series和DataFrame指定行或列索引
这里的axis=1表示列,axis=0表示行
pandas库的数据类型运算
算术法则
算术运算根据行列索引,补齐后运算,运算默认产生浮点数补齐时缺项填充NaN (空值)二维和一维、一维和零维间为广播运算采用+ ‐*/符号进行的二元运算产生新的对象
1.我们创建a和b进行普通的算术运算
2.算术操作
2.来看看方法形式的运算实例
比较运算
比较运算只能比较相同索引的元素,不进行补齐二维和一维、一维和零维间为广播运算采用><>=<===!=等符号进行的二元运算产生布尔对象
1.同维度比较
2.不同维度,广播运算,默认在1轴
创建一个series类型 c
比较
pandas入门篇结束,下一篇是关于pandas数据类型分析