零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

上一篇文章带大家一起了解了Pandas库中的数据合并,本文是Python大数据与机器学习系列文章中的第16篇,将带大家一起了解一下Pandas库中的其他数据操作。

Pandas提供了很多针对数据的操作,本文列出一些非常常用的。



在这里还是要推荐下我自己建的Python开发学习群:483546416,群里都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2018最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴

实战练习

在Jupyter Notebook上执行以下代码:

import pandas as pd

df = pd.DataFrame({'col1':[1,2,3,4],'col2':[444,555,666,444],'col3':['abc','def','ghi','xyz']})

df.head()

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

获取唯一值

df['col2'].unique()

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

获取非唯一值

df['col2'].nunique()

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

获取每个值的个数

df['col2'].value_counts()

newdf = df[(df['col1']>2) & (df['col2']==444)]

newdf

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

应用函数

def times2(x):

return x*2

df['col1'].apply(times2)

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

df['col2'].apply(lambda x:x*2)

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

df['col3'].apply(len)

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

df['col1'].sum()

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

永久删除一列

del df['col1']

df

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

df = pd.DataFrame({'col1':[1,2,3,4],'col2':[444,555,666,444],'col3':['abc','def','ghi','xyz']})

df.drop('col1',axis=1,inplace=True)

df

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

获取列名和索引

df.columns

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

df.index

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

排序

df

df.sort_values(by='col2') #inplace=False by default

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

查找和检测Null值

df.isnull()

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

df.dropna()

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

将Null值填充为其它值

import numpy as np

df = pd.DataFrame({'col1':[1,2,3,np.nan],

'col2':[np.nan,555,666,444],

'col3':['abc','def','ghi','xyz']})

df.head()

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

df.fillna('FILL')

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

data = {'A':['foo','foo','foo','bar','bar','bar'],

'B':['one','one','two','two','one','one'],

'C':['x','y','x','y','x','y'],

'D':[1,3,2,5,4,1]}

df = pd.DataFrame(data)

df

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

透视表:df.pivot_table(values='D',index=['A', 'B'],columns=['C'])

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

进度介绍

本系列文章共分为26个部分目前已经进行到了第6部分,所有内容计划如下:

  1. 预热

  2. 环境搭建

  3. Jupyter教程

  4. Python速成

  5. Python数据分析,NumPy库的使用

  6. Python数据分析,Pandas库的使用

  7. Python数据分析,Pandas库练习

  8. Python数据可视化,Matplotlib

  9. Python数据可视化,Seaborn

  10. Python数据可视化,Pandas内建数据可视化

  11. Python数据可视化,Plotly和Cufflinks

  12. Python数据可视化,Geographical Plotting

  13. 数据 Capstone 项目

  14. 机器学习介绍

  15. 线性回归

  16. 交叉验证与偏方差

  17. 逻辑回归算法

  18. k-近邻算法

  19. 决策树与随机森林

  20. 支持向量机

  21. k-means聚类

  22. 主成分分析

  23. 推荐系统

  24. 自然语言处理(NLP)

  25. Python大数据与Spark

  26. 神经网络(NN)与深度学习(DL)