如何有效的学习Pandas?---比赛+整理,附Pandas思维导图
前言
本篇是自己对如何有效的学习Pandas的感悟与总结。
本文约0.8k字,预计阅读3分钟。
Pandas
Pandas是Python的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。
我们学习Pandas的「目的」是分析数据,只需要把它当作一个工具即可,并不强迫去理解它的源码。
学习遗忘
Pandas在比赛、实验中经常会使用到。所以一刚开始很多人(包括我)都去兴致勃勃的去看一系列经典的书籍、API文档来学习Pandas。但是发现学完过后,又发现什么都不会(至少我是)。
因为Pandas对于我们来说只是一个工具,我们并不需要像学习机器学习那样理解它的原理,只需要学会如何使用它,即「当前你需要对数据进行某项操作时,知道调用Pandas的某个函数或方法」。
如何有效的学习
最开始,我曾根据API文档进行逐个学习,并创建一个非常简单的DataFrame来进行应用,就算完成了实操。但是后来发现,效果并不理想,案例太过简单,不是在一个具体的数据背景,很难理解其实际作用。
数据挖掘比赛
个人认为,去参加一些「数据挖掘的比赛」,例如时序预测等能够帮助你去消化理解。因为它们的数据是结构型的数据,且在一个真实背景下,使用Pandas能够进行有效的分析和做一些特征工程。
推荐的比赛平台有:
天池(有新人赛进行实践);
Kaggle(大名鼎鼎的Titanic练习赛可能是很多数据挖掘爱好者的入门);
DC竞赛;
DataFountain;
知识整理
在比赛结束后,应该对在比赛中使用的Pandas技巧进行整理(使用Markdown记录最为方便)。「整理是对知识的消化与深入」。以下是个人整理的Markdown笔记的目录:
思维导图
后来发现,我们其实并不需要对Pandas方法的使用去记忆(只需一个大概印象),因为我们完全可以通过官方API文档进行查询啊(又不是考试)。因此,最大的问题就是「有时候并不知道你要完成当前步骤需要哪个技巧」。
因此,我们需要将整理的内容进行简化,通过「思维导图」的方式,快速查询。以下是我自己对使用过的重要的方法的绘制(Xmind软件):
总结
以上是我自己对Pandas工具的理解。总的来说就是需要多实践、多整理。毕竟工具只有频繁的使用,才能进行有效的记忆。
如果对本文感兴趣并且想要获得上述Pandas思维导图,可以点个关注,后台回复“pandas”即可获得。
往期精彩回顾
Pandas笔记---通过比赛整理出的10条Pandas实用技巧
Pandas笔记---深入Groupby,它的功能没有你想的这么简单
扫码关注更多精彩
点分享
点点赞
点在看