如何选择适合小白的 Python 数据分析书?

如何选择适合小白的 Python 数据分析书?

呆鸟云:“本来没想写这些,但呆鸟最近发现不少学习 Python 数据分析的朋友不知道该怎么着手学习 Python 数据分析,存在好多误区。虽然,呆鸟曾经翻译过一篇叫学习 Python 数据分析的正确姿势的文章,里面介绍了总体的学习思路,也推荐了一些书籍与课程,但感觉对小白来说,还是有点难了,全下来要花费不少时间才能上手操作。今天就给大家讲讲到底应该选择什么样的数据分析书才适合快速上手。”

呆鸟列出了几项能让你快速上手图书的内容,其中前三项是呆鸟认为小白上手必备的基础知识,第四项里列出了辅助与进阶的学习内容,第五条是从呆鸟与朋友们学习 Python 数据分析的实践中总结出来的一点点学习经验,最后,666 的彩蛋是什么呢,看到最后你就知道啦。

  1. 选择什么样的 Python IDE?

  2. 要学哪些 Python 基础知识?

  3. Pandas 才是 Python 数据分析的基础?

  4. 还有很多。。。?

  5. Python 数据分析很难吗,多久能上手?

  6. 文末彩蛋,正文不看,也要看的彩蛋

话不多说,请看正文。

1. 选择什么样的 Python IDE?

什么是 IDE?大家别晕,其实说白了,就是代码编辑器,和 word 没啥区别,都是在里面写东西,只不过,可以在里面运行、测试代码,显示代码运行的结果,别把它想的太深奥,这只是你以后经常要用的工具而已。以下是适合小白使用的 IDE 选择标准:

  • 简单、易用
    小白上手就怕复杂,数据分析师不是程序员,尤其是新手小白,没必要非得用适合程序员编程专业 IDE,比如 PyCharm 啥的,好不好?强大不强大?美观不美观?那肯定没的说,但就是太复杂了,小白不晕死才怪,直接倒在了 Python 数据分析的门口了

  • 跟得上时代
    呆鸟看到不少小白还在用一些几年前的 IDE,功能老了不说,也不那么人性化啊。从呆鸟个人审美比较挑剔的角度来说,老旧 IDE 的另一个弊端就是太难看了,比如 IDLE,用过的自己琢磨吧

  • 适合数据分析
    数据分析不是编程,要用能直观展示数据分析结果的 IDE,还最好要对数据表格、数据可视化图的输出进行过优化

至于哪个 IDE 符合呆鸟心目中的这几点,这里卖个关子,后面说。不过估计很多人一猜就猜到了,哈哈。

2. 要学哪些 Python 基础知识?

要学 Python 数据分析,起码要理解一些基础的 Python 知识,没有 Python 底子,怎么写代码?但需要学习很多 Python 知识吗???其实,不用的,数据分析师毕竟不是程序员,学些基础知识就够啦!!!

那么,问题来了,都需要学什么呢?以下就是呆鸟总结的一些必学的 Python 基础知识点:

  • Python 代码编写规则是什么样的?

  • 数据类型是什么,都有哪些特性?

  • 运算符都有哪些?

  • 流程控制是什么?怎么用?

  • 字符串应该怎么处理?

  • 怎么编写简单的函数与类(class),实现代码重复调用?

就这些,多吗?真不多,好学的小白,有一两天就能上手了。

3. Pandas 才是 Python 数据分析的基础?

Pandas 才是 Python 数据分析里的重头戏,一定要好好学。估计有的小白也听说过 NumPy,而且还听说要学 Pandas 就得先掌握 NumPy。呆鸟想告诉大家,作为新手上路,真不用掌握太多的 NumPy 知识,就算学,也不用着急。回归正题,我们继续说 Pandas都要学什么?

  • Pandas 的数据结构是什么样的?
    这里的数据结构主要指的是一维的 Series,二维的 DataFrame。

  • 怎样读取各种数据文件?
    包括 CSV、Excel、SQL 等等,有想法的朋友可以注意到 Python 基础知识里,呆鸟没有提文件读写,为什么呢?因为我们主要利用 Pandas 读取数据文件就够了;

  • 怎样查看数据?
    涉及查看数据的整体信息,有多少行?有多少列?每列的数据类型是什么?前几行是哪些数据?后几行是哪些数据?如何随机抽取一些数据进行查看?数据集的基本统计信息是什么?等等;

  • 怎么进行数据预处理?
    比如,缺失值、重复值、异常值的处理,这个阶段也叫做数据清洗;

  • 怎么选择数据?
    我们在处理数据时,为了提高数据处理效率,往往只选择需要的数据,不会对所有的数据进行处理,这就涉及了怎样选择不同行或不同列的数据,用所选的数据生成新的数据集;

  • 怎样筛选数据?
    与选择数据类似,也是为了找出我们所需要的数据,减少数据运算量,提高数据处理效率,涉及了怎么筛选字符串?怎么筛选时间?怎么筛选数字?怎么按数据类别进行筛选?等等;

  • 怎么排序(sort)数据,怎么实现数据排名(rank)?
    我相信大多数人都知道 sort 排序,听说过 rank 排名的怕是不多了吧;

  • 怎么获取每列或每行的唯一值?

  • 怎么按区间分割数据?

  • 怎么插入行列、删除行列
    别看这个功能简单,不少人还真不会呢;

  • 怎么实现数据透视?
    Excel 的数据透视表应该不少人听说过吧,Pandas 提供了好几种方式实现这个功能哦;

  • 怎么转换长宽表?
    什么是长表?什么是宽表,你造吗?不造,就去看文末彩蛋;

  • 怎么进行数据运算?
    这里包括了加减乘除等基本运算,也在大小多少这样的逻辑判断,还有汇总求和、求均值、求最大值、最小值、中位数、众数、方差、标准差、百分比等等;

  • 怎样处理字符串与时间数据?
    除了上面说的数字运算,数据分析很多时候要和各种文本字符串、日期时间打交道,pandas 提供了专门的 str 与 dt 访问器来处理字符串与日期时间,还有专门的时间序列处理函数与索引功能,这些都是小白要好好学习的;

  • 怎么分组处理数据?
    这点很重要,因为我们很多时候都是要把数据分门别类进行操作的,如果你不会分组,好多数据分析的黑科技就别想玩啦;

  • 怎么合并多个表?
    在做数据分析的时候,想处理一个表就搞定所有问题,别做梦啦,这么想的人连小白都算不上,数据分析一般都会涉及好多个表,各种表格的拼接就成了数据分析的基本功了,这也是 SQL 面试的时候为啥老爱考左左右右,里里外外各种 join 这些东西的原因。所以啊,Pandas 为大家提供了 merge、join、concat 多个连接函数,够你们玩的了;

  • 当然,还有很多 Pandas 的内容要学的,写太多小白也吸收不了,呆鸟将来会写给你们看的,别着急。

4.  还有很多。。。?

其实,有关 Python 数据分析的内容还有很多,比如用于数据可视化的 matplotlib、bokeh、pyecharts,比如用于统计分析的 statsmodels,更深入的还有机器学习的 Scikit-learn、强化学习的 TensorFlow、PyTorch,除了这些用于落地的技术之外,还有数据分析思维、统计知识、业务知识、沟通能力等等,真不是一篇文章能说完的,关注 Python大咖谈,我们慢慢说。

5. Python 数据分析很难吗,多久能上手?

万事开头难,但其实这说的是从 0 到 1 的勇气,探索未知永远是需要勇气的。很多人难就难在没有勇气上,但呆鸟认为想深入、吃透、学精,才是更难的,从小白到入门可以没那么难。

以呆鸟带了好几个兄弟学数据分析的经验,在白天工作,晚上自学的前提下,一天 4、5 个小时,有三四个月左右就能上手了。

有小白说,还是好久啊,那么呆鸟告诉你别贪多,选好上手的学习资料,专注学下来,好好敲代码,快的话,一个月其实就可以从 0 到 1,从一无所知到可以凑凑活活上手干活了。记住,呆鸟要告诉大家这只是上手入门,不是精通,精通任何事情都不是那么容易的。那么到底是哪本书介绍了呆鸟上面说的这么多的内容,还没有动辄六七百页让你望而却步呢?Duang Duang Duang,谜底就要揭开啦!

6. 文末彩蛋,可以不看正文,也要看的彩蛋

谜底就是这本呆鸟最近买到的《对比 EXcel,轻松学习 Python 数据分析》

如何选择适合小白的 Python 数据分析书?

第一,这本书最好的地方在于,它不是大部头,只有 260 多页,小白学起来不会觉得太吃力,不会觉得永远也学不完;

第二,这本书虽然不厚,但内容全面,包含了呆鸟上面说的所有内容,还包括了对数据分析思维的介绍,下图就是该书的完整架构图;

如何选择适合小白的 Python 数据分析书?

第三,这本书采用的 IDE 是现在数据科学领域最流行的 Jupyter Notebook,安装简单、界面简单、上手简单、优化了数据表格与可视图的输出,可谓是 Python 数据分析神器,没有之一。

第四,对 Excel 比较熟悉,但不了解 Python 数据分析的小白,可以结合自己对 Excel 的认知学习 Python 数据分析;Excel 与 Python 数据分析都不了解的小白,恭喜你,可以一箭双雕,一石打中两只聪明鸟,Excel 与 Python 数据分析能一起学了,多好。

第五,本书作者可是数据分析圈里鼎鼎大名的帅哥张俊红,如果你不知道,那你真是小白了,赶紧去看看他的公众号吧,干货满满的,呆鸟的很多数据分析基本理念都是从这里学的。他的公众号已经运营几年了,原创文章 200 多篇,粉丝数万人,你可别被拉下了哦 ~~

最后,为什么要推荐本书呢?因为本书架构非常好,启发了呆鸟写 Pandas 百问百答系列的思路,但是,呆鸟的文章与本书还是不尽相同的,所以还是希望大家多多关注 Python 大咖谈的后续文章哦。。。

如何选择适合小白的 Python 数据分析书?如何选择适合小白的 Python 数据分析书?
如何选择适合小白的 Python 数据分析书?

Pandas 上手实战系列

如何选择适合小白的 Python 数据分析书?如何选择适合小白的 Python 数据分析书?