零基础如何可以成为数据分析师?
大数据在国内已经火热了一段时间,无论是政府还是企业都已开始重视大数据,纷纷设立大数剧部门,数据之于企业的重要性不言而喻。据某招聘网站调查,一名有经验的数据分析师的年薪不低于20万。而数据工程师、数据科学家等则收入更高。
那么如何零基础如何在最短的时间内高效率的成为数据分析师?怎样成为数据分析师呢?很多初学者都有着各种各样的问题。今天,和大家一起探讨几个问题。
在长篇大论之前,我先给读者来一粒定心丸:零基础成为数据分析师是可能的事!
但俗话说“台上一分钟,台下十年功”。任何人取得的任何成就都不是一蹴而就的,学习之路更应如此,那么你需要的基本功是什么呢?在我看来,首先你要有兴趣,然后再谈其它,因为兴趣是最好的老师。
我假设你有兴趣,并且乐意学习,那么理论上还是有些很大程度上限制不了你的条条框框,诸如你的英文水平,数学水平,认知领悟能力等,不过只要你想学呀,那就没问题。
统计学
概率论与统计学,是你不可能逃避或者说你必须爱上的知识,他们是你入门的基石。
通过他们,你能学到什么是概率,什么是概率密度函数,什么是正态分布,什么是假设检验,什么是参数估计。你可以领略到贝叶斯大神的牛X之处,你也可以计算出某些事情的期望与方差,你还会见到排列组合(可能是高中的知识),更有甚者,你还会学到一笔画的问题,还会真正的分析三门问题,看看那些看似违背常理的事情是如何发生的?
有人说统计学是数学上的噩梦,可就算是噩梦,你也要笑醒。
对行业的了解程度
对特定行业的了解可以帮助数据分析师尽快进入状态,加速决策的过程。如果缺少这一前提,你的数据分析师可能不得不花时间来先对整体行业有一个大概地认知,学习相关知识,然后才能投入其中。
R语言
当我没有接触他的时候,我很污地认为他是“日”语言。后来逐渐接触他,发现它是一种非常美的语言。
为什么美,因为它可以做出许许多多美丽的图表!
像这样不明觉厉的
又比如这样充满美感的,都是出自它的超强的作图能力。
R语言主要适用于EDA(探索性数据分析),也就是你与数据之间的对话,是通过作图来找寻单变量,双变量或者多变量之间的关系,进而发现其相关性。
他的学习也不是很难,掌握了基本操作,要掌握核心的几个包(package),然后经常性的练习,善于借助帮助文档,所谓熟能生巧,就是这个道理。
Python
Life is short,I use Python.
人生苦短,我用Python。
Python语言是一门功能非常强大,实用型非常强的语言,Web编程,网络爬虫,而我用它是进行数据分析。
Python的基础知识一定要掌握好,万丈高楼平地,没有一个坚实的基础,再高大上的玩法都无济于事,不仅要知其然,还要知其所以然。List,Tuple,Dictionary,Set他们各自的特点要乱熟于心,信手拈来。
数据分析自然少不了要掌握pandas和numpy两个包,如果用到数据可视化(后面会讲到),肯定要用matplotlib包,这三个包基本上就是Python进行数据分析的半壁江山以上了,好好掌握,不能将就。
沟通能力
现代社会,工作通常要通过分工合作来完成。沟通成为其中必不可少的一环。所以你想要雇佣的数据分析师在这方面有所建树的话,可以极大地提升工作效率。另外,拥有良好沟通能力的专家懂得合理地呈现数据可视化成果并且讲好数据故事。
数据可视化
数据可视化(Data Visualization)是指你与观众之间的交流,与EDA不同的是,一个着重于探索,一个着重于表达。数据可视化,有许多好的网站资源,好的书籍可以参考。
我认为数据可视化的核心是作者能够清晰地传达最想让读者明白的东西。
我给你一张图,你一眼就能看出我想表达什么,这就是数据可视化。而不是乱七八糟,东拼西凑出来的看起来啥都不明朗,一个糟糕的可视化可能就会错失巨大的机会。
这里主要涉及的方面可能会涉及到JavaScript,这个和前端貌似有着千丝万缕的关系。我们使用的是JavaScript的库,图表插件主要使用的是D3和Dimple,前者自定义程度高,但是略复杂些;后者集成度比较高,操作使用方便,但是个性化元素比较差。他们都可以在网页上实现动态展示。
还有一类大数据据可视化软件,比如 tableau,FineBI,企业级用。由于企业对数据处理的稳定性和速度要求较高,chart插件在大数据量上的应用不是很多,主要会利用商业智能FineBI这类,来集成一个数据平台,做统一展示。