利用python做数据分析 札记(一)

利用python做数据分析 札记(一)

因为自己对商业非常感兴趣,最近听了好多关大数据、BI等数据挖掘的讲座,很感兴趣,结合自己的技术背景与兴趣,志在讲自己的后半生布道在python,大数据、数据挖掘的路上。

故心血来潮的想回顾一下python,并自学一下python的数据挖掘功能,作为笔记供自己参考并分享给大家。

因为工作的关系之前一直用eclipse做python的IDE开发环境,最近潜心数据挖掘,发现好多任用IPython和Anaconda故下载玩了下,确实比分别安装python和各种插件要简单的多,很适合懒人以及入门。

废话少说,进入正题。先来介绍几个python做数据分析的几个重要的名词。拍砖引玉,不懂得可以问谷哥度娘。

  • NumPy库. 提供快速高效的数组对象,线性代数运算,随机数生成等、它在数据分析方面还有一个主要作用是作为算法之间传递数据的容器。对于数值型数据,NumPy数组在存储和处理数据是要比内置的python数据结构高效的多。
  • Pandas库. 用的最多的pandas对象是DataFrame,它是面向列的二维表结构,能很方便的处理excel和关系型数据库
  • matplotlib库. 强大的绘图库
  • SciPy是一组专门解决科学计算中各种标准问题域的包的集合.
    • scipy.integrate: 数值积分和微分方程求解器
    • scipy.signal: 信号处理工具
    • scipy.stats: 标准连续喝离散概率分布、各种统计检验方法以及更好的描述统计法等
  • Ipython: 交互式计算和开发环境。

Windows安装最懒得做法是下载Anaconda,然后万事okay