数据科学入门与实战1(numpy)
一 导学
数据科学工作流(IOSEMN):
- Inquire(调查)
- Obtain(获取,python)
- Scrub(清洗,numpy、pandas)
- Explore(探索,matplotlib)
- Model(模型,TensorFlow、scikit-learn)
- iNterpret(展示,boken)
使用工具,anaconda平台和jupyter-notebook编译器
数据科学领域5个高效python库:
1.numpy
- N维数组(矩阵),快速高效,矢量运算
- 高效Index,无需循环
- 开源免费跨平台,速度媲美C/MATLAB
2.scipy
- 依赖于numpy
- 专为科学与工程设计
- 实现了多种常用科学计算:线性代数,傅里叶变换,信号和图像处理
3.pandas
- 结构化数据分析利器(依赖于numpy)
- 提供多种高级数据结构(Datafram,Time-Series,Panel)
- 强大的数据索引和处理能力
4.matplotlib
- python 2D 绘图领域使用最广泛套件
- 基本可以取代matlib的绘图功能(散点、曲线、柱形)
- 通过mplot3d可以绘制精美的3D图
5.scikit-learn
- 机器学习的python模块
- 建立在scipy之上,提供了常用机器学习算法:聚类、回归
- 简单易学的API接口
二 numpy
1.矩阵运算回顾
矩阵概念回顾:
- 矩阵:二维数组,向量和标量都是矩阵的特例
- 向量:1xn或者nx1的矩阵
- 标量:1x1的矩阵
- 数组:N维数组,是矩阵的延伸
特殊矩阵:
- 全为0或者全为1的矩阵
- 单位矩阵(对角线为1的n阶方阵)
矩阵加减运算
- 要有相同的行列数
- 对应位置相加减
数组乘法(点乘)
- 对应元素相乘
矩阵乘法
- 行与列对应相乘并求和