02-数据科学的基础:数据科学分析法介绍

在这一篇,我们会具体介绍如何进行数据分析。

数据科学分析可分为以下有10大类:
1.指导性分析 Descriptive Analysis
2.预测模型 Predictive Model
3.趋势分析 Trend Analysis
4. 聚类分析 Clustering
5.分类 Classifying
6. 异常现象分析 Anomalies
7. 降维 Dimension Reduction
8.特征选择和创建 Feature Selection and Creation
9. 验证模型 Validating Models
10. 融合模型 Aggregating Models


那下面我们来具体的介绍一下每个类别的分析:

1. 指导性分析 Descriptive Analysis
一般情况下我们会通过数据成像的方式来初步进行指导性分析。指导性分析的数据成像会分为以下4种类型。

1. 钟形曲线(Bell Curve) :钟形曲线理论上的正态分布曲线,数据曲线是一条中间高,两边逐渐下降并且完全对称的曲线。
02-数据科学的基础:数据科学分析法介绍
2. 正偏态(Positive Skew):正偏态分布不对称。分布高峰偏左,长尾向右延伸的偏态分布成为正偏态。
02-数据科学的基础:数据科学分析法介绍
3. 负偏态(Negitave Skew) : 又称“左偏态” 是指在一个不对称或者偏态的分布图中,次数分布的高峰偏右,长尾则从有主见延申到左边。
02-数据科学的基础:数据科学分析法介绍
4. U型曲线(U-Shape): 整个图像成字母U的一种曲线。
02-数据科学的基础:数据科学分析法介绍

通过以上数据成像,我们仍需计算出以下这些基本数据:

1. 众数(Mode): 是指在整个数据集合或数据成像中,出现最多的数值。众数在一组数据集中会出现好几个。
2. 平均数(Mean) : 为集中趋势的最常用测度值,目的是确定一组数据的均衡点。
3. 极差(Range): 是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距,即最大值减最小值后所得之数据。
4. 四分位数(Quadrilles) 和四分位距(IQR):又称四分差。是描述统计学中的一种方法,以确定第三四分位数和第一四分位数的区别。
5. 方差(Variance): 方差是衡量源数据和期望值相差的度量值
6. 标准偏差(Standard Deviation): 离均差平方的算术平均数的平方根,用σ表示。

02-数据科学的基础:数据科学分析法介绍
上图为一组随机数据集的基本数据计算。


2. 预测模型(Predictive Model):

预测模型的使用流程:

  1. 使用相关的过往数据,发现是否变量是否具备相关性关系
  2. 运行预测模型得到结果,确认相关性关系
  3. 应用于新的数据集合中得到预测结果

预测模型可应用于:
疾病的预测和疾病治愈预测,投资的赔付,推荐产品。

预测模型主要应用于以下两类:*
未来事件的预测:
1. 使用现有的数据来预测未来的事件
2. 根据过往的客户的银行还款数据来预测未来的还款比例
3. 根据过往的家族病史来预测病人患病的机率或健康状况

替代事件的预测:
1. 预估一个人会多大可能性做同一件事。、
2. 通过推断和预测从而产生其他相关的影响
3. 例如:饮料公司打算生产新口味的饮料,通过预测来计算出回头多少老客户转向购买新口味的饮料。

预测模型的基本方法:

  1. 分类法(Classification Methods)
  2. 决策树(Decision Trees)
  3. 神经网络(Neural Networks)

3. 趋势分析( Trend Analysis)
趋势分析的方法:

  1. 数据成像:通过折线图来展示出数据的改变
  2. 链接各个数据点来清晰的展示出数据的周期变化

自相关作用:

  1. 每一个数据都会或多或少的影响到之前的数据
  2. 寻找到一致性的变化

如何进行趋势分析:

  • 寻找函数关系
  1. 试图在折线图中发现其中的函数关系,正相关,负相关,或无关
  2. 有可能会出现周期性关系
  3. 也会出现不同的函数关系同时出现的可能
    02-数据科学的基础:数据科学分析法介绍
    以上为常见的函数类型的折线图。最后一个折线图为大学校园内学生的人数图,因为每年有两个假期,所以假期时间内在校的学生数量会有明显的减少,但却是成周期性的变化。

-分段进行分析: 将整个数据趋势分为几个阶段,通过对阶段进行分析来发现是否具备函数的相关性。


4. 聚类分析(Clustering)
聚类分析的应用:市场划分(Marketing Segments), 医学分组(Medical Groups),学生实验分组等。

常用于计算聚类分析的两个方法:
1.K-Dimensional Space: 确定每个数据点在多维度空间中的K个维度所对应的k个变量。
2. Measure Distances: 计算每个点距离其他点的距离从而从而发现聚簇和差距。

可替换聚类分析的模型:
1.集群分析 (K-means) 和 数据组中心模型(Group Centroid Model)
2.密度模型(Desity Models)
3.分布模型(Distribution Models)
4.连接聚类模型(Linkage Clustering Models)


5. 分类(Classifying)
分类的方法主要应用于:
照片分类,邮件的分类等。

分类的基本逻辑:

  1. 确定数据所在的k维度
  2. 对比标签门类的周边数据
  3. 将新的数据归类于新的标签门类中

分类的方法:
1.集群分析(K-means):将数据归纳与最靠近的K的形心
2. K临近算法(k-Nearest Neighbor,KNN):此分类方法为目前最为成熟和简单的方法之一。如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
KNN算法中,所选择的邻居都是已经正确分类的对象。

分类的主要衡量数值:

  • 准确度(Total Accuracy)
  • 敏感度(Senitivity)
  • 特异度(Specificity)

6. 异常现象分析(Anomalies)
异常值分析主要应用于:银行诈骗系统扫描

异常值:

  1. 数据或事件距离其他数据或情况分离
  2. 数据或事件没有按预期的规律发展
  3. 数据或事件满足异常现象的要素

处理异常现象的方法:
4. 回归函数(Regression)
5. 叶贝斯分析法(Bayesian Analysis)
6. 聚类系列-层次聚类 (Hierarchical clustering)
7. 神经网络(neural networks)


7. 降维 (Dimension Reduction)
降维的基本原理:
1.误差值往往在降维中可以被抵消
2.降低同线性
3.加快模型的处理速度
4.增强普遍性

降维的方法:

  • 主成分分析法(Principal Component Analysis)
    将多个相关的变量合并成一个部分
  • 因子分析(Factor Analysis)
    找出多个指标中的潜在的相关因子.

8. 特征选择和创建( Feature Selection and Creation)
方法:

  • 相关(Correlation)
  • 逐步回归(Stepwise regression)
  • Lasso 和ridge Regression

9. 验证模型 (Validating Models)
方法:

  • 运用训练集(Training Data)
  • 交叉验证数据(Cross-Validation Testing Data)
  • Holdout Testing Data

10. 融合模型 (Aggregating Models)
方法
1.最常见的类别(Most Common Category)
2.平均预测(Average predition)
3. 叶贝斯推断(Baryesian Posteriors )

融合模型的好处:
1.可进行多视角进行数据观测
2.更容易发现显著信号和噪音
3.模型更稳定
4.更容易归纳和概括