【数据挖掘 02】探索性数据分析(EDA)4种假设



1. 基本假设

科学和工程实验的范围实际上是无限的。在这个多元化的海洋中,有没有共同的基础可以使分析师系统地,有效地得出可支持的,可重复的研究结论?

幸运的是,有这样一个基础,并且其根源在于每个测量过程(无论多么复杂)都具有某些基本假设。本节介绍这些假设的含义,它们为何重要,如何进行测试以及如果不成立这些假设的后果。


测量过程中的假设。通常有四个假设构成所有测量过程的基础。即:

  • 随机图纸(random drawings);
  • 来自固定分布(fixed distribution);
  • 分布具有固定位置(fixed location);
  • 分布具有固定变化(fixed variation)。

单变量或单响应变量。上面第3项中提到的“固定位置”因不同的问题类型而有所不同。最简单的问题类型是单变量。对于单变量问题,一般模型:
响 应 ( r e s p o n s e ) = 确 定 性 成 分 ( d e t e r m i n i s t i c   c o m p o n e n t ) + 随 机 成 分 ( r a n d o m   c o m p o n e n t ) 响应(response)=确定性成分(deterministic \ component)+随机成分(random \ component) (response)=(deterministic component)+(random component)

变为:
响 应 ( r e s p o n s e ) = 常 量 ( c o n s t a n t ) + 误 差 ( e r r o r ) 响应(response) = 常量(constant) + 误差(error) (response)=(constant)+(error)

对于这种情况,“固定位置”只是未知常数。因此,我们可以想象当前的过程在恒定条件下运行,从而产生具有以下特性的单列数据:

  • 数据彼此不相关;
  • 随机分量具有固定分布;
  • 确定性组件仅包含一个常数;
  • 随机分量具有固定的变化。

单变量模型的重要性在于,它可以轻松地扩展到更普遍的情况,在这种情况下,确定性组件不仅是常数,而且实际上是许多变量的函数,工程目标是表征和建模函数。

关键是无论有多少因素,功能有多复杂,如果工程师成功选择了一个好的模型,原始响应数据与拟合值的预测值之间的差(残差)模型本身应表现为单变量过程。此外,这种单变量过程拟合的残差表现为:

  • 随机图纸(random drawings);
  • 来自固定分布(fixed distribution);
  • 具有固定位置(fixed location);
  • 具有固定变化(fixed variation)。

因此,如果拟合模型的残差实际上表现出理想状态,则对基础假设的测试将成为验证和所选模型拟合质量的工具。另一方面,如果来自所选拟合模型的残差违反了上述一个或多个单变量假设,则所选拟合模型是不充分的,并且存在获得改进模型的机会。


2. 假设的重要性

可预测性和统计控制。可预测性是科学和工程学中至关重要的目标。如果这四个基本假设成立,那么我们就可以实现概率可预测性,即不仅可以对过去的过程进行陈述,而且可以对未来的过程进行陈述。简而言之,这种过程被称为“统计控制(in statistical control)”。

工程结论的有效性。如果这四个假设是正确的,则该过程适合于产生有效的科学和工程结论。如果这四个假设均无效,则表明该过程在漂移(关于位置,变化或分布),不可预测且失控。通过位置估计值,变化估计值或分布“估计”对这些过程进行简单的表征,不可避免地导致工程结论无效,科学或法律上无法支持,并且在实验室中不可重复。


3. 测试假设的技巧

测试基本假设有助于确保科学和工程结论的有效性。由于最终科学/工程结论的有效性与基础单变量假设的有效性密不可分,因此自然有必要对上述四个假设中的每一个进行常规检验。

检验基本假设的四种技术。以下EDA技术简单,有效且功能强大,可以对基础假设进行例行测试:

  • 运行序列图(run sequence plot): Y i Y_i Yi i i i
  • 滞后图(lag plot): Y i Y_i Yi Y i − 1 Y_{i -1} Yi1
  • 直方图(histogram): Y Y Y 的子图;
  • 正态概率图(normal probability plot): 有序 Y Y Y 与理论有序 Y Y Y

可以将四个EDA图并置以快速查看数据的特征。下图的顺序如下:

  • 运行序列图-左上方
  • 滞后图-右上
  • 直方图-左下
  • 正态概率图-右下
    【数据挖掘 02】探索性数据分析(EDA)4种假设
    由 500个正常随机数组成的这4个图揭示了一个具有固定的位置,固定的变化,显然具有固定的近似正态分布且没有异常值的过程。

如果四个基本假设中的一个或多个不成立,那么它如下示例所示。
【数据挖掘 02】探索性数据分析(EDA)4种假设
该4幅图揭示了一个具有固定位置,固定变化,非随机(振荡),非正态,U形分布以及多个异常值的过程。


4. 四幅图的说明

前一页讨论的四个EDA图用于测试基本假设:

  1. 固定位置:
    如果固定位置假设成立,则运行顺序图将是平坦且不漂移的。
  2. 固定变化:
    如果固定变化假设成立,则运行序列图中的垂直展宽在整个水平轴上将大致相同。
  3. 随机性:
    如果随机性假设成立,则滞后图将是无结构且随机的。
  4. 固定分布:
    如果固定分布假设成立,特别是如果固定正态分布成立,则直方图将呈钟形,并且
    正态概率图将是线性的。

如果所有四个假设均成立,则该过程在定义上被称为“处于统计控制(in statistical control)”。

如果某些基本假设不成立,该怎么办?可以采取哪些纠正措施?解决此问题的积极方法是将对基本假设的测试视为了解该过程的框架。假设测试(Assumption-testing)可以促进对流程重要方面的洞察,否则这些方面可能不会浮出水面。

主要目标是从分析中得出正确,有效和完整的科学/工程结论。这通常包括中间目标,例如推导合适的模型和计算实际参数估计值。它应始终包括理解的最终目标和“使过程产生变化的原因”的“感觉”。


5. 不满足基本假设的后果

有四个基本假设:

  • 随机性;
  • 固定位置;
  • 固定变化;
  • 固定分布。

5.1 不满足随机性假设

如果随机性假设不成立,则

  • 所有常规统计检验均无效;
  • 计算出的常用统计不确定性变得毫无意义;
  • 预先指定的公差所需的最小计算样本量变得毫无意义;
  • 简单模型:y =常数+误差 变为无效;
  • 参数估计变得可疑且不可支持。

自相关是一种特定且常见的非随机类型。自相关是 Y t Y_t Yt Y t − k Y_{t-k} Ytk 之间的相关,其中 k k k 是定义自相关滞后的整数。即自相关是时间相关的非随机性。这意味着,当前点的值是高度依赖于之前的点,通常通过自相关图或滞后图检测自相关。如果数据由于自相关而不是随机的,则会导致:

  • 相邻的数据值可能是相关的。
  • 研究中的现象可能没有n个独立的快照(snapshots)。
  • 可能存在未检测到的“垃圾”异常值。
  • 可能存在未检测到的“信息丰富”异常值。

5.2 不满足固定位置

通常估算的位置是平均值
Y ˉ = 1 N ∑ i = 1 N Y i \bar{Y} = \frac{1}{N} \sum_{i=1}^{N}{Y_i} Yˉ=N1i=1NYi

from N N N measurements Y 1 , Y 2 , . . . , Y N Y_1, Y_2, ... , Y_N Y1,Y2,...,YN.

如果运行序列图不支持固定位置的假设,则会导致:

  • 该位置可能正在漂移。
  • 单个位置估计可能没有意义(如果过程正在漂移)。
  • 位置估计器(例如样本均值)的选择可能不是最佳的。
  • 均值不确定性的常用公式为(可能是无效的,并且数值过小。):

s ( Y ˉ ) = 1 N ( N − 1 ) ∑ i = 1 N ( Y i − Y ˉ ) 2 s(\bar{Y}) = \frac{1}{\sqrt{N(N-1)}} \sqrt{\sum_{i=1}^{N}{(Y_i - \bar{Y})^2}} s(Yˉ)=N(N1) 1i=1N(YiYˉ)2

  • 位置估计可能不正确。
  • 位置估计可能会有偏差。

5.3 不满足固定变化

通常的变异估计是标准差:
s Y = 1 ( N − 1 ) ∑ i = 1 N ( Y i − Y ˉ ) 2 s_Y = \frac{1}{\sqrt{(N-1)}} \sqrt{\sum_{i=1}^{N} {(Y_i - \bar{Y})^2}} sY=(N1) 1i=1N(YiYˉ)2
from N N N measurements Y 1 , Y 2 , . . . , Y N Y_1, Y_2, ... , Y_N Y1,Y2,...,YN.

如果运行序列图不支持固定变化的假设,则

  • 变化可能是漂移的。
  • 单个变化估计可能没有意义(如果过程变化在漂移)。
  • 变化估计可能很差。
  • 变化估计可能是有偏差的。

5.4 不满足固定分布假设

科学家和工程师通常使用 mean (average) 来估计分布的 “middle”。众所周知,作为位置估计器的均值的变异性和噪声与数据的基础分布具有内在联系。对于某些分布,均值是一个不好的选择。对于任何给定的分布,都有一个最佳选择-即具有最小变异性/噪声的估计量。该最佳选择可以是,例如,median,midrange,midmean,mean或其他的估计量。这意味着首先要 “估计”分布 ,然后基于分布-选择最佳估计量。与不遵循这种方法相比,所得的工程参数估计量将具有较小的可变性。

分布假设问题产生的其他后果是:

分布 模型 处理
分布可能正在改变。 模型可能正在更改。 该过程可能无法控制。
单个分布估计值可能没有意义(如果过程分布正在更改)。 单个模型估计可能没有意义。 该过程可能是不可预测的。
分布可能明显不正常。 默认公式 Y=常数+误差 可能无效。 该过程可能无法建模。
分布可能是未知的。 如果默认模型不足,则可能无法检测到关于更好模型的信息。
错误的真实概率分布可能仍然未知。 较差的确定性模型可能是合适的。
有关改进模型的信息可能无法检测到。

参考:LINK