统计思维（实例6）——术语整理

数据清洗（data cleaning）
数据处理过程，包括数据验证、错误检查，以及数据类型和表示的转换等。
分布（distribution）
样本中的值以及每个值出现的频数。
频数（frequency）
一个值在样本中出现的次数。
尾部（tail）
一个分布中最高端和最低端的部分。
离群值（outlier）
远离集中趋势的值。
展布（spread）
对值在分布中扩展规模的度量。
概率质量函数（probability mass function，PMF）
将概率分布表示为从值到概率的映射。
百分位秩（percentile rank）
一个分布中小于或等于给定值的百分比。
累积分布函数（cumulative distribution function，CDF）
将值映射到累积概率的函数，CDF(x)是样本中小于或等于x的值所占的比例。
CDF反函数（inverse CDF）
从累积概率p映射到对应值的函数。
分位数（quantile）
对应于等距百分位秩的一列值。
CDF补函数（complementary CDF）
将值x映射到超过x的值所占的比例，即1-CDF(x)
概率密度函数（probability density function，PDF）
连续CDF的导数，这个函数将值映射到其概率密度。
概率密度（probability density）
一个数值，可以在一个取值范围上进行积分得到一个概率。
核密度估计（kernel density estimation，KDE）
基于一个样本对PDF进行估计的算法。
偏度（skewness）
度量分布的对称性。
抖动（jitter）
为了可视化而在数据中加入的随机噪音。
标准化（standardize）
将一组值进行转换，使其均值为0，方差为1。
标准分数（standard score）
一个标准化的值，表示为距离均值的标准差数。
协方差（covariance）
对两个变量共同变化趋势的度量。
秩（rank）
一个元素出现在排序列表中的索引。

参考文献：

统计思维. Allen B.Downey. 金迎译

统计思维（实例6）——术语整理

相关推荐