统计思维(实例6)——术语整理
- 数据清洗(data cleaning)
数据处理过程,包括数据验证、错误检查,以及数据类型和表示的转换等。 - 分布(distribution)
样本中的值以及每个值出现的频数。 - 频数(frequency)
一个值在样本中出现的次数。 - 尾部(tail)
一个分布中最高端和最低端的部分。 - 离群值(outlier)
远离集中趋势的值。 - 展布(spread)
对值在分布中扩展规模的度量。 - 概率质量函数(probability mass function,PMF)
将概率分布表示为从值到概率的映射。 - 百分位秩(percentile rank)
一个分布中小于或等于给定值的百分比。 - 累积分布函数(cumulative distribution function,CDF)
将值映射到累积概率的函数,CDF(x)是样本中小于或等于x的值所占的比例。 - CDF反函数(inverse CDF)
从累积概率p映射到对应值的函数。 - 分位数(quantile)
对应于等距百分位秩的一列值。 - CDF补函数(complementary CDF)
将值x映射到超过x的值所占的比例,即1-CDF(x) - 概率密度函数(probability density function,PDF)
连续CDF的导数,这个函数将值映射到其概率密度。 - 概率密度(probability density)
一个数值,可以在一个取值范围上进行积分得到一个概率。 - 核密度估计(kernel density estimation,KDE)
基于一个样本对PDF进行估计的算法。 - 偏度(skewness)
度量分布的对称性。 - 抖动(jitter)
为了可视化而在数据中加入的随机噪音。 - 标准化(standardize)
将一组值进行转换,使其均值为0,方差为1。 - 标准分数(standard score)
一个标准化的值,表示为距离均值的标准差数。 - 协方差(covariance)
对两个变量共同变化趋势的度量。 - 秩(rank)
一个元素出现在排序列表中的索引。
参考文献:
统计思维. Allen B.Downey. 金迎 译