统计学-Week1
目录
基本概念
1. 统计数据的类型
1.1 品质数据
分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。例如,人口按照性别分为男、女两类;为便于统计处理,对于分类数据可以用数字代码来表示各个类别,比如,用1表示“男性”,0表示“女性”
顺序数据:只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的。比如将产品分为一等品、二等品、三等品、次品等;同样,顺序数据也可以用数字代码来表示
1.2 数量数据
数值型数据(metric data)是按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数都是数值型数据。
2. 总体、样本、参数、统计量
总体:包含所研究的全部个体(数据)的集合
样本:从总体中抽取的一部分元素的集合
参数:描述总体特征的概括性的数字度量(目标值)
统计量:描述样本特征的概括性的数字度量(统计值)
3. 变量
1.3.1 分类变量、顺序变量
1.3.2 数值型变量
离散型变量:是只能取量,它只能取有限个值,而且其取值都以整位数断开,可以一一列举
连续型变量:一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举
数据的图表展示
1. 数据审核
1.1 原始数据
从完整性和准确性两个方向进行审核
完整性:检查应调查的单位或个体是否遗漏
准确性:数据是否准确,是否有异常值,如果是记录时错误,那么需要修正,如果是正确的值,则应该保留
1.2 二手数据
从适用性和时效性两个方向进行审核
适用性:弄清数据来源,数据口径以及有关背景材料,确定这些数据符合本次研究需要
时效性:如果数据时间太早,有可能就是失去了研究意义
2. 品质数据
频数:落在某一特定类别或组中的数据个数
频数分布:把各个类别以及落在其中的相应频数全部列出,并用表格形式表现出来,称为频数分布
累积频数:将个有序类别或组的频数逐级累加起来得到的频数,分为向上累积和乡下累积.通过累积频率,可以很容易的看出某一类别(数值)以下或某一类别(数值)以上的频数之和
累积频率:又称累积百分比,是将个有序类别或组的百分比逐级累加起来,也有向上累积和向下累积两种方法
3. 数量数据
数据分组:将原始数据按照某种标准分成不同的组别
单边变量值分组:每个变量值一组,适合离散变量.