实用数据分析笔记-什么是数据
什么是数据
所有对客观事实的记录都可以称之为数据
数据分类
- 定性数据
- 性质
- 不可计算的,如头发的颜色,有黑 白 黄 等
- 性质
- 定量数据
- 性质
- 可以计算的 如商品的销量 员工的收入等
- 性质
- 定时数据
- 性质
- 表示日期 时间的 数据
- 性质
拿到数据之后 根据数据的类型来进行分析
- 对数据对象的集合称为数据集 数据对象可以称为记录或者事件
- 数据集的分类
- 原始数据
- 统计数据集
什么是数据的指标和质量?
- 指标: 数据中对于事件结果的描述,也是在分析数据的时候需要关注的内容
-
根据数据统计或数据分析得到的反应或者评价某一事件的数据
- 指标的属性
- 业务数学:
- 名称 计算逻辑 描述对象 时效和查询
- 质量:决定分析结果准确性的一个基础
- 指标的属性
- 业务属性 : 名称 计算逻辑 描述对象 时效 和查询权限等
- 技术属性:系统来源 取数字段 取数频率 加工规则
- 指标的分类
- 按照统计方式
- 1,基础指标:指对象的直接统计结果 未经过转化的数据 入交易笔数 交易金额 交易用户数等。
- 2,复合指标:指建立在基础指标之上,通过一定运算规则形成的反映事件结果的数据,如合格率 完成率 利润率。
-按照描述的内容
-
1 数量指标
-
反映事件的规模 数量 统计结果等 入人口总数 当日销售额等
-
质量指标:反映事件的质量 强度 经营管理的质量 经营效果等数据 如合格率 完成率 利润率。
-
数据的质量
- 数据分析的基础是数据,数据质量的高低直接决定了分析结果。数据质量代表数据对事实的还原程度,还原程度越高,分析结果的可靠性也越高。 -
数据类型
- 缺失值
- 数据集中的某个字段或者某几个字段缺失
- 重复值
- 重复或者几乎重复的记录, 一个唯一的对象出现重复
- 异常值
- 不同于其他大部分数据对象的特征的数据,即小概率事件发生了 或者超过取值范围的异常值等
- 准确率
- 数据描述结果与实际情况有偏差
- 缺失值