实用数据分析笔记-什么是数据

什么是数据

所有对客观事实的记录都可以称之为数据

数据分类

实用数据分析笔记-什么是数据

  • 定性数据
    • 性质
      • 不可计算的,如头发的颜色,有黑 白 黄 等
  • 定量数据
    • 性质
      • 可以计算的 如商品的销量 员工的收入等
  • 定时数据
    • 性质
      • 表示日期 时间的 数据

实用数据分析笔记-什么是数据

拿到数据之后 根据数据的类型来进行分析

  • 对数据对象的集合称为数据集 数据对象可以称为记录或者事件
  • 数据集的分类
    • 原始数据
    • 统计数据集

实用数据分析笔记-什么是数据

什么是数据的指标和质量?

  • 指标: 数据中对于事件结果的描述,也是在分析数据的时候需要关注的内容
  • 根据数据统计或数据分析得到的反应或者评价某一事件的数据

    • 指标的属性
    • 业务数学:
    • 名称 计算逻辑 描述对象 时效和查询
  • 质量:决定分析结果准确性的一个基础
  • 指标的属性
    • 业务属性 : 名称 计算逻辑 描述对象 时效 和查询权限等
    • 技术属性:系统来源 取数字段 取数频率 加工规则
  • 指标的分类
  • 按照统计方式
    • 1,基础指标:指对象的直接统计结果 未经过转化的数据 入交易笔数 交易金额 交易用户数等。
    • 2,复合指标:指建立在基础指标之上,通过一定运算规则形成的反映事件结果的数据,如合格率 完成率 利润率。

-按照描述的内容

  • 1 数量指标

  • 反映事件的规模 数量 统计结果等 入人口总数 当日销售额等

  • 质量指标:反映事件的质量 强度 经营管理的质量 经营效果等数据 如合格率 完成率 利润率。

  • 数据的质量
    - 数据分析的基础是数据,数据质量的高低直接决定了分析结果。数据质量代表数据对事实的还原程度,还原程度越高,分析结果的可靠性也越高。

  • 数据类型

    • 缺失值
      • 数据集中的某个字段或者某几个字段缺失
    • 重复值
      • 重复或者几乎重复的记录, 一个唯一的对象出现重复
    • 异常值
      • 不同于其他大部分数据对象的特征的数据,即小概率事件发生了 或者超过取值范围的异常值等
    • 准确率
      • 数据描述结果与实际情况有偏差