数据分析与建模挖掘- 数据获取

数据分析与建模挖掘- 数据获取

数据获取手段

  • 数据仓库

  • 检测与抓取

  • 填写 日志 埋点

  • 计算

数据仓库

  • 分析仅靠运行的数据库无法完成 数据更改 减少冗余

  • 需要把用户的操作过程如实记录 并长期保留

  • 将所有业务数据经汇总处理 构成数据仓库(DW)

    • 全部事实记录(全面 完备的 尽可能详细的)
    • 部分维度与数据的整理(数据集市 DM)(方便以不同维度抽取和整理)不可能全部抽取
  • DB VS DW

    • DB面向业务存储(高并发 提高用户体验) 仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述)
    • 举例:购书是一个主题 在何时购买的图书 谁以什么样的价格 购买了什么样的书 就是购买主题的一个记录
      记录有时间 用户 书籍各个维度信息
    • DB(OLTP应用) DW(OLAP针对分析)
    • DB组织规范 DW可能冗余 相对变化大 数据量大(每时每刻都在记录 分布式)

监测与抓取

  • 抓取:直接解析网页、接口 文件信息 整理数据 集中展示
  • 常用工具: urllib urllib2 requests scrapy PhantomJS (渲染) beautifulSoup Xpath

填写 埋点 日志

  • 用户填写信息
  • app或网页埋点(特定流程的信息记录点) :
    • 用来跟踪app使用情况 进一步进行优化管理 访问 访客 跳出率
    • two ways: 页面统计 统计操作行为 直接记录用户与互联网交互的过程 可以复现 用户使用互联网产品过程
    • 可以自己开发 也可以使用插件
  • 日志:日志更精简 出故障可以定位问题 以文件汇总 有前端日志 需要传输到后端 才能获取 后端日志

计算

  • 通过已有数据计算生成衍生数据
    比如:统计报表某些项目 不能被观测 需要计算才有意义

数据学习网站

  • kaggle
  • 天池比赛 众智
  • imagenet图片研究 Open Images
  • 各领域统计数据(统计局 *机构 *财报)