第1章 大数据概论

1.1 大数据概念

大数据(Big Data):指无法在一定时间范围内使用常规软件工具捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

主要解决:海量数据的存储、海量数据的分析计算问题。

按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB
1Byte = 8bit
1KB = 1024Byte
1MB = 1024KB
1GB = 1024MB
1TB = 1024GB
1PB = 1024TB

1.2 大数据特点(4V)

1、 Volume(大量)

  • 根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)
  • 人类在最近两年产生的数据量相当于之前产生的全部数据量
  • 预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍

2、 Velocity(快速)

  • 从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少
  • 1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同

3、 Variety(多样)

大数据是由结构化非结构化数据组成的

  • 10%的结构化数据,存储在数据库中
  • 90%的非结构化数据,它们与人类信息密切相关

4、 Value(低价值密度)

价值密度的高低与数据总量的大小成反比,
第1章 大数据概论

1.3 大数据应用场景

  • 物流仓库:大数据分析系统助理商家精细化运营、提升销量、节约成本
  • 零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量
  • 旅游:深度结合大数据能力与旅游行业需要,共建旅游行业智慧管理、智慧服务和智慧营销的未来
  • 商品广告推荐:给用户推荐可能喜欢的商品
  • 保险:海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力
  • 金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险
    第1章 大数据概论

1.4 大数据关键技术

第1章 大数据概论
第1章 大数据概论

1.5 大数据部门业务流程分析

第1章 大数据概论

1.6 大数据部门组织结构(重点)

第1章 大数据概论