【笔记】大数据技术之你需要了解的常识(一)

常识

  • 大数据、物联网、云计算是第三次浪潮的标志
  • 云计算
    • 海量数据的分布式存储和分布式处理
    • 虚拟化和多用户
    • 服务的方式提供服务,网络购买
    • 公有云、私有云、混合云
      • IaaS 基础设施即服务
      • PaaS 平台即服务
      • SaaS 软件即服务
    • 大数据继承自云计算
  • 物联网促使大数据时代到来的质变
  • 存储单位的:B KB GB TB PB EB ZB
  • 价值密度低
  • 大数据时代
    1. 全样而非抽样
    2. 效率而非精确
  • 应用
    • 投拍电视剧
    • 预测流感
  • 批处理计算
  • 流计算
  • 图计算
  • 查询分析计算
    物联网层次架构
  1. 应用层
  2. 处理层
  3. 网络层
  4. 感知层
    二维码
  5. 单元格,有信息为填色识别为1
  6. 周围三个为定位辅助功能

大数据相关技术总结

  • Spark
    • 专为大规模数据处理而设计的快速通用的计算引擎。
    • 不再需要读写HDFS
    • 启用了内存分布数据集
    • 能够提供交互式查询
  • HBase
    • 分布式(存储系统)的、面向列的开源数据库
  • Hadoop
    • 分布式系统基础架构,能够对大量数据进行分布式处理的软件框架
    • 实现了HDFS(分布式文件系统)
  • Storm
    • 分布式实时大数据处理框架
    • 流计算
  • Pregel
    • 图计算
  • Dremel
    • Dremel is a distributed system developed(分布式系统) at Google for interactively querying large datasets.
    • Dremel is the query engine used in Google’s BigQuery service.
    • Dremel is the inspiration for Apache Drill[2], Apache Impala, and Dremio, an Apache licensed platform that includes a distributed SQL execution engine.
  • MapReduce
    • 基于集群的高性能并行计算平台
    • 并行计算与运行软件框架
    • 并行程序涉及模型与方法
    • 将分布式计算抽象为Map和Reduce两个阶段的编程模型
  • Hive
    • 基于(静态批处理的)Hadoop的一个数据仓库工具
    • 底层执行使用的是MapReduce
  • S4
  • Impala
    • 快速
    • 交互性查询
  • GraphX
    • 分布式图处理框架
  • Cassandra
    • 开源分布式NoSQL数据库系统
  • Flume
    • 分布式海量日志采集、聚合和传输系统

大数据的四种主要计算模式

  • 图计算
  • 批处理计算
  • 查询分析就散
  • 框计算

大数据五大关键技术

应用

推荐系统

  • 推荐系统模型
    【笔记】大数据技术之你需要了解的常识(一)

推荐系统应用

在线购物、应用啥的

长尾理论

  • 冷门商品的总销售额可能超过热门的销售总额
  • 个性化推荐可以通过个性化推荐进行推荐销售
  • 推荐方法
    • 专家推荐
    • 统计推荐:热门排行榜
    • 基于内容推荐
    • 协同过滤推荐

协同过滤(UserCF)

  1. 基于用户

    • UserCF
      • 找到和目标用户兴趣相似的用户集合
      • 找到该集合中的用户所喜欢的、且目标用户没有听说过的物品推荐给目标用户
      • 余弦相似度计算
      • 泊松相关系数
      • 调整余弦相关系数
        【笔记】大数据技术之你需要了解的常识(一)
  2. 基于物品

    • ItemCF
      • 计算物品之间的相似度
      • 根据物品的相似度和用户的历史行为,给用户生成推荐列表
        【笔记】大数据技术之你需要了解的常识(一)