大数据架构模式lambda和kappa的对比
一. lambda架构
如图所示,将收集到的数据通过kafka和flume等传递到计算层;
数据存储在hdfs或者redis等组件中;
计算部分分为两种,实时计算和离线计算;实时计算有storm,flink,storm streaming和flink stream;离线部分包括hive和spark sql等
数据计算完之后,存储到组件中;其它业务可以从这里拉取计算结果
优势
(1)经过多年发展,比较稳定,也有比较多的资料可以参考
(2)可以把实时计算和离线计算的高峰分开
劣势
(1)实时计算和批量计算的结果可能不一致
(2)数据仓库的典型设计,会增大存储压力
二. kappa架构
如图所示,kappa架构把实时计算和离线计算统一,核心思想就是流式处理
优点
将实时和离线统一起来,方便进行数据处理
缺点
- 计算能力弱,很难即时相应
- kappa架构过度依赖redis和hbase服务,但这两种组件并非用来满足全量数据存储设计。