【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Pat Patterson在Spark Summit EU上的演讲,他首先介绍了数据工程中的一个难点就是数据漂流(Data Drift),以及应对数据漂流所出现的一些解决方案。之后详细介绍了开发和操作复杂数据流的开源软件StreamSets,并分享了当前在Spark上比较流行的数据通道。


【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道


【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道