Flink极客训练营Day1

Flink-learning.org.cn,Flink中文学习网。

Flink的原名是Stratosphere,目标是打造大数据流批一体的平台。

Flink1.11版本的新功能:

Flink极客训练营Day1

1:非对其检查点。新功能消除对其等待时间。

2:水位线相关问题。

3:接口统一,流批统一的建设之一。

4:作业提交模式优化。

5:用于数据迁移场景较多。

6:增加对pandas的支持,提升对python对支持。

Flink极客训练营Day1

谷歌三大马车对海量数据如何处理。

Hadoop大多用于t+1的数据存储。

流批本质就是快慢、业务本质的不同。

对用户而言,流批计算是黑盒的,只要结果一致性就行。

Flink极客训练营Day1

延时问题:

Flink极客训练营Day1

更新撤回:

Flink极客训练营Day1

通过+-标记告诉下游该条数据是否撤回。

容错续跑:

Flink极客训练营Day1

带上状态。后续讲解。

透明升级:

Flink极客训练营Day1

通过sacepoint处理解决。后续讲解。

乱序问题:

Flink极客训练营Day1

Flink极客训练营Day1

Flink极客训练营Day1

正确性问题:

Flink极客训练营Day1

核心问题是:参与计算的数据是否有丢失,是否只计算了1次。

At-least-once:保证数据都参与计算了,但可能有重复计算。

Exactly-once:数据参与了并只参与了1次计算。

部署问题:

弹性扩容:

Flink极客训练营Day1

事件驱动型应用、数据分析型应用、数据管道型应用(ETL)。

Flink极客训练营Day1

 

Flink极客训练营Day1

Flink极客训练营Day1

Flink极客训练营Day1