Flink极客训练营Day1
Flink-learning.org.cn,Flink中文学习网。
Flink的原名是Stratosphere,目标是打造大数据流批一体的平台。
Flink1.11版本的新功能:
1:非对其检查点。新功能消除对其等待时间。
2:水位线相关问题。
3:接口统一,流批统一的建设之一。
4:作业提交模式优化。
5:用于数据迁移场景较多。
6:增加对pandas的支持,提升对python对支持。
谷歌三大马车对海量数据如何处理。
Hadoop大多用于t+1的数据存储。
流批本质就是快慢、业务本质的不同。
对用户而言,流批计算是黑盒的,只要结果一致性就行。
延时问题:
更新撤回:
通过+-标记告诉下游该条数据是否撤回。
容错续跑:
带上状态。后续讲解。
透明升级:
通过sacepoint处理解决。后续讲解。
乱序问题:
正确性问题:
核心问题是:参与计算的数据是否有丢失,是否只计算了1次。
At-least-once:保证数据都参与计算了,但可能有重复计算。
Exactly-once:数据参与了并只参与了1次计算。
部署问题:
弹性扩容:
事件驱动型应用、数据分析型应用、数据管道型应用(ETL)。