网易云课堂学习-kafka streams架构
程序重启后才会从服务端拿offset,来决定从哪里消费。
客户端会维护一个partition_id和offset,以此知道下次从哪里开始拉取。
批处理计算:
会有一定的延时,只能查到昨天的数据
Spark和Flink既能做批处理,又能做流处理
pageCache:操作系统的内存
kafka写性能高的原因:1.用了pageCache 2.使用了顺序写
通过mapped memory file技术将数据写到pageCache中,达到顺序写的目的,并且将操作系统的内存应用起来。
一个Partition中有多个segment
以上的partition中有四个segment
流量激增和多网卡方案
加网卡,需要加硬件
topic本身就是高可用的。