顺丰大数据岗位相关面试题
顺丰面试题
学长1
第一面是做实时推荐同事,针对项目和知识点来问,特别喜欢问Spark,因为他用Kafka和Spark多,认真准备一下这关好过。
第二面是大数据这块的女总监,光跟你怼Spark,全是细节,细致到你传了那些参数
学长2
1)技术部分
(1)Kafka原理,数据怎么平分到消费者
(2)Flume HDFS Sink小文件处理
(3)Flink与Spark Streaming的差异,具体效果
(4)Spark背压机制具体原理实现
(5)Spark执行内存如何分配,执行任务时给多大内存
(6)SparkSQL做了哪些功能
(7)讲一下Flink
(8)状态编程有哪些应用
(9)端到端exactly-once如何保证
(10)Flink checkpoint机制
(11)Yarn调度策略
2)项目部分
(1)离线指标、数据量、用户量
(2)介绍一下实施项目,哪些指标,怎么算的
(3)SparkStreaming遇到什么问题,如何解决
(4)SparkStreaming实现什么指标,怎么算的
(5)实时当天日活怎么累加
(6)集群规模
(7)一天的指标会用SparkSQL吗
(8)Spark手动设置偏移量,如果数据处理完后,offset提交失败,造成重复计算怎么办
(9)项目中ES做了哪些工作、ES实现原理、ES倒排索引怎么生成
(10)任务调度
(11)讲一下HBase、项目中哪些地方用了HBase、HBase写入流程、不同列族之间文件怎么划分
(12)Kerberos安全认证过程
学长3
(1)问一下,数仓建模有没有更详细的文档说明?
(2)还有HBase的rowkey在生产环境下怎么设计?HBase三个原则:唯一性、长度原则、散列原则
(3)HBase表做预分区,评估半年到一年的数据量
(4)一年之内不能自动切分 (10g数据)
(5)求出分区数量
(6)最后再设计自己的分区键值 01| 02| 03|
(7)rowkey前缀(分区号) 01_ 02_ 03_
(8)后面拼接常用字段 或者 时间戳
(9)在一个分区内 先查询什么字段,就要把那个字段拼接到前面 分区号_要查询的字段_时间戳(保证唯一性)