目录
- 一、linux
- 二、Hadoop:
- 三、Hdfs:
- 四、Hive:
- 五、 Flume:tail -f F 区别
- 六、kafka
- 七、Spark:
- 1.sparksql 理解
- 2.spark on yarn :
- 3.spark 内存结构
- 4.spark任务提交流程
- 5.spark如何处理小文件:
-
- 6.算子:
- 7.数仓:
- 8.实时:
- 9.任务监控
- 八、Flink:
- 九、Hbase:
- 十、cdh:
- 十一、业务:
- 1、离线数仓:
- 2、实时数仓:
- 3、checkpoint :
- 4、flink :
- 5、spark :
- 十二、 java :
- 十三、手写代码:
- 重要:
一、linux
tail -f F 区别
二、Hadoop:
读写流程、yarn、mapreduce【不会问的、shuffle】
三、Hdfs:
小文件如何解决
nn ha
yarn ha
四、Hive:
1.sql
2.调优:1.数据倾斜=》 join group by 2.使用过哪些参数
五、 Flume:tail -f F 区别
1.架构设计
2.业务场景 -架构设计 source:taildir sink:failover 、loadbanlance
3.如何解决 flume 延迟数据:
4.监控flume ganglia =》 java web接口
六、kafka
1.架构设计
2. 数据查找 log文件 、index
isr、
3.给几个分区:1. 1 2. broker台数 个数
七、Spark:
1.sparksql 理解
2.spark on yarn :
提交参数 mem core
3.spark 内存结构
4.spark任务提交流程
5.spark如何处理小文件:
(1)api
(2)sql
6.算子:
distinct =》 底层实现join 是宽还是窄的 wordcount vs scala wc
7.数仓:
理解=》 业务场景: 维度 和指标 、数仓分层、数据可视化三范式星星模型
8.实时:
offset 双流join
9.任务监控
八、Flink:
水印
双流join : api 不用sql :
状态编程
checkpoint
九、Hbase:
1.架构设计
2.读写流程
3.调优
十、cdh:
十一、业务:
1、离线数仓:
指标: 用户留存、报表有哪些 这么做的、 平台架构说出来
2、实时数仓:
业务周期性、双流join sql 、 窗口 、 水印 eventime如何使用
3、checkpoint :
4、flink :
详细回答
5、spark :
生产不用 ,为什么
十二、 java :
io
jvm
多线程不问
数据结构【跑不了】
十三、手写代码:
sql 排序: 快排、冒泡、归并
重要:
面试 =》 直接说 平台架构=》 引出 :1.擅长用的框架 hive spark flink hbase 2.业务 报表 、拿出手的东西
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!