大数据面试技术点

目录

  • 一、linux
  • 二、Hadoop:
  • 三、Hdfs:
  • 四、Hive:
  • 五、 Flume:tail -f F 区别
  • 六、kafka
  • 七、Spark:
    • 1.sparksql 理解
    • 2.spark on yarn :
    • 3.spark 内存结构
    • 4.spark任务提交流程
    • 5.spark如何处理小文件:
      • (1)api
      • (2)sql
    • 6.算子:
    • 7.数仓:
    • 8.实时:
    • 9.任务监控
  • 八、Flink:
  • 九、Hbase:
  • 十、cdh:
  • 十一、业务:
    • 1、离线数仓:
    • 2、实时数仓:
    • 3、checkpoint :
    • 4、flink :
    • 5、spark :
  • 十二、 java :
  • 十三、手写代码:
  • 重要:

一、linux

tail -f F  区别

二、Hadoop:

读写流程、yarn、mapreduce【不会问的、shuffle】

三、Hdfs:

小文件如何解决
nn ha 
yarn ha

四、Hive:

1.sql 
2.调优:1.数据倾斜=》 join group by 2.使用过哪些参数

五、 Flume:tail -f F 区别

1.架构设计 
2.业务场景 -架构设计 source:taildir sink:failover 、loadbanlance
3.如何解决 flume 延迟数据:
4.监控flume ganglia =》 java web接口 

六、kafka

1.架构设计
2. 数据查找 log文件 、index
isr、
3.给几个分区:1. 1 2. broker台数 个数

七、Spark:

1.sparksql 理解

2.spark on yarn :

	提交参数 mem core 

3.spark 内存结构

4.spark任务提交流程

5.spark如何处理小文件:

(1)api

(2)sql

6.算子:

	distinct =》 底层实现join 是宽还是窄的 wordcount vs scala wc 

7.数仓:

	理解=》 业务场景: 维度 和指标 、数仓分层、数据可视化三范式星星模型

8.实时:

	offset 双流join 

9.任务监控

八、Flink:

水印
双流join : api 不用sql : 
状态编程
checkpoint 

九、Hbase:

1.架构设计 
2.读写流程 
3.调优

十、cdh:

十一、业务:

1、离线数仓:

	指标: 用户留存、报表有哪些 这么做的、 平台架构说出来

2、实时数仓:

	业务周期性、双流join sql 、 窗口 、 水印 eventime如何使用 

3、checkpoint :

4、flink :

	详细回答

5、spark :

	生产不用 ,为什么

十二、 java :

io 
jvm 
多线程不问
数据结构【跑不了】

十三、手写代码:

	sql 排序: 快排、冒泡、归并

重要:

面试 =》 直接说 平台架构=》 引出 :1.擅长用的框架 hive spark flink hbase 2.业务 报表 、拿出手的东西


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部