各大公司大数据面试题
- 大数据流处理技术各个的区别和联系
- 大数据批处理技术各个的区别和联系
- Hive和HBase的存储区别
- HDFS介绍、读写特性
- Elasticsearch的介绍
- ES和HDFS的区别
- HDFS HA集群搭建过吗?是个什么架构?NN只有一个吗?SNN干嘛的?能接替NN吗?
- 如果让你设计一个分布式文件系统,需要考虑什么?你的设计有什么好处,有什么缺陷?
- spark执行机制,RDD、DAG等
- 搜索引擎基本原理,倒排索引
- spark内存模型,如何解决OOM问题?如何解决SOF问题?
- HDFS DataNode死了怎么办,NameNode发生了什么变化?
- 大数据问题,10G的文件里面的数字排序
- HA HDFS Zookeeper什么作用,为什么要Zookeeper?
- Hadoop1.x和2.x之间的区别
- HBase架构,为什么其随机查询很快?
- ES如何调优?
- ES查询机制?
- 分布式系统CAP理论,重点解释分区容错性的意义
- HDFS读、写数据逻辑?
- HDFS EditLog写入了,但是NameNode元信息没保存在内存中,数据不一致怎么办?
- HDFS NN作用
- Sqoop2的实现原理和架构?如果你用MapReduce程序实现数据迁移,Map任务怎么设计,
- 比如给你一张表要迁移
- 以wordcount为例,说明MR的执行机制
- HBase整体架构
- HBase和MySQL区别,取代的可能性,场景等
- Hive和HBase区别,使用场景
- HBase架构,ZooKeeper作用
- HBase Region分裂,怎么分裂的,父Region是直接删掉了吗?
- Spark RDD的理解
- Spark map和flatMap区别
- Spark在集群中怎么执行程序的?如果有聚合操作呢?
- ES查询到很多数据(100万、200万),怎么返回?
- 数理统计与数值分析学过吗?写一下贝叶斯公式和大数定理?拿来做什么的?
- hadoop有哪两大服务,hdfs有哪些数据结构(?DAG懂不懂
- MapReduce出现数据倾斜怎么解决。给3种方法。
- 怎么对10亿个数字进行排序
- Spark的Stage是怎么划分的,如何优化。宽窄依赖。
- Spark的TaskScheduler是怎么分配task的,源码看过吗
- Spark哪些部分可以优化
- Hadoop生态体系,MapReduce工作流程
- HDFS架构
- HDFS的NameNode怎么知道它手下有多少DataNode的。容错机制。副本存放策略。
- Yarn的架构
Yarn的Resource Manager, Node Manager,AppMaster等怎么工作的,
有任务来的时候的工作流程
- 出现数据倾斜怎么解决。
- Spark的2种运行模式,standalone和cluster模式的区别,内部工作流程。
- Spark生态体系.和优化
- 如何把多个Hadoop集群连接起来
- RPC协议你懂对吧?你讲讲什么是RPC协议,怎么实现的?
- hive、hadoop、kafka、hbase(hive问了很多基础知识;hadoop搭建方式:
- 单机、伪分布式、完全分布式、hadoop的三大组件
还没有评论,来说两句吧...