各大公司大数据面试题

系统管理员 2021-12-16 07:43 482阅读 0赞

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODIwMTkzNg_size_16_color_FFFFFF_t_70

  1. 大数据流处理技术各个的区别和联系
  2. 大数据批处理技术各个的区别和联系
  3. Hive和HBase的存储区别
  4. HDFS介绍、读写特性
  5. Elasticsearch的介绍
  6. ES和HDFS的区别
  7. HDFS HA集群搭建过吗?是个什么架构?NN只有一个吗?SNN干嘛的?能接替NN吗?
  8. 如果让你设计一个分布式文件系统,需要考虑什么?你的设计有什么好处,有什么缺陷?
  9. spark执行机制,RDD、DAG等
  10. 搜索引擎基本原理,倒排索引
  11. spark内存模型,如何解决OOM问题?如何解决SOF问题?
  12. HDFS DataNode死了怎么办,NameNode发生了什么变化?
  13. 大数据问题,10G的文件里面的数字排序
  14. HA HDFS Zookeeper什么作用,为什么要Zookeeper?
  15. Hadoop1.x和2.x之间的区别
  16. HBase架构,为什么其随机查询很快?
  17. ES如何调优?
  18. ES查询机制?
  19. 分布式系统CAP理论,重点解释分区容错性的意义
  20. HDFS读、写数据逻辑?
  21. HDFS EditLog写入了,但是NameNode元信息没保存在内存中,数据不一致怎么办?
  22. HDFS NN作用
  23. Sqoop2的实现原理和架构?如果你用MapReduce程序实现数据迁移,Map任务怎么设计,
  24. 比如给你一张表要迁移
  25. 以wordcount为例,说明MR的执行机制
  26. HBase整体架构
  27. HBase和MySQL区别,取代的可能性,场景等
  28. Hive和HBase区别,使用场景
  29. HBase架构,ZooKeeper作用
  30. HBase Region分裂,怎么分裂的,父Region是直接删掉了吗?
  31. Spark RDD的理解
  32. Spark map和flatMap区别
  33. Spark在集群中怎么执行程序的?如果有聚合操作呢?
  34. ES查询到很多数据(100万、200万),怎么返回?
  35. 数理统计与数值分析学过吗?写一下贝叶斯公式和大数定理?拿来做什么的?
  36. hadoop有哪两大服务,hdfs有哪些数据结构(?DAG懂不懂
  37. MapReduce出现数据倾斜怎么解决。给3种方法。
  38. 怎么对10亿个数字进行排序
  39. Spark的Stage是怎么划分的,如何优化。宽窄依赖。
  40. Spark的TaskScheduler是怎么分配task的,源码看过吗
  41. Spark哪些部分可以优化
  42. Hadoop生态体系,MapReduce工作流程
  43. HDFS架构
  44. HDFS的NameNode怎么知道它手下有多少DataNode的。容错机制。副本存放策略。
  45. Yarn的架构

Yarn的Resource Manager, Node Manager,AppMaster等怎么工作的,

有任务来的时候的工作流程

  1. 出现数据倾斜怎么解决。
  2. Spark的2种运行模式,standalone和cluster模式的区别,内部工作流程。
  3. Spark生态体系.和优化
  4. 如何把多个Hadoop集群连接起来
  5. RPC协议你懂对吧?你讲讲什么是RPC协议,怎么实现的?
  6. hive、hadoop、kafka、hbase(hive问了很多基础知识;hadoop搭建方式:
  7. 单机、伪分布式、完全分布式、hadoop的三大组件

发表评论

表情:
评论列表 (有 0 条评论,482人围观)

还没有评论,来说两句吧...

相关阅读