Hadoop学习总结(一)之Hadoop基础知识
Hadoop基础知识
- 1.Hadoop是什么
- 2.Hadoop的发展
- 3.Hadoop组成
- 3.1 HDFS架构
- 3.2YARN架构
- 3.3MapReduce架构
- 3.4生态系统组成
1.Hadoop是什么
Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce和Google文件系统的论文自行实现而成。所有的Hadoop模块都有一个基本假设,即硬件故障是常见情况,应该由框架自动处理。广义上讲Hadoop更像是一个Hadoop生态圈。
2.Hadoop的发展
可以参靠Google在大数据方面的三篇论文,能够清楚了解其是怎样发展为现在版本。
GFS发展为HDFS,Map-Reduce发展为MapReduce,BigTable发展为HBase.
3.Hadoop组成
3.1 HDFS架构
HDFS(Hadoop Distributed File System)
- NameNode(nn):存储文件的元数据
- DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验
- Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。
3.2YARN架构
3.3MapReduce架构
MapReduce将计算过程分为两个阶段:Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总
3.4生态系统组成
下一篇:Hadoop学习总结(二)之Centos7安装Hadoop-2.9.2及相应配置
还没有评论,来说两句吧...