Hadoop HDFS

向右看齐 2021-10-15 22:21 315阅读 0赞

### 一、简介 ###

Hadoop Distributed File System，分布式文件系统

### 二、架构 ###

![hdfs-architecture][]

**Block数据块;**

*  基本存储单位，一般大小为64M（hadoop2中是128M,  配置大的块主要是因为：1）减少搜寻时间，一般硬盘传输速率比寻道时间要快，大的块可以减少寻道时间；2）减少管理块的数据开销，每个块都需要在NameNode上有对应的记录；3）对数据块进行读写，减少建立网络的连接成本）
 *  一个大文件会被拆分成一个个的块，然后存储于不同的机器。如果一个文件少于Block大小，那么实际占用的空间为其文件的大小
 *  基本的读写单位，类似于磁盘的页，每次都是读写一个块
 *  每个块都会被复制到多台机器，默认复制3份

**NameNode**

*  存储文件的metadata，运行时所有数据都保存到内存，整个HDFS可存储的文件数受限于NameNode的内存大小
 *  一个Block在NameNode中对应一条记录（一般一个block占用150字节），如果是大量的小文件，会消耗大量内存。同时map task的数量是由splits来决定的，所以用MapReduce处理大量的小文件时，就会产生过多的map task，线程管理开销将会增加作业时间。处理大量小文件的速度远远小于处理同等大小的大文件的速度。因此Hadoop建议存储大文件
 *  数据会定时保存到本地磁盘，但不保存block的位置信息，而是由DataNode注册时上报和运行时维护（NameNode中与DataNode相关的信息并不保存到NameNode的文件系统中，而是NameNode每次重启后，动态重建）
 *  NameNode失效则整个HDFS都失效了，所以要保证NameNode的可用性
 *  一个集群只能有一个NameNode，但是可以多个集群组成一个更大的集群，这时就有多个NameNode，这时的NameNode有两种状态，一种叫Active并且一个大集群只能有一个NameNode处于该状态，一种为Standby

**Secondary NameNode**

*  定时与NameNode进行同步（定期合并文件系统镜像和编辑日志，然后把合并后的传给NameNode，替换其镜像，并清空编辑日志，类似于CheckPoint机制），但NameNode失效后仍需要手工将其设置成主机

**DataNode**

*  保存具体的block数据
 *  负责数据的读写操作和复制操作
 *  DataNode启动时会向NameNode报告当前存储的数据块信息，后续也会定时报告修改信息
 *  DataNode之间会进行通信，复制数据块，保证数据的冗余性

### 三、写文件 ###

![aHR0cHM6Ly9hdHRzLnczY3NjaG9vbC5jbi9hdHRhY2htZW50cy9pbWFnZS93ay9oYWRvb3AvaGRmcy13cml0ZS5wbmc][]

1.客户端将文件写入本地磁盘的临时文件中

2.当临时文件大小达到一个block大小时，HDFS client通知NameNode，申请写入文件

3.NameNode在HDFS的文件系统中创建一个文件，并把该block id和要写入的DataNode的列表返回给客户端

4.客户端收到这些信息后，将临时文件写入DataNodes

*  4.1 客户端将文件内容写入第一个DataNode（一般以4kb为单位进行传输）
 *  4.2 第一个DataNode接收后，将数据写入本地磁盘，同时也传输给第二个DataNode
 *  4.3 依此类推到最后一个DataNode，数据在DataNode之间是通过pipeline的方式进行复制的
 *  4.4 后面的DataNode接收完数据后，都会发送一个确认给前一个DataNode，最终第一个DataNode返回确认给客户端
 *  4.5 当客户端接收到整个block的确认后，会向NameNode发送一个最终的确认信息
 *  4.6 如果写入某个DataNode失败，数据会继续写入其他的DataNode。然后NameNode会找另外一个好的DataNode继续复制，以保证冗余性
 *  4.7 每个block都会有一个校验码，并存放到独立的文件中，以便读的时候来验证其完整性

5.文件写完后（客户端关闭），NameNode提交文件（这时文件才可见，֘\#x5982;果提交前，NameNode垮掉，那文件也就丢失了。fsync：只保证数据的信息写到NameNode上，但并不保证数据已经被写到DataNode中）

### 四、读文件 ###

![aHR0cHM6Ly9hdHRzLnczY3NjaG9vbC5jbi9hdHRhY2htZW50cy9pbWFnZS93ay9oYWRvb3AvaGRmcy1yZWFkLnBuZw][]

1.  客户端向NameNode发送读取请求
2.  NameNode取回文件的所有block和这些block所在的DataNodes（包括复制节点）
3.  客户端直接从DataNode中读取数据，如果该DataNode读取失败（DataNode失效或校验码不对），则从复制节点中读取（如果读取的数据就在本机，则直接读取，否则通过网络读取）

### 五、可靠性 ###

1.  DataNode可以失效
    
    DataNode会定时发送心跳到NameNode。如果ղ\#x5728;一段时间内NameNode没有收到DataNode的心跳消息，则认为其失效。此时NameNode就会将该节点的数据（从该节点的复制节点中获取）复制到另外的DataNode中
2.  数据可以毁坏
    
    无论是写入时还是硬盘本身的问题，只要数据有问题（读取时通过校验码来检测），都可以通过其他的复制节点读取，同时还会再复制一份到健康的节点中
3.  NameNode不可靠

[hdfs-architecture]: /images/20211015/879efcd98e82410a9bfd2ec0b101cb77.png
[aHR0cHM6Ly9hdHRzLnczY3NjaG9vbC5jbi9hdHRhY2htZW50cy9pbWFnZS93ay9oYWRvb3AvaGRmcy13cml0ZS5wbmc]: /images/20211015/2d72282fa97a4021be95e8847c82e824.png
[aHR0cHM6Ly9hdHRzLnczY3NjaG9vbC5jbi9hdHRhY2htZW50cy9pbWFnZS93ay9oYWRvb3AvaGRmcy1yZWFkLnBuZw]: /images/20211015/fb87bc1fe7174c9187aeedd8484e157a.png

发表评论取消回复

表情：

评论列表（有 0 条评论，315人围观）

还没有评论，来说两句吧...

相关阅读

相关 Hadoop之HDFS

HDFS 块： HDFS的文件被分成块进行存储块的默认大小 64MB 块是文件存储处理的逻辑单元 NameNode是管理节点，存放文件的元数据。容错

以你之姓@/ 2022年07月13日 12:47/ 0 赞/ 147 阅读

相关 Hadoop的HDFS

大数据的特点 1.TB,PB类别的数据 2.数据是以高速增长的趋势 3.数据都是半结构化或者非结构化的数据，需要我们存储以及处理成直观的数据 H

青旅半醒/ 2022年07月12日 04:38/ 0 赞/ 129 阅读

相关 Hadoop HDFS原理

1 HDFS的运行机制 HDFS集群中的节点分为两种角色，一种角色负责管理整个集群的元数据，是名称节点（name node）；另一种角色负责存储文件数据块和管理文件数据块，是

向右看齐/ 2022年06月06日 02:21/ 0 赞/ 230 阅读

相关 Hadoop - HDFS

简介 Hadoop Distributed File System，分布式文件系统架构 ![7f6aa8d597c45642984257e7089c7077.p

「爱情、让人受尽委屈。」/ 2022年06月05日 10:46/ 0 赞/ 160 阅读

相关 hadoop-hdfs,java操作hdfs

1.创建一个maven项目引入 1.相关的pom依赖: <dependency> <gro

迷南。/ 2022年05月14日 07:20/ 0 赞/ 240 阅读

相关 hadoop-hdfs

HDFS： HDFS即Hadoop的分布式文件系统，以流式数据访问模式来存储超大文件，运行于商用硬件集群上，是管理网络中跨多台计算机存储的文件系统。 HDFS不适合用在

缺乏、安全感/ 2022年04月10日 04:38/ 0 赞/ 184 阅读

相关 Hadoop HDFS笔记

Hadoop HDFS笔记参考资料： [初步掌握HDFS的架构及原理][HDFS] [HDFS知识点总结][HDFS 1] [深入理解HDFS：Ha

Bertha 。/ 2022年03月06日 09:36/ 0 赞/ 341 阅读

相关 Hadoop HDFS 概述

HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需

客官°小女子只卖身不卖艺/ 2022年02月25日 05:18/ 0 赞/ 185 阅读

相关 Hadoop格式化hdfs

0.停止集群 ./stop-all.sh 1.删除目录格式化NameNode时，会产生新的clusterID,导致NameNode和DataNode的c

「爱情、让人受尽委屈。」/ 2021年11月10日 10:34/ 0 赞/ 266 阅读

相关 Hadoop HDFS

一、简介 Hadoop Distributed File System，分布式文件系统二、架构 ![hdfs-architecture][] Block数据块

向右看齐/ 2021年10月15日 22:21/ 0 赞/ 316 阅读