Hadoop的Archive归档命令

心已赠人 2022-03-16 15:22 230阅读 0赞

hadoop不适合小文件的存储，小文件本省就占用了很多的metadata，就会造成namenode越来越大。Hadoop Archives的出现视为了缓解大量小文件消耗namenode内存的问题。

采用ARCHIVE 不会减少 文件存储大小，只会压缩NAMENODE 的空间使用  
概述  
Hadoop存档是特殊格式的存档。Hadoop存档映射到文件系统目录。Hadoop归档文件总是带有\* .har扩展名

Hadoop存档目录包含元数据（采用\_index和\_masterindex形式）

数据部分data（part- \*）文件。

\_index文件包含归档文件的名称和部分文件中的位置。  
![在这里插入图片描述][20190228100824829.png]

如下：原始文件 四个文件  
![在这里插入图片描述][2019022810201271.png]  
经过hadoop archive之后：

执行的命令是：hadoop archive -archiveName words.har -p /words -r 1 /wordhar

生成的文件在/wordhar/words.har  
![在这里插入图片描述][20190228102037432.png]  
执行该命令后，原输入文件不会被删除，需要手动删除

hadoop fs -rmr /words

其中part-0是数据文件

在mapreduce中，会忽略以下划线开头的文件，也就是说上图的\_SUCCESS,\_index,\_masterindex是不会处理的

那么这样一来就只会处理数据文件part-0

job设置的输入路径是  
![在这里插入图片描述][20190228102103328.png]  
运行mapreduce中执行的map数量是1

分片为一个  
![在这里插入图片描述][20190228102123395.png]  
map数量为一个  
![在这里插入图片描述][20190228102148667.png]

[20190228100824829.png]: /images/20220316/46262224a6a047ddb830117cb01d03e3.png
[2019022810201271.png]: /images/20220316/ee1179da7b504f94a29abb7d5d8125fb.png
[20190228102037432.png]: /images/20220316/0e4846682cee42f6b87aaf82f6b3a196.png
[20190228102103328.png]: /images/20220316/680d4e2a5e294f72b583c22d0196f0fc.png
[20190228102123395.png]: /images/20220316/b6cfe6163e834671965037d7322b2e5e.png
[20190228102148667.png]: /images/20220316/54c1c17ec37b45619be4db783febb7ab.png

发表评论取消回复

表情：

评论列表（有 0 条评论，230人围观）

还没有评论，来说两句吧...

相关阅读

相关 MySQL数据库归档工具之【pt-archiver】

当MySQL数据库积累了大量历史数据时，有效地管理这些数据变得至关重要。为了避免影响数据库性能，并确保其顺畅运行，我们可以利用工具来对历史数据进行归档。是Percona ...

爱被打了一巴掌/ 2024年05月01日 04:28/ 0 赞/ 65 阅读

相关 MySQL使用pt-archiver归档历史数据

t-archiver可以将表按照指定条件归档到历史数据库中，也支持文件导出，对于归档清理线上历史数据非常方便。如果要归档表的数据到历史数据库的表中，需要预先在历史数...

傷城~/ 2024年04月18日 00:43/ 0 赞/ 64 阅读

相关个人博客设计之博文归档（archive）

经历一个月，终于敲完自己个人博客网站的代码了，收获挺大。这篇博文讲讲在博文归档设计方面的收获。在进行表设计的时候，自己将博文的添加时间设计为时间戳存储，这样的话在存储的时候，写

女爷i/ 2022年08月09日 16:48/ 0 赞/ 214 阅读

相关 oracle 11g Flashback Data Archive(闪回数据归档)

UNDO表空间记录的回滚信息虽然可以提供回闪查询,但时间久了,这些信息会被覆盖掉,其实只要事务一提交,他们就变成可覆盖的对象了,所以经常在做回闪查询时,我们会因为找不到undo

ゞ浴缸里的玫瑰/ 2022年06月09日 02:20/ 0 赞/ 245 阅读

相关 Hadoop Archives Guide(hdfs文件归档介绍和例子)

Hadoop Archives Guide(hdfs文件归档介绍和例子) 一、概括介绍： 1)、简介英文：Hadoop archives are special for

短命女/ 2022年06月01日 08:43/ 0 赞/ 170 阅读

相关 Oracle归档日志 ORA-00257:archiver error解决办法清理Oracle归档日志

ORA-00257:archiver error解决办法出现ORA-00257错误（空间不足错误），通过查找资料，绝大部分说这是由于归档日志太多，占用了全部的硬盘

朱雀/ 2022年05月11日 04:50/ 0 赞/ 301 阅读

相关 Hadoop的Archive归档命令

hadoop不适合小文件的存储，小文件本省就占用了很多的metadata，就会造成namenode越来越大。Hadoop Archives的出现视为了缓解大量小文件消耗name

心已赠人/ 2022年03月16日 15:22/ 0 赞/ 231 阅读

相关 Hadoop Archives Guide(hdfs文件归档介绍和例子)

Hadoop Archives Guide(hdfs文件归档介绍和例子) 一、概括介绍： 1)、简介英文：Hadoop archives are special for

分手后的思念是犯贱/ 2022年02月27日 06:46/ 0 赞/ 303 阅读

相关 Hadoop HDFS archive 存档

hdfs 存储小文件弊端每个文件均按块存储，每个块的元数据存储在 NameNode 的内存中，因此hadoop 存储小文件会非常低效。因为大量的小文件会耗尽 NameN

约定不等于承诺〃/ 2022年02月24日 08:25/ 0 赞/ 200 阅读

相关【深入学习iOS开发（五）】Archive（归档）

Archive（归档） Archives provide a means to convert objects and values into an architecture

Dear 丶/ 2022年01月05日 19:45/ 0 赞/ 249 阅读