基于Docker快速搭建多节点Hadoop集群

末蓝、 2023-02-21 14:03 78阅读 0赞

一、概述

hadoop是什么

Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。
format_png

hadoop能干什么

hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!)

hadoop的核心

1.HDFS: Hadoop Distributed File System 分布式文件系统

2.YARN: Yet Another Resource Negotiator 资源管理调度系统

3.Mapreduce:分布式运算框架

HDFS的架构

主从结构

  1. •主节点, namenode
  2. •从节点,有很多个: datanode

namenode负责:

  1. •接收用户操作请求
  2. •维护文件系统的目录结构
  3. •管理文件与block之间关系,blockdatanode之间关系

datanode负责:

  1. •存储文件
  2. •文件被分成block存储在磁盘上
  3. •为保证数据安全,文件会有多个副本

Secondary NameNode负责:

  1. 合并fsimageedits文件来更新NameNodemetedata

二、docker部署

环境说明
















操作系统 docker版本 ip地址 配置
centos 7.6 19.03.12 192.168.31.229 4核8g

拉取镜像

这里采用dockerhub现有,镜像大小为:777MB

  1. docker pull kiwenlau/hadoop-master:0.1.0

运行容器

下载源代码

  1. cd /opt/
  2. git clone https://github.com/kiwenlau/hadoop-cluster-docker

创建网桥

  1. docker network create hadoop

运行容器

  1. cd /opt/hadoop-cluster-docker/
  2. ./start-container.sh

运行结果:

  1. start master container...
  2. start slave1 container...
  3. start slave2 container...

一共开启了3个容器,1个master, 2个slave。开启容器后就进入了master容器root用户的根目录(/root)。

查看master的root用户家目录的文件:

  1. root@hadoop-master:~# ls
  2. hdfs input run-wordcount.sh start-hadoop.sh

start-hadoop.sh是开启hadoop的shell脚本,

run-wordcount.sh是运行wordcount的shell脚本,可以测试镜像是否正常工作。

开启hadoop

  1. bash start-hadoop.sh

注意:这一步会ssh连接到每一个节点,确保ssh信任是正常的。

Hadoop的启动速度取决于机器性能

运行wordcount

  1. bash run-wordcount.sh

此脚本会连接到fdfs,并生成几个测试文件。

运行结果:

  1. ...
  2. input file1.txt:
  3. Hello Hadoop
  4. input file2.txt:
  5. Hello Docker
  6. wordcount output:
  7. Docker 1
  8. Hadoop 1
  9. Hello 2

wordcount的执行速度取决于机器性能

三、配置文件说明

进入hadoop-master容器,hadoop的配置文件目录为:/usr/local/hadoop/etc/hadoop

core-site.xml

  1. <?xml version="1.0"?>
  2. <configuration>
  3. <property>
  4. <name>fs.defaultFS</name>
  5. <value>hdfs://hadoop-master:9000/</value>
  6. </property>
  7. </configuration>

hdfs-site.xml

  1. <?xml version="1.0"?>
  2. <configuration>
  3. <property>
  4. <name>fs.defaultFS</name>
  5. <value>hdfs://hadoop-master:9000/</value>
  6. </property>
  7. </configuration>
  8. root@hadoop-master:/usr/local/hadoop/etc/hadoop# pwd
  9. /usr/local/hadoop/etc/hadoop
  10. root@hadoop-master:/usr/local/hadoop/etc/hadoop# cat hdfs-site.xml
  11. <?xml version="1.0"?>
  12. <configuration>
  13. <property>
  14. <name>dfs.namenode.name.dir</name>
  15. <value>file:///root/hdfs/namenode</value>
  16. <description>NameNode directory for namespace and transaction logs storage.</description>
  17. </property>
  18. <property>
  19. <name>dfs.datanode.data.dir</name>
  20. <value>file:///root/hdfs/datanode</value>
  21. <description>DataNode directory</description>
  22. </property>
  23. <property>
  24. <name>dfs.replication</name>
  25. <value>2</value>
  26. </property>
  27. </configuration>

注意:这里是配置一个Master节点和两个Slave节点。所以dfs.replication配置为2。
dfs.namenode.name.dir和dfs.datanode.data.dir分别配置为NameNode和DataNode的目录路径

mapred-site.xml

  1. <?xml version="1.0"?>
  2. <configuration>
  3. <property>
  4. <name>mapreduce.framework.name</name>
  5. <value>yarn</value>
  6. </property>
  7. </configuration>

指定运行mapreduce的环境是yarn

hadoop-env.sh

注意:这里必须要指定java的路径。否则启动Hadoop时,提示找不到变量JAVA_HOME

  1. # The java implementation to use.
  2. export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

四、测试Hadoop

hadoop管理页面

  1. http://ip地址:8088/cluster/nodes

效果如下:

format_png 1

hdfs 管理页面

  1. http://ip地址:50070/

点击datanode,效果如下:

format_png 2

浏览文件系统

format_png 3

默认有2个文件夹,这里面的文件是看不到的。

format_png 4

由于默认开启了安全默认,默认是没有权限查看文件的。需要关闭安全模式才行!

关闭安全模式

进入hadoop-master容器,执行命令:

  1. hadoop dfsadmin -safemode leave

授权tmp文件权限

  1. hdfs dfs -chmod -R 755 /tmp

刷新页面,点击tmp

format_png 5

返回上一级目录,进入/user/root/input,就可以看到脚本创建的2个文件了!

format_png 6

注意:hdfs存放目录为:/root/hdfs。如果需要做持久化,将此目录映射出来即可!

本文参考链接:

http://dockone.io/article/395

https://blog.csdn.net/sb985/article/details/82722451

https://blog.csdn.net/gwd1154978352/article/details/81095592

发表评论

表情:
评论列表 (有 0 条评论,78人围观)

还没有评论,来说两句吧...

相关阅读

    相关 dockerhadoop

    Hadoop简介 Hadoop是一个由Apache基金会所开发的[分布式系统][Link 1]基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的