hadoop集群环境搭建

1、环境准备

192.168.33.138 master

192.168.33.139 slave1

192.168.33.140 slave2

2、更改主机名称

vi /etc/sysconfig/network

NETWORKING=yes
HOSTNAME=master

3、修改host文件

vi /etc/hosts

192.168.33.138 master
192.168.33.139 slave1
192.168.33.140 slave2

检查是否能ping通

4、配置ssh免密码登录

在root用户下输入ssh-keygen -t rsa 一路回车

秘钥生成后在~/.ssh/目录下，有两个文件id_rsa(私钥)和id_rsa.pub（公钥），将公钥复制到authorized_keys并赋予authorized_keys600权限

cd ~/.ssh/

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

chmod 600 ~/.ssh/authorized_keys

cat authorized_keys

将master节点上的authoized_keys远程传输到slave1和slave2的~/.ssh/目录下

scp ~/.ssh/authorized_keys root@slave1:~/.ssh/

scp ~/.ssh/authorized_keys root@slave2:~/.ssh/

在slave1和slave2节点执行以上步骤生成秘钥，然后将id_rsa.pub文件中的秘钥复制到master节点上的authoized_keys文件中

检查是否免密登录（第一次登录会有提示）

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4MjcwMTA2_size_16_color_FFFFFF_t_70

5、安装JDK

参考： https://blog.csdn.net/qq_38270106/article/details/83048876

6、安装MySQL（master节点）

参考：https://blog.csdn.net/qq_38270106/article/details/84780576

7、集群结构

新建hadoop用户及其用户组

groupadd hadoop

useradd -g hadoop hadoop

passwd hadoop

赋予hadoop用户root权限

vi /etc/sudoers

hadoop ALL-(ALL) ALL

8、安装hadoop并配置环境变量

由于hadoop集群需要在每一个节点上进行相同的配置，因此先在master节点上配置，然后再复制到其他节点上即可。

将hadoop包放在/usr/local目录下并解压

配置环境变量

vi /etc/profile

export HADOOP_HOME=/usr/local/hadoop-3.2.0

9、配置hadoop文件

cd /usr/local/hadoop-2.7.3

在master节点上创建以下文件夹

mkdir hdfs

mkdir hdfs/tmp

mkdir hdfs/name

mkdir hdfs/data

接下来配置/usr/hadoop-2.6.5/etc//hadoop/目录下的七个文件
hadoop-env.sh yarn-env.sh slaves core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml

cd /usr/local/hadoop-2.7.3/etc/hadoop/

1、配置hadoop-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_191

2、配置yarn-env.sh

JAVA_HOME=/usr/local/jdk1.8.0_191

3、配置slaves文件，删除localhost

把原本的localhost删掉，加上salve1，slave2

4、配置core-site.xml

在中加入以下代码：

hadoop.tmp.dir
file:/usr/local/hadoop-2.7.3/hdfs/tmp
A base for other temporary directories.

io.file.buffer.size
131072

fs.defaultFS
hdfs://master:9000

5、配置hdfs-site.xml

在中加入以下代码

dfs.replication
2

dfs.namenode.name.dir
file:/usr/local/hadoop-2.7.3/hdfs/name
true

dfs.datanode.data.dir
file:/usr/local/hadoop-2.7.3/hdfs/data
true

dfs.namenode.secondary.http-address
master:9001

dfs.webhdfs.enabled
true

dfs.permissions
false

注意：其中第二个dfs.namenode.name.dir和dfs.datanode.data.dir的value和之前创建的/hdfs/name和/hdfs/data路径一致；因为这里只有2个从主机，所以dfs.replication设置为2)

6、配置 mapred-site.xml,在标签中添加以下代码

mapreduce.framework.name
yarn

7、配置yarn-site.xml

在标签中添加以下代码

yarn.resourcemanager.address
master:18040

yarn.resourcemanager.scheduler.address
master:18030

yarn.resourcemanager.webapp.address
master:18088

yarn.resourcemanager.resource-tracker.address
master:18025

yarn.resourcemanager.admin.address
master:18141

yarn.nodemanager.aux-services
mapreduce_shuffle

yarn.nodemanager.auxservices.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler