离线数仓 (十) --------- 数仓环境搭建
目录
- 一、Hive 环境搭建
- Hive 引擎简介
- Hive on Spark 配置
- Hive on Spark 测试
- 二、Yarn 配置
- 增加 ApplicationMaster 资源比例
- 三、数仓开发环境
- 启动 HiveServer2
- 配置 DataGrip 连接
- 四、数据准备
- 用户行为日志
- 业务数据
一、Hive 环境搭建
1. Hive 引擎简介
Hive 引擎包括:默认MR、tez、spark。
Hive on Spark:Hive 既作为存储元数据又负责SQL的解析优化,语法是 HQL 语法,执行引擎变成了Spark,Spark负责采用 RDD 执行。
Spark on Hive : Hive只作为存储元数据,Spark负责SQL 解析优化,语法是 Spark SQL 语法,Spark负责采用RDD执行。
2. Hive on Spark 配置
A、兼容性说明
注意:官网下载的 Hive3.1.2 和 Spark3.0.0 默认是不兼容的。因为 Hive3.1.2 支持的 Spark 版本是 2.4.5,所以需要我们重新编译 Hive3.1.2 版本。
编译步骤:官网下载 Hive3.1.2 源码,修改 pom 文件中引用的 Spark 版本为 3.0.0,如果编译通过,直接打包获取 jar 包。如果报错,就根据提示,修改相关方法,直到不报错,打包获取 jar 包。
B、在 Hive 所在节点部署 Spark
如果之前已经部署了 Spark,则该步骤可以跳过,但要检查 SPARK_HOME 的环境变量配置是否正确。
Spark官网下载 jar 包地址: http://spark.apache.org/downloads.html
上传并解压解压 spark-3.0.0-bin-hadoop3.2.tgz
[fancy@node101 software]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module/
[fancy@node101 software]$ mv /opt/module/spark-3.0.0-bin-hadoop3.2 /opt/module/spark
配置 SPARK_HOME 环境变量
[fancy@node101 software]$ sudo vim /etc/profile.d/my_env.sh
添加如下内容
# SPARK_HOME
export SPARK_HOME=/opt/module/spark
export PATH=$PATH:$SPARK_HOME/bin
source 使其生效
[fancy@node101 software]$ source /etc/profile.d/my_env.sh
C、在 hive 中创建 spark 配置文件
[fancy@node101 software]$ vim /opt/module/hive/conf/spark-defaults.conf
添加如下内容(在执行任务时,会根据如下参数执行)
spark.master yarn
spark.eventLog.enabled true
spark.eventLog.dir hdfs://node101:8020/spark-history
spark.executor.memory 1g
spark.driver.memory 1g
在HDFS创建如下路径,用于存储历史日志
[fancy@node101 software]$ hadoop fs -mkdir /spark-history
D、向 HDFS 上传 Spark 纯净版 jar 包
说明1:由于 Spark3.0.0 非纯净版默认支持的是 hive2.3.7 版本,直接使用会和安装的 Hive3.1.2 出现兼容性问题。所以采用 Spark 纯净版 jar 包,不包含 hadoop 和 hive 相关依赖,避免冲突。
说明2:Hive 任务最终由 Spark 来执行,Spark 任务资源分配由 Yarn 来调度,该任务有可能被分配到集群的任何一个节点。所以需要将 Spark 的依赖上传到 HDFS 集群路径,这样集群中任何一个节点都能获取到。
上传并解压spark-3.0.0-bin-without-hadoop.tgz
[fancy@node101 software]$ tar -zxvf /opt/software/spark-3.0.0-bin-without-hadoop.tgz
上传 Spark 纯净版 jar 包到 HDFS
[fancy@node101 software]$ hadoop fs -mkdir /spark-jars
[fancy@node101 software]$ hadoop fs -put spark-3.0.0-bin-without-hadoop/jars/* /spark-jars
E、修改 hive-site.xml 文件
[fancy@node101 ~]$ vim /opt/module/hive/conf/hive-site.xml
添加如下内容
<!--Spark依赖位置(注意:端口号8020必须和namenode的端口号一致)-->
<property>
<name>spark.yarn.jars</name>
<value>hdfs://node101:8020/spark-jars/*</value>
</property>
<!--Hive执行引擎-->
<property>
<name>hive.execution.engine</name>
<value>spark</value>
</property>
3. Hive on Spark 测试
A、启动 hive 客户端
[fancy@node101 hive]$ bin/hive
B、创建一张测试表
hive (default)> create table student(id int, name string);
C、通过insert测试效果
hive (default)> insert into table student values(1,'abc');
若结果如下,则说明配置成功
二、Yarn 配置
1. 增加 ApplicationMaster 资源比例
容量调度器对每个资源队列中同时运行的 Application Master 占用的资源进行了限制,该限制通过 yarn.scheduler.capacity.maximum-am-resource-percent 参数实现,其默认值是 0.1,表示每个资源队列上 Application Master 最多可使用的资源为该队列总资源的 10%,目的是防止大部分资源都被 Application Master 占用,而导致 Map/Reduce Task 无法执行。
生产环境该参数可使用默认值。但学习环境,集群资源总数很少,如果只分配 10% 的资源给 Application Master ,则可能出现,同一时刻只能运行一个Job 的情况,因为一个 Application Master 使用的资源就可能已经达到 10%的上限了。故此处可将该值适当调大。
A、在 node101 的 /opt/module/hadoop-3.1.3/etc/hadoop/capacity-scheduler.xml 文件中修改如下参数值
[fancy@node101 hadoop]$ vim capacity-scheduler.xml
<property>
<name>yarn.scheduler.capacity.maximum-am-resource-percent</name>
<value>0.8</value>
</property>
B、分发 capacity-scheduler.xml 配置文件
[fancy@node101 hadoop]$ xsync capacity-scheduler.xml
C、关闭正在运行的任务,重新启动 yarn 集群
[fancy@node102 hadoop-3.1.3]$ sbin/stop-yarn.sh
[fancy@node102 hadoop-3.1.3]$ sbin/start-yarn.sh
三、数仓开发环境
数仓开发工具可选用 DBeaver 或者 DataGrip。两者都需要用到 JDBC 协议连接到 Hive,故需要启动 HiveServer2。
1. 启动 HiveServer2
[fanchy@node101 hive]$ hiveserver2
2. 配置 DataGrip 连接
A、创建连接
B、配置连接属性
所有属性配置,和 Hive 的 beeline 客户端配置一致即可。初次使用,配置过程会提示缺少 JDBC 驱动,按照提示下载即可。
C、测试使用
创建数据库gmall,并观察是否创建成功。
创建数据库
查看数据库
修改连接,指明连接数据库
选择当前数据库为 gmall
四、数据准备
一般企业在搭建数仓时,业务系统中会存在一定的历史数据,此处为模拟真实场景,需准备若干历史数据。假定数仓上线的日期为 2020-06-14,具体说明如下。
1. 用户行为日志
用户行为日志,一般是没有历史数据的,故日志只需要准备 2020-06-14 一天的数据。具体操作如下:
- 启动日志采集通道,包括 Flume、Kafka 等
- 修改两个日志服务器(node101、node102) 中的/opt/module/applog/application.yml配置文件,将mock.date参数改为 2020-06-14。
- 执行日志生成脚本lg.sh。
- 观察HDFS是否出现相应文件。
2. 业务数据
业务数据一般存在历史数据,此处需准备 2020-06-10 至 2020-06-14 的数据。具体操作如下。
修改 node101 节点上的/opt/module/db_log/application.properties 文件,将mock.date、mock.clear,mock.clear.user 三个参数调整为如图所示的值。
执行模拟生成业务数据的命令,生成第一天2020-06-10的历史数据。
[fancy@node101 db_log]$ java -jar gmall2020-mock-db-2021-01-22.jar
修改 /opt/module/db_log/application.properties 文件,将 mock.date、mock.clear,mock.clear.user 三个参数调整为如图所示的值。
执行模拟生成业务数据的命令,生成第二天2020-06-11的历史数据。
[fancy@node101 db_log]$ java -jar gmall2020-mock-db-2021-01-22.jar
之后只修改 /opt/module/db_log/application.properties 文件中的 mock.date 参数,依次改为2020-06-12,2020-06-13,2020-06-14,并分别生成对应日期的数据。
执行 mysql_to_hdfs_init.sh 脚本,将模拟生成的业务数据同步到 HDFS。
[fancy@node101 bin]$ mysql_to_hdfs_init.sh all 2020-06-14
观察HDFS上是否出现相应的数据
还没有评论,来说两句吧...