离线数仓 (十) --------- 数仓环境搭建

梦里梦外; 2024-04-01 11:09 149阅读 0赞

目录

  • 一、Hive 环境搭建
      1. Hive 引擎简介
      1. Hive on Spark 配置
      1. Hive on Spark 测试
  • 二、Yarn 配置
      1. 增加 ApplicationMaster 资源比例
  • 三、数仓开发环境
      1. 启动 HiveServer2
      1. 配置 DataGrip 连接
  • 四、数据准备
      1. 用户行为日志
      1. 业务数据

一、Hive 环境搭建

1. Hive 引擎简介

Hive 引擎包括:默认MR、tez、spark。

Hive on Spark:Hive 既作为存储元数据又负责SQL的解析优化,语法是 HQL 语法,执行引擎变成了Spark,Spark负责采用 RDD 执行。

Spark on Hive : Hive只作为存储元数据,Spark负责SQL 解析优化,语法是 Spark SQL 语法,Spark负责采用RDD执行。

2. Hive on Spark 配置

A、兼容性说明

注意:官网下载的 Hive3.1.2 和 Spark3.0.0 默认是不兼容的。因为 Hive3.1.2 支持的 Spark 版本是 2.4.5,所以需要我们重新编译 Hive3.1.2 版本。

编译步骤:官网下载 Hive3.1.2 源码,修改 pom 文件中引用的 Spark 版本为 3.0.0,如果编译通过,直接打包获取 jar 包。如果报错,就根据提示,修改相关方法,直到不报错,打包获取 jar 包。

B、在 Hive 所在节点部署 Spark

如果之前已经部署了 Spark,则该步骤可以跳过,但要检查 SPARK_HOME 的环境变量配置是否正确。

Spark官网下载 jar 包地址: http://spark.apache.org/downloads.html

上传并解压解压 spark-3.0.0-bin-hadoop3.2.tgz

  1. [fancy@node101 software]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module/
  2. [fancy@node101 software]$ mv /opt/module/spark-3.0.0-bin-hadoop3.2 /opt/module/spark

配置 SPARK_HOME 环境变量

  1. [fancy@node101 software]$ sudo vim /etc/profile.d/my_env.sh

添加如下内容

  1. # SPARK_HOME
  2. export SPARK_HOME=/opt/module/spark
  3. export PATH=$PATH:$SPARK_HOME/bin
  4. source 使其生效
  5. [fancy@node101 software]$ source /etc/profile.d/my_env.sh

C、在 hive 中创建 spark 配置文件

  1. [fancy@node101 software]$ vim /opt/module/hive/conf/spark-defaults.conf

添加如下内容(在执行任务时,会根据如下参数执行)

  1. spark.master yarn
  2. spark.eventLog.enabled true
  3. spark.eventLog.dir hdfs://node101:8020/spark-history
  4. spark.executor.memory 1g
  5. spark.driver.memory 1g

在HDFS创建如下路径,用于存储历史日志

  1. [fancy@node101 software]$ hadoop fs -mkdir /spark-history

D、向 HDFS 上传 Spark 纯净版 jar 包

说明1:由于 Spark3.0.0 非纯净版默认支持的是 hive2.3.7 版本,直接使用会和安装的 Hive3.1.2 出现兼容性问题。所以采用 Spark 纯净版 jar 包,不包含 hadoop 和 hive 相关依赖,避免冲突。

说明2:Hive 任务最终由 Spark 来执行,Spark 任务资源分配由 Yarn 来调度,该任务有可能被分配到集群的任何一个节点。所以需要将 Spark 的依赖上传到 HDFS 集群路径,这样集群中任何一个节点都能获取到。

上传并解压spark-3.0.0-bin-without-hadoop.tgz

  1. [fancy@node101 software]$ tar -zxvf /opt/software/spark-3.0.0-bin-without-hadoop.tgz

上传 Spark 纯净版 jar 包到 HDFS

  1. [fancy@node101 software]$ hadoop fs -mkdir /spark-jars
  2. [fancy@node101 software]$ hadoop fs -put spark-3.0.0-bin-without-hadoop/jars/* /spark-jars

E、修改 hive-site.xml 文件

  1. [fancy@node101 ~]$ vim /opt/module/hive/conf/hive-site.xml

添加如下内容

  1. <!--Spark依赖位置(注意:端口号8020必须和namenode的端口号一致)-->
  2. <property>
  3. <name>spark.yarn.jars</name>
  4. <value>hdfs://node101:8020/spark-jars/*</value>
  5. </property>
  6. <!--Hive执行引擎-->
  7. <property>
  8. <name>hive.execution.engine</name>
  9. <value>spark</value>
  10. </property>

3. Hive on Spark 测试

A、启动 hive 客户端

  1. [fancy@node101 hive]$ bin/hive

B、创建一张测试表

  1. hive (default)> create table student(id int, name string);

C、通过insert测试效果

  1. hive (default)> insert into table student values(1,'abc');

若结果如下,则说明配置成功

在这里插入图片描述

二、Yarn 配置

1. 增加 ApplicationMaster 资源比例

容量调度器对每个资源队列中同时运行的 Application Master 占用的资源进行了限制,该限制通过 yarn.scheduler.capacity.maximum-am-resource-percent 参数实现,其默认值是 0.1,表示每个资源队列上 Application Master 最多可使用的资源为该队列总资源的 10%,目的是防止大部分资源都被 Application Master 占用,而导致 Map/Reduce Task 无法执行。

生产环境该参数可使用默认值。但学习环境,集群资源总数很少,如果只分配 10% 的资源给 Application Master ,则可能出现,同一时刻只能运行一个Job 的情况,因为一个 Application Master 使用的资源就可能已经达到 10%的上限了。故此处可将该值适当调大。

A、在 node101 的 /opt/module/hadoop-3.1.3/etc/hadoop/capacity-scheduler.xml 文件中修改如下参数值

  1. [fancy@node101 hadoop]$ vim capacity-scheduler.xml
  2. <property>
  3. <name>yarn.scheduler.capacity.maximum-am-resource-percent</name>
  4. <value>0.8</value>
  5. </property>

B、分发 capacity-scheduler.xml 配置文件

  1. [fancy@node101 hadoop]$ xsync capacity-scheduler.xml

C、关闭正在运行的任务,重新启动 yarn 集群

  1. [fancy@node102 hadoop-3.1.3]$ sbin/stop-yarn.sh
  2. [fancy@node102 hadoop-3.1.3]$ sbin/start-yarn.sh

三、数仓开发环境

数仓开发工具可选用 DBeaver 或者 DataGrip。两者都需要用到 JDBC 协议连接到 Hive,故需要启动 HiveServer2。

1. 启动 HiveServer2

  1. [fanchy@node101 hive]$ hiveserver2

2. 配置 DataGrip 连接

A、创建连接

在这里插入图片描述

B、配置连接属性

所有属性配置,和 Hive 的 beeline 客户端配置一致即可。初次使用,配置过程会提示缺少 JDBC 驱动,按照提示下载即可。

在这里插入图片描述

C、测试使用

创建数据库gmall,并观察是否创建成功。

创建数据库

在这里插入图片描述
查看数据库

在这里插入图片描述
修改连接,指明连接数据库

在这里插入图片描述
选择当前数据库为 gmall

在这里插入图片描述

四、数据准备

一般企业在搭建数仓时,业务系统中会存在一定的历史数据,此处为模拟真实场景,需准备若干历史数据。假定数仓上线的日期为 2020-06-14,具体说明如下。

1. 用户行为日志

用户行为日志,一般是没有历史数据的,故日志只需要准备 2020-06-14 一天的数据。具体操作如下:

  • 启动日志采集通道,包括 Flume、Kafka 等
  • 修改两个日志服务器(node101、node102) 中的/opt/module/applog/application.yml配置文件,将mock.date参数改为 2020-06-14。
  • 执行日志生成脚本lg.sh。
  • 观察HDFS是否出现相应文件。

在这里插入图片描述

2. 业务数据

业务数据一般存在历史数据,此处需准备 2020-06-10 至 2020-06-14 的数据。具体操作如下。

修改 node101 节点上的/opt/module/db_log/application.properties 文件,将mock.date、mock.clear,mock.clear.user 三个参数调整为如图所示的值。

在这里插入图片描述

执行模拟生成业务数据的命令,生成第一天2020-06-10的历史数据。

  1. [fancy@node101 db_log]$ java -jar gmall2020-mock-db-2021-01-22.jar

修改 /opt/module/db_log/application.properties 文件,将 mock.date、mock.clear,mock.clear.user 三个参数调整为如图所示的值。

在这里插入图片描述

执行模拟生成业务数据的命令,生成第二天2020-06-11的历史数据。

  1. [fancy@node101 db_log]$ java -jar gmall2020-mock-db-2021-01-22.jar

之后只修改 /opt/module/db_log/application.properties 文件中的 mock.date 参数,依次改为2020-06-12,2020-06-13,2020-06-14,并分别生成对应日期的数据。

执行 mysql_to_hdfs_init.sh 脚本,将模拟生成的业务数据同步到 HDFS。

  1. [fancy@node101 bin]$ mysql_to_hdfs_init.sh all 2020-06-14

观察HDFS上是否出现相应的数据

发表评论

表情:
评论列表 (有 0 条评论,149人围观)

还没有评论,来说两句吧...

相关阅读