数仓工具—Hive优化

淡淡的烟草味﹌ 2022-12-28 09:01 300阅读 0赞

数据过滤

行过滤

行处理：在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤，

列过滤

列处理：在SELECT中，只拿需要的列，如果有，**尽量使用分区过滤，少用SELECT ***。

map 个数

input目录的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；

如果一个任务有很多小文件（远远小于块大小128m），则每个小文件也会被当做一个块，用一个map任务来完成，而一个map任务启动和初始化的时间远远大于逻辑处理的时间，就会造成很大的资源浪费。而且，同时可执行的map数是受限的

是不是保证每个map处理接近128m的文件块，就高枕无忧了，答案也是不一定。比如有一个127m的文件，正常会用一个map去完成，但这个文件只有一个或者两个小字段，却有几千万的记录，如果map处理的逻辑比较复杂，用一个map任务去做，肯定也比较耗时

map 个数计算公式

在 MapReduce 的编程案例中，我们得知，一个MR Job的 MapTask 数量是由输入分片 InputSplit 决定的。而输入分片是由 FileInputFormat.getSp

发表评论取消回复

表情：

评论列表（有 0 条评论，300人围观）

还没有评论，来说两句吧...

相关阅读

相关数仓工具—Hive执行引擎(18)

Hive 执行引擎前面我们已经搭建起了Hive 的基础环境，每次当你使用客户端的时候，你就会看到这样的一串日志,提示我们不要再使用MR 去执行hive sql 了

朴灿烈づ我的快乐病毒、/ 2022年12月31日 01:30/ 0 赞/ 193 阅读

相关数仓工具—Hive架构服务(16)

Hive 服务详解前面我们学习[数仓工具—Hive的架构设计][Hive] 的时候学到了很多概念，像元数据服务什么的，其实架构设计里的每一项都对应的是一种服务或者是一个

桃扇骨/ 2022年12月31日 01:16/ 0 赞/ 214 阅读

相关数仓工具—Hive函数大全(12)

常见函数很多时候，我们需要对表中的数据进行处理或者是想要完成某一逻辑的时候，单纯的借助关键字组合起来的SQL语句可能不能完成我们的需求，这个时候我们就需要特定的函数来帮

缺乏、安全感/ 2022年12月30日 15:51/ 0 赞/ 222 阅读

相关数仓工具—Hive关键字(11)

Ｈive中的关键字关键字是任何一门语言中都要的一些字符，这些字符都有特殊的含义，一般情况下用户不能直接使用的，因为编译器对关键字是有特殊处理的。 Hive有一些保留的

￡神魔★判官ぃ/ 2022年12月30日 14:52/ 0 赞/ 323 阅读

相关数仓工具—Hive streaming(10)

streaming HIVE是通过利用或扩展Hadoop的组件功能来运行的，常见的抽象有InputFormat、OutputFormat、Mapper、Reducer，还

亦凉/ 2022年12月30日 14:51/ 0 赞/ 230 阅读

相关数仓工具—Hive命令行(7)

Hive 命令行 hive 命令行是hive 提供的一个交互式终端，其实就是一个shell 脚本，主要用来做交互式查询但是自从Hive 0.11引入了HiveSer

「爱情、让人受尽委屈。」/ 2022年12月30日 03:44/ 0 赞/ 228 阅读

相关数仓工具—Hive动态分区(6)

动态分区前面我们学习了Hive 的分区分桶表，我们讲到了分区表中的分区字段可以是我们指定的字段——静态分区，也可以是数据表中的某些字段，这个怎么理解呢，例如我们有一个网

野性酷女/ 2022年12月30日 03:37/ 0 赞/ 244 阅读

相关数仓工具—Hive初识(1)

Hive 是什么 Hive 的定义那么，到底什么是Hive，我们先看看Hive官网Wiki是如何介绍[Hive][]的 Apache Hive是基于Hadoop

我不是女神ヾ/ 2022年12月29日 06:38/ 0 赞/ 281 阅读

相关数仓工具—Hive优化

数据过滤行过滤行处理：在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤，列过滤列处理

淡淡的烟草味﹌/ 2022年12月28日 09:01/ 0 赞/ 301 阅读

相关数仓工具—Hive Beeline(21)

Beeline 前面我们介绍过hive 的命令行，其实就是hive 的老版命令行,你可以参考[Hive命令行][Hive],今天我们介绍一下hive 新的命令行beeli

末蓝、/ 2022年08月30日 00:53/ 0 赞/ 298 阅读