Hive Distinct 的实现原理

￡神魔★判官ぃ 2022-09-15 15:58 129阅读 0赞

## Hive Distinct 的实现原理 ##

select dealid, count(distinct uid) num from order group by dealid;

当只有一个distinct字段时，如果不考虑Map阶段的Hash GroupBy，只需要将GroupBy字段和Distinct字段组合为map输出key，利用mapreduce的排序，同时将GroupBy字段作 为reduce的key，在reduce阶段保存LastKey即可完成去重。

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAPOS4gOiTkeeDn-mbqOS7u-W5s-eUnz4_size_16_color_FFFFFF_t_70_g_se_x_16]  
如果有多个distinct字段呢，如下面的SQL:

select dealid, count(distinct uid), count(distinct date) from order group by dealid;

实现方式有两种：

（1）如果仍然按照上面一个distinct字段的方法，即下图这种实现方式，无法跟据uid和date分别排序，也就无法通过LastKey去重，仍然需要在reduce阶段在内存中通过Hash去重  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAPOS4gOiTkeeDn-mbqOS7u-W5s-eUnz4_size_18_color_FFFFFF_t_70_g_se_x_16]  
（2）第二种实现方式，可以对所有的distinct字段编号，每行数据生成n行数据，那么相同字段就会分别排序，这时只需要在reduce阶段记录LastKey即可去重。这种实现方式很好的利用了MapReduce的排序，节省了reduce阶段去重的内存消耗，但是缺点是增加了shuffle的数据量。需要注意的是，在生成reduce value时，除第一个distinct字段所在行需要保留value值，其余distinct数据行value字段均可为空。  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAPOS4gOiTkeeDn-mbqOS7u-W5s-eUnz4_size_20_color_FFFFFF_t_70_g_se_x_16]

--------------------

以上内容仅供参考学习，如有侵权请联系我删除！  
如果这篇文章对您有帮助，左下角的大拇指就是对博主最大的鼓励。  
您的鼓励就是博主最大的动力！

[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAPOS4gOiTkeeDn-mbqOS7u-W5s-eUnz4_size_16_color_FFFFFF_t_70_g_se_x_16]: /images/20220828/ccb71349e4194a96af356cc0795390a9.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAPOS4gOiTkeeDn-mbqOS7u-W5s-eUnz4_size_18_color_FFFFFF_t_70_g_se_x_16]: /images/20220828/c447ee4eeea24dbbbc012c06b9ad1bd6.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAPOS4gOiTkeeDn-mbqOS7u-W5s-eUnz4_size_20_color_FFFFFF_t_70_g_se_x_16]: /images/20220828/3452b8a37f81444f97b5d33ef068df5c.png