hive 学习系列六 hive 去重办法的思考

缺乏、安全感 2022-05-11 00:00 440阅读 0赞

### 方法1，建立临时表，利用hive的collect\_set 进行去重。 ###

create table if not exists tubutest (
        name1 string,
        name2 string
    )
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    STORED AS TEXTFILE;
    
    
    select * from ods.wdtest;
    1	1
    1	1
    1	2
    1	2
    1	3
    2	3
    2	3
    2	4
    
    
    select name1,collect_set(name2) from tubutest group by name1;  
    name1	_c1
    1	["2","3"]
    2	["2","4"]
    
    create view ods.wdtestView as
    select name1,collect_set(name2) as name2 from ods.wdtest  group by name1;
    
    select * from ods.wdtestview;
    name1	name2
    1	["2","3"]
    2	["2","4"]
    
    select name1, name2 from tubuview  LATERAL VIEW explode(name2) tubuview as name2;
    
    A，collect_set 完成把多行转化成一行的功能。 
    B，explode 完成把一行转化成多列的功能。 而 lateral view 主要是辅助 explode 进行使用，来完成类似去重的功能。

### 2，方法2， 利用row\_number 去重 ###

比如，我有一大堆的表格，  
![1448990-20180814110103789-1275466710.png][]  
![1448990-20180814110127683-820837385.png][]  
表格内容大多类似，只是有些许差别。  
现在的需求是把我要统计所有的表格中，都有哪些字段，也就是把所有的表格整合成一张大表  
则可以利用row\_number 进行去重

最终的表格如下：  
![1448990-20180814110304788-1177492984.png][]  
![1448990-20180814110354323-1697977111.png][]

需要进行去重，  
则可以利用row\_number 进行去重（去虫），方法如下

SELECT 
        name,
        type_name,
        comment_deatail
    from 
        (SELECT 
        name,type_name,comment_deatail,
        row_number() OVER(PARTITION BY name ORDER BY type_name) as row_count
         from demo) t
    where row_count=1;

[1448990-20180814110103789-1275466710.png]: /images/20220511/4cac57c7a9364f579d6f40ea88159da6.png
[1448990-20180814110127683-820837385.png]: /images/20220511/dbddf061d45440da834015d1f2041cdf.png
[1448990-20180814110304788-1177492984.png]: /images/20220511/80d3a717c0194f30902a5a852b94656c.png
[1448990-20180814110354323-1697977111.png]: /images/20220511/b7e7b68acd9945d1813199f2e603af8f.png