Hive orc与parquet的区别 orc如何支持事物

「爱情、让人受尽委屈。」 2021-09-25 14:24 485阅读 0赞

区别：

1 orc的数据存储的文件更小。

2 orc支持事物（ACID和delete/update操作，当然还需要满足其他条件才行。）parquet不支持增删改。

\----------------------------------------------------------

因为业务要求，需要对Hive表进行delete，在官网查询后，发现update和delete是一类问题。在此总结下如何实现Hive表的delete和update。

首先，先看下官网关于[update][]和[delete][]的相关说明，使用注意事项也请参考官网说明，这里只介绍如何实现相关功能。

![20190306184645651.png][]

![20190306184731712.png][]

综合上述信息，Hive自0.14版本开始支持update和delete，要执行update和delete的表必须支持ACID，而关于ACID的详细介绍，需要查看[Hive Transactions][].

经过对[Hive Transactions][]相关内容的分析，我提取出了以下必要信息：

![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTAwMDM4MzU_size_16_color_FFFFFF_t_70][]

![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTAwMDM4MzU_size_16_color_FFFFFF_t_70 1][]

![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTAwMDM4MzU_size_16_color_FFFFFF_t_70 2][]

综合上述信息，可以得出以下结论：

如果一个表要实现update和delete功能，该表就必须支持ACID，而支持ACID，就必须满足以下条件：

1、表的存储格式必须是ORC（STORED AS ORC）；

2、表必须进行分桶（CLUSTERED BY (col\_name, col\_name, ...)  INTO num\_buckets BUCKETS）；

3、Table property中参数transactional必须设定为True（tblproperties('transactional'='true')）；

4、以下配置项必须被设定：

Client端：

1.  `hive.support.concurrency – true`
2.  `hive.enforce.bucketing – true`
3.  `hive.exec.dynamic.partition.mode – nonstrict  `
4.  `hive.txn.manager – org.apache.hadoop.hive.ql.lockmgr.DbTxnManager  `

服务端：

1.  `hive.compactor.initiator.on – true`
2.  `hive.compactor.worker.threads – 1`
3.  `hive.txn.manager – org.apache.hadoop.hive.ql.lockmgr.DbTxnManager（经过测试，服务端也需要设定该配置项）`

**注意：上述配置项必须区分Client端和服务端。**在Cloudera Manager上可以分别添加（hive—>配置—>高级），在更新部署配置信息的时候需要勾选部署客户端配置（默认是勾选的）。

--------------------

![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTAwMDM4MzU_size_16_color_FFFFFF_t_70 3][]

![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTAwMDM4MzU_size_16_color_FFFFFF_t_70 4][]

![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2xzcjQw_size_16_color_FFFFFF_t_70][]

https://blog.csdn.net/u010003835/article/details/88249027 《Hive\_Hive ORC 实现 update 与 delete》  
https://blog.csdn.net/u013332124/article/details/89644109《Hive ACID和事务表支持详解》  
https://blog.csdn.net/lsr40/article/details/107975889《【数仓】数据存储格式的选择：Parquet与ORC》  
https://blog.csdn.net/yu616568/article/details/50993491

[update]: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Update
[delete]: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Delete
[20190306184645651.png]: /images/20210923/36348adc992a430e89bd34a64be96489.png
[20190306184731712.png]: /images/20210923/bc9db20273d94fd49ee0d854399c366f.png
[Hive Transactions]: https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTAwMDM4MzU_size_16_color_FFFFFF_t_70]: /images/20210923/b5c7d33cadb7425b8064e078553b2604.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTAwMDM4MzU_size_16_color_FFFFFF_t_70 1]: /images/20210923/ef0237ed632d4cf489a0fa09f34ad1b5.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTAwMDM4MzU_size_16_color_FFFFFF_t_70 2]: /images/20210923/54fba36b9f3944729630923d21e538dc.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTAwMDM4MzU_size_16_color_FFFFFF_t_70 3]: /images/20210923/00be38ec777144f0b5f69c88b52c0763.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTAwMDM4MzU_size_16_color_FFFFFF_t_70 4]: /images/20210923/ea9e3a8ea8c7437c89885293ff88a729.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2xzcjQw_size_16_color_FFFFFF_t_70]: /images/20210923/3bcedb316465476ca1d7a629dc4bd694.png