提升hive效率的最佳实践
表相关
存储格式:
避免使用text,JSON,有可能的haul也应避免sequence文件;
理想的格式是RCFile (Row Columnar File)
压缩:
block compression 比 value compression更高效,最终结果及中间结果都应压缩,
set hive.exec.compress.output=true;set hive.exec.compress.intermediate=true;
数据本地化存储格式:
最好使用HDFS
大表进行分区:
数据是按时间序列积累的,或者每次查询只需查询部分数据不必对所有数据进行查询时,可对大表记性分区,如
year/month/day或者continent/country/region/city,如此进行查询时会跳过不相关数据。
查询:
避免使用order by 排序:
将排序操作放在reduce操作中
参考:Best Practices for Hive Efficiency
还没有评论,来说两句吧...