Hive个人心得笔记 末蓝、 2021-12-14 08:49 625阅读 0赞 # Hive个人心得笔记 # # 一、Hadoop开发存在的问题 # 1. 只能用java语言开发,如果是c语言或其他语言的程序员用Hadoop,存在语言门槛 2. 需要对Hadoop底层原理,api比较了解才能做开发 3. 开发调试比较麻烦 # 二、Hive概述 # 1. Hive是基于Hadoop的一个**数据仓库工具**。可以将结构化的数据文件映射为一张表,并提供完整的sql查询功能 2. 底层是将sql语句转换为MapReduce任务进行运行 3. Hive提供了一系列的工具,可以用来进行**数据提取、转化、加载(ETL** **Extract-Transform-Load )**,这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制 4. 本质上是一种**大数据离线分析**工具 # 三、Hive的HQL # 1. HQL - Hive通过类SQL的语法,来进行分布式的计算 2. HQL用起来和SQL非常的类似,Hive在执行的过程中会将HQL转换为MapReduce去执行,所以Hive其实是基于Hadoop的一种分布式计算框架,底层仍然是MapReduce # 四、特点 # 1. 优点: 1. 学习成本低,只要会sql就能用hive 2. 开发效率高,不需要编程,只需要写sql 3. 模型简单,易于理解 4. 针对海量数据的高性能查询和分析 5. HiveQL 灵活的可扩展性(Extendibility) 6. 高扩展性(Scalability)和容错性 7. 与 Hadoop 其他产品完全兼容 2. 缺点: 1. 不支持行级别的增删改 2. 不支持完整的在线事务处理 3. 本质上仍然是MR的执行,效率不算高 # 五、适用场景 # 1. Hive 构建在基于静态(离线)批处理的Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,Hive 并不能够在大规模数据集上实现低延迟快速的查询因此,Hive 并不适合那些需要低延迟的应用 2. Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的离线批处理作业,例如,网络日志分析。
相关 Nginx个人心得笔记 一.Nginx简介 目录 一.Nginx简介 1.nginx能干什么 2.nginx特点 二.Nginx能做什么有什么优势 二.项目部署 解压就可以用 妖狐艹你老母/ 2022年01月23日 07:49/ 0 赞/ 282 阅读
相关 Flume个人心得笔记 一、概述 1. Flume是Apache提供的开源的、分布式的、可靠的日志收集系统 2. 能够有效的收集、聚合、传输大量的日志数据 3. Flume有2个版本:Fl 布满荆棘的人生/ 2021年12月16日 12:25/ 0 赞/ 408 阅读
相关 Hive个人心得笔记之数据库和数据仓库 Hive个人心得笔记之数据库和数据仓库 一、数据仓库和数据库对比 <table> <tbody> <tr> <td 青旅半醒/ 2021年12月14日 08:51/ 0 赞/ 681 阅读
相关 Hive个人心得笔记之基础指令 Hive个人心得笔记之基础指令 -------------------- 一.基础指令 desc 川长思鸟来/ 2021年12月14日 06:21/ 0 赞/ 328 阅读
相关 Hive个人心得笔记之Hive优化 Hive个人心得笔记之Hive优化 一.Hive的优化 Hive的优化 1. 小表缓存:将小表的放入内存 悠悠/ 2021年12月11日 23:49/ 0 赞/ 407 阅读
相关 Hive个人心得笔记之内置函数、UDF Hive个人心得笔记之内置函数 目录 Hive个人心得笔记之内置函数 一.内置函数 淩亂°似流年/ 2021年12月11日 23:15/ 0 赞/ 605 阅读
还没有评论,来说两句吧...