HBase和Hive的区别以及各自适用的场景

Posted by JustDoDT on July 27, 2019

概述

HBase 和 Hive在大数据架构中处于不同位置,HBase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是相互配合使用。

两者的区别

整体区别

  • HBase: Hadoop database 的简称,也就是基于 Hadoop 数据库,是一种NoSQL数据库,主要适用于海量的明细数据(十亿,百亿)的随机实时查询,如日志明细,交易清单,轨迹行为等。

  • Hive : Hive 是 Hadoop 数据仓库,严格来说,不是数据库,主要是让开发人员能够通过SQL来计算和处理 HDFS上的结构化数据,适用于离线的批量数据计算。

    • 通过元数据来描述 HDFS 上的结构化文本数据,通俗点来说,就是定义一张表来描述 HDFS 上的结构化文本,包括各列数据名称,数据类型是什么等,方便我们处理数据,当前很多 SQL on Hadoop 的计算引擎均用的是 Hive 的元数据,如 Spark SQL 、Impala等。
    • 基于第一点,通过 SQL 处理和计算 HDFS 的数据,Hive 会将 SQL 翻译为 MapReduce 来处理数据

细致区别

  • Hive 中的表是纯逻辑表,就只是表的定义等,即表的元数据。Hive 本身不存储数据,它完全依赖于 HDFS 和 MapReduce。这样就可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,并将 SQL 语句最终转换为 MapReduce 任务进行运行。而 HBase 表是物理表,适合存放非结构化的数据。
  • Hive 是基于 MapReduce 来处理数据,而 MapReduce 处理数据是基于行的模式;HBase 处理数据是基于列的,适合海量数据的随机访问。
  • HBase 表是疏松存储的,因此用户可以给行定义各种不同的列;而 Hive 表是稠密型的,即定义多少列,每一行有存储固定列数的数据。
  • Hive 使用 Hadoop 来分析处理数据,而 Hadoop 系统是批处理系统,因此不能保证处理的低延迟问题;而HBase 是近实时系统,支持实时查询。
  • Hive 不提供 row-level 更新,它适合于大量 append-only 数据集(如日志)的批任务处理。而基于 HBase 的查询,支持 row-level 更新。
  • Hive 提供完整的SQL实现,通常被用来做一些历史数据的挖掘,分析。而 HBase 不适用与有 join ,多级索引,表关系复杂的应用场景。

两者之间的关系

在大数据架构中,Hive 和 HBase 是协作关系,数据流一般如下图:

  • 通过 ETL 工具数据源抽取到 HDFS 存储
  • 通过 Hive 清洗、处理和计算原始数据
  • Hive 清洗处理后的结果,如果是面向海量数据随机查询场景的可存入HBase
  • 数据应用从 HBase 查询数据

hive

参考文档