德比中的蜂巢元存储与蜂巢/仓库中的蜂巢元存储有什么区别


这可能是

一个非常基本的问题,所以请原谅你的无知。

我知道有两个元存储,Hive 将在开箱即用(hive tar.bin提取物)香草设置中使用。就我而言,我的蜂巢为 0.14。

在 derby 数据库中有一个 - 默认文件夹名称称为 metastore_db 在 hdfs 之外。

在 hdfs 中还有另一个位于/user/hive/warehouse。

这两者之间有什么区别?

在 Hive 中,元存储由 (1) 元存储服务和 (2) 数据库组成。

元存储数据库 - 是任何 JDBC 投诉 RDBMS 数据库,它在其中存储托管表和外部表的模式和分区详细信息。其他应用程序(如 Impala)可以使用它从中获取表和架构详细信息。顾名思义,它只存储元数据。

元存储服务 - Hive 还运行一个名为元存储服务的单独服务来管理元存储数据,例如,将 Hive 表和分区的元数据存储在元存储数据库中,并通过元存储服务 API 为客户端(包括 Hive)提供对此信息的访问。

仓库 - Hive 数据存储在 HDFS 中,通常存储在/user/hive/warehouse 下(或您在 hive-site 中指定为 hive.metastore.warehouse.dir 的任何路径.xml )。

元存储是蜂巢存储表的模式,以及更多数据如何目录,其中引用数据用于仓库中的架构表。

仓库通常存储在HDFS中,元存储在关系数据库中,如Derby,MySQL或Postgre。

元存储通常用于许多其他应用程序,例如用于发现仓库中的表的 impala。

最新更新