蜂巢中元存储的主要用途

我对元商店的目的有点困惑。在配置单元中创建表时：

CREATE TABLE <table_name> (column1 data_type, column2 data_type);
LOAD DATA INPATH <HDFS_file_location> INTO table managed_table;

所以我知道这个命令在 HDFS 中获取文件的内容，并创建它的元数据形式并将其存储在 MetaStore 中(包括列类型、列名、它在 HDFS 中的位置等 HDFS 文件中每一行(。它实际上并没有将数据从HDFS移动到Hive中。

但是存储这些元数据的目的是什么？

例如，当我使用Spark SQL连接到Hive时，MetaStore不包含HDFS中的实际信息，而只包含MetaData。那么，Hive是否只是使用MetaStore来对HiveQL查询进行解析和编译步骤，并创建MapReduce作业？

元存储用于存储模式(表定义包括HDFS中的位置，serde，列，注释，类型，分区定义，视图，访问权限等(和统计信息。没有将数据从HDFS移动到Hive这样的操作，因为Hive表数据存储在HDFS(或其他兼容的文件系统，如S3(中。您可以在HDFS中的某个位置上定义新表甚至几个表，并将文件放入其中。可以更改现有表位置或分区位置，所有这些信息都存储在元存储中，因此 Hive 知道如何访问数据。表是在元存储中定义的逻辑对象，数据本身只是 HDFS 中某个位置的文件。

另请参阅有关 Hive 查询执行流(高级别(的答案：https://stackoverflow.com/a/45587873/2700344

Hive 执行读时模式操作，这意味着对于要以某种结构化方式处理的数据(即类似表的对象(，所述数据的布局需要在关系结构中汇总

在HDFS中获取文件的内容并创建它的元数据形式

据我所知，创建表时实际上不会读取任何文件。

SparkSQL直接连接到元存储。Spark和HiveServer都有自己的查询解析器。它不是元存储的一部分。MapReduce/Tez/Spark 作业也不由元存储处理。它只是一个关系数据库。如果是Mysql，Postgres或Oracle，您可以轻松地连接到它并检查内容。默认情况下，Hive和Spark都使用嵌入式Derby数据库

。

相关内容

最新更新

热门标签：