配置单元-外部表和csv数据



我需要您的帮助来解决从配置单元重新定义数据的问题。以下情况:我有一个导入hadoop的CSV文件data.CSV。现在,我发现了许多使用外部表在csv文件顶部创建模式的片段。我的问题是,hive如何知道外部表的架构连接到data.csv。在示例中,我找不到对csv文件的引用。

在这个配置单元示例中,sample_1.csv引用在哪里使用,或者配置单元如何知道sample_1.csv中的数据包括数据?

在创建外部表时,我们必须给出列列表和hdfs位置。配置单元将只存储列元数据,如列名、数据类型。。以及hdfs位置。

当我们对外部表执行查询时,它将获取元数据,然后从hdfs位置获取可用文件。

现在我们得到了答案。手册建议将一个文件存储在一个目录中。当我们在上面构建一个外部表时,数据似乎是由模式标识的。

在我的测试用例中,我用一个模式移植了3个csv文件,2个文件得到了匹配的模式。第三个文件多了一列。如果我运行一个查询,则会显示所有三个文件的数据。缺少第三个文件中的附加列。

现在一切都很好——谢谢!

最新更新