我需要您的帮助来解决从配置单元重新定义数据的问题。以下情况:我有一个导入hadoop的CSV文件data.CSV。现在,我发现了许多使用外部表在csv文件顶部创建模式的片段。我的问题是,hive如何知道外部表的架构连接到data.csv。在示例中,我找不到对csv文件的引用。
在这个配置单元示例中,sample_1.csv引用在哪里使用,或者配置单元如何知道sample_1.csv中的数据包括数据?
在创建外部表时,我们必须给出列列表和hdfs位置。配置单元将只存储列元数据,如列名、数据类型。。以及hdfs位置。
当我们对外部表执行查询时,它将获取元数据,然后从hdfs位置获取可用文件。
在我的测试用例中,我用一个模式移植了3个csv文件,2个文件得到了匹配的模式。第三个文件多了一列。如果我运行一个查询,则会显示所有三个文件的数据。缺少第三个文件中的附加列。
现在一切都很好——谢谢!