Amazon s3 上的 Hive 分区外部表上的 SparkSQL



我计划在Amazon S3中的数据之上使用SparkSQL(不是pySpark(。所以我相信我需要创建Hive外部表,然后可以使用SparkSQL。但是 S3 数据是分区的,并且还希望分区反映在 Hive 外部表中。

每天管理配置单元表的最佳方法是什么。因为 ,可以每天创建新分区或旧分区 覆盖和做什么,以便保留Hive外部表 最新的?

创建一个中间表并加载到您的 Hive 表,并在日期插入覆盖分区。

最新更新