INSERT OVERWRITE重写整个表或分区,但它适用于许多文件格式。因此,要使用INSERT OVERWRITE进行追加启动,必须首先将新数据与现有数据进行LEFT JOIN,然后用它来替换分区。
我有一个关于将增量数据插入分区表的最佳实践的问题。目前,我有一个按天划分的历史表,我有另一个sql,它用最近两天的数据生成同一个表。这是一个示例历史表和增量表-
tbl1:历史
天 | |
---|---|
2021-01-01 | 10 |
2021-01-02 | 15 |
2021-01-03 | 12 |
2021-01-04 | 10 |
如果你使用的是德尔塔,你可以合并。
不确定,您的表格式是什么。但是,如果您的表是Parquet
或delta
格式,那么处理这种情况非常简单。你可以参考链接