我正在考虑将数据存储在ORC format
S3
中,以便使用Athena
进行查询。
我想像这样对数据进行分区...
.../year=2019/month=7/
。并按 id 进一步存储数据(每个id
每个月都会有多个记录,有很多 id(
我希望能够每天将新数据插入到此结构中......我知道我不能使用 Athena 的INSERT INTO
语句,因为不支持存储桶表。
每天将数据插入此结构的表中的最佳方法是什么?甚至可以使用存储桶数据吗?
干杯
Presto 允许插入自 Presto 312 以来的桶装分区表的现有分区。如果 Athena 不支持此功能,您可以非常轻松地自己运行 Presto 集群,例如使用 Starburst Presto AWS 集成(出于其他原因,我也可以推荐这样做,因为如果您运行多个查询,它可能比使用 Athena 便宜得多。免责声明:我来自星爆(