在athena中进行查询时,哪种语法更好,为什么?或者这有关系吗?
- 按日期进行简单分区:
s3: //example/2018-01-01
或 - 每年月日多分区:
s3://example/2018/01/01
只有当您知道要查找什么信息时,才能决定哪个分区的效率更高。当存储的数据太大而无法驻留在单个分区中时,会使用多个分区。使用多个列作为分区键会将数据分成块或存储桶。数据仍然被分组,但被分成更小的块。如果集群在重复向一个节点写入数据时遇到热点或拥塞,这种方法可能是有效的,因为分区正在大量写入。
这取决于很多事情。。你每天、每月的数据量等等。太多的小文件对雅典娜不利。此外,如何查询数据也很重要。请看下面的AWS文章了解更多想法。
https://aws.amazon.com/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/