我有下面的s3路径的雅典娜
<bucket>/prod/dept=sales/year=2020/month=may
我创建了雅典娜表直到prod文件夹,我如何查询一个特定的部门和年份来限制雅典娜扫描到一个部门,以更快的结果。
因为我们有1000个部门跨越多年。
请帮
基本上,您必须使用ALTER TABLE add partition语法手动添加每个分区,或者—这是我首选的解决方案—在bucket上配置Glue爬虫,并让它为您创建分区。
然后每个分区属性将在表中获得它自己的特殊列,您可以在查询中使用它来减少扫描的数据。文档中有一个示例:准备用于查询的分区和非分区数据。