我有一个像这样的文件结构:
-year
|
-month
|
-day
file1
file2
...
和Glue中对应的表,分区为年、月、日
现在我想添加一个新的分区,比如timeofday,所以当继续时,结构看起来像:
-year
|
-month
|
-day
-am
file1
file2
...
-pm
file1
file2
...
我想知道Glue是否可以从兼容性的角度处理这个问题?
当我进行实验时,似乎爬虫没有识别新的分区,当我手动将它们添加到表中时,我的Athena查询中断错误分区值计数不匹配分区列计数
这里有一些你可能想要解决的问题。
-
如果您更改了s3目录结构,则需要重新运行爬虫一次,以便更改生效。
-
假设爬虫执行成功,但您的表仍然不像它应该的样子。我会查找与Crawler绑定的IAM角色的权限。很多时候发生的情况是,IAM角色没有权限处理您的新目录结构。我删除了以前的IAM角色,并创建了一个新的角色。
-
如果您做了以上两件事,问题仍然存在-删除由爬虫生成的表,并重新运行爬虫。
-
还有一件事,请确保在编辑爬虫时,在进行以下配置时勾选以下方框用表中的元数据更新所有新的和现有的分区
干杯! !