我正在查询雅典娜中的一个表,该表给出错误: GENERIC_INTERNAL_ERROR:分区值的数量与过滤器的数量不匹配
我之前能够查询它,但添加了另一个分区(AWS 粘附作业(来尝试优化我稍后将在查询中执行的连接。我确实重新运行了爬网程序以更新表以反映分区。
我想知道这个错误实际上意味着什么。
我尝试重新抓取数据,但没有运气。 接下来,我将清除底层 S3 数据,并从头开始重新处理整个数据集,然后重新抓取它。
SELECT *
FROM mydb.mytable
LIMIT 10
我想了解错误的含义,以及除了重新处理整个原始数据集并重新抓取它之外是否有解决方法。
我今天遇到了同样的问题。就我而言,这是因为 s3 中的某些底层数据已被删除,因此 Glue 表中的分区数与 s3 中的文件数不匹配。
为了修复它,我只是删除了 Glue 中的表,然后重新运行了爬虫。
我删除了 Glue 中的表并重新创建。救了我。