因此,我有一个S3文件夹,其中有几个子文件夹作为分区(根据创建日期(。我有一个用于这些分区的Glue表,可以使用Athena查看数据。
运行粘合作业并尝试访问目录时,我收到以下错误:
HadoopDataSource: Skipping Partition {} as no new files detected @ s3:...
给我带来问题的线路如下:
glueContext.getCatalogSource(database = "DB_NAME", tableName = "TABLE_NAME", redshiftTmpDir = "", transformationContext = "datasource0").getDynamicFrame().toDF()
我希望在每一点都能访问S3子文件夹中的所有数据,因为它会定期更新。
我认为问题是Glue Job Bookmark没有检测到新文件,但它不是直接作为作业的一部分运行,而是作为作业使用的库的一部分。
删除";transformationContext";或者将其值更改为空都不起作用。
因此,您获得的Hadoop输出不是错误,而是分区为空的简单日志。
但是正在被记录的分区{}
似乎关闭了。你能检查一下吗?
此外,您是否可以在禁用书签的情况下运行作业,以确保这不是问题的原因?
我还发现了这个未解决的GitHub问题,也许你也可以在那里发表评论,这样这个问题就会引起一些关注。