HadoopDataSource:正在跳过分区｛｝，因为未检测到新文件@s3:

因此，我有一个S3文件夹，其中有几个子文件夹作为分区(根据创建日期(。我有一个用于这些分区的Glue表，可以使用Athena查看数据。

运行粘合作业并尝试访问目录时，我收到以下错误：

HadoopDataSource: Skipping Partition {} as no new files detected @ s3:...

给我带来问题的线路如下：

glueContext.getCatalogSource(database = "DB_NAME", tableName = "TABLE_NAME", redshiftTmpDir = "", transformationContext = "datasource0").getDynamicFrame().toDF()

我希望在每一点都能访问S3子文件夹中的所有数据，因为它会定期更新。

我认为问题是Glue Job Bookmark没有检测到新文件，但它不是直接作为作业的一部分运行，而是作为作业使用的库的一部分。

删除"；transformationContext"；或者将其值更改为空都不起作用。

因此，您获得的Hadoop输出不是错误，而是分区为空的简单日志。

但是正在被记录的分区{}似乎关闭了。你能检查一下吗？

此外，您是否可以在禁用书签的情况下运行作业，以确保这不是问题的原因？

我还发现了这个未解决的GitHub问题，也许你也可以在那里发表评论，这样这个问题就会引起一些关注。

相关内容

最新更新

热门标签：