AWS Glue 书签会生成重复项



我正在向Glue Job提交一个Python脚本(实际上是pyspark(来处理镶木地板文件并从该数据源中提取一些分析。

这些镶木地板文件位于 S3 文件夹中,并随着新数据不断增加。我对 AWS Glue 提供的书签逻辑感到满意,因为它有很大帮助:基本上允许我们只处理新数据,而无需重新处理已经处理过的数据。

不幸的是,在这种情况下,我注意到每次都会生成重复项,并且看起来 AWS Glue 书签根本不起作用。这种意外行为的原因是什么?

您现在可以检查一下吗?它支持镶木地板和ORC。但是版本 1.0 及更高版本。版本0.9,不支持

https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html

来自 https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html

目前不支持 Apache Parquet 和 ORC 格式。

更新

自 2019 年 7 月 26 日起,AWS Glue 还支持镶木地板和 ORC 格式以及书签

https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html

相关内容

  • 没有找到相关文章

最新更新