我正在向Glue Job提交一个Python脚本(实际上是pyspark(来处理镶木地板文件并从该数据源中提取一些分析。
这些镶木地板文件位于 S3 文件夹中,并随着新数据不断增加。我对 AWS Glue 提供的书签逻辑感到满意,因为它有很大帮助:基本上允许我们只处理新数据,而无需重新处理已经处理过的数据。
不幸的是,在这种情况下,我注意到每次都会生成重复项,并且看起来 AWS Glue 书签根本不起作用。这种意外行为的原因是什么?
您现在可以检查一下吗?它支持镶木地板和ORC。但是版本 1.0 及更高版本。版本0.9,不支持
https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html
来自 https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html
目前不支持 Apache Parquet 和 ORC 格式。
更新
自 2019 年 7 月 26 日起,AWS Glue 还支持镶木地板和 ORC 格式以及书签
https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html