在AWS S3中,使用AWS Glue ETL python spark(pyspark)将多个镶木地板文件合并为一个镶



我每15分钟运行一次AWS Glue ETL作业,每次在S3中生成1个镶木地板文件。

我需要创建另一个作业,以便在每小时结束时运行,使用AWS Glue ETL pyspark代码将S3中的所有4个镶木地板文件合并为1个镶木文件。

有人试过吗?建议和最佳实践?

提前感谢!

嗯。。一个简单的选择是将其转换为spark数据帧

1( 将镶木地板读取为动态帧(或者更好的是,将其读取为spark数据帧(2( sourcedf.toDF((.重新分区(1(

相关内容

最新更新