我每15分钟运行一次AWS Glue ETL作业,每次在S3中生成1个镶木地板文件。
我需要创建另一个作业,以便在每小时结束时运行,使用AWS Glue ETL pyspark代码将S3中的所有4个镶木地板文件合并为1个镶木文件。
有人试过吗?建议和最佳实践?
提前感谢!
嗯。。一个简单的选择是将其转换为spark数据帧
1( 将镶木地板读取为动态帧(或者更好的是,将其读取为spark数据帧(2( sourcedf.toDF((.重新分区(1(