如何在aws glue中设置特定的压缩值?如果可能,是否可以在aws胶中手动确定压缩级别和分区? &g



我正在寻找使用AWS Glue从数据源摄取数据到s3。

是否有可能将摄取的数据在glue中压缩到指定值?例如:将数据压缩到500 MB,并能够根据提供的压缩值对数据进行分区?如果是,如何启用?我正在用Python编写glue脚本。

压缩&分组是类似的术语。压缩发生在拼木地板输出上。但是,您可以使用'groupSize': '31457280' (30mb)来指定输出文件的动态帧的大小(并且是默认的输出大小)(至少其中大多数,最后一个文件将是剩余的)。此外,您还需要小心/利用Glue CPU的类型和数量。如最大容量10,工人类型标准。G.2X倾向于创建太多的小文件(这将/完全取决于您的情况/输入)。如果你什么都不做,只是读取许多小文件,并在一个大的组中不加修改地写入它们,它们将被"默认压缩/组";进入"groupsize"。如果您希望看到文件写入大小的大幅减少,那么将输出格式设置为parquet。glueContext。create_dynamic_frame_from_options(connection_type =" s3", format="json",connection_options = {"paths" "s3://yourbucketname/folder_name/21%/01/"], recurse':True, 'groupFiles':'inPartition', 'groupSize': '31457280'})

最新更新