处理一个压缩的GZ文件,使用胶水数据crawler创建表模式



我在S3存储桶中有一个压缩GZIP文件。客户将每天将文件上传到S3存储桶。GZIP当未压缩时将包含10个以CSV格式的文件,但仅具有相同的架构。我的目的是处理GZIP文件,使用数据crawler创建表模式,然后将所有数据加载到新单个表作为parquet文件。

可以胶水爬网读取一个GZ文件,并根据文件列表创建表。请帮助解决方案。

谢谢。

是的,它可以读取gzip&zip csv的

https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html#classifier-built-built-in

最新更新