将文件从一个S3存储桶转换到另一个存储桶



我是亚马逊aws的新手。我有一个用例,可以从一个s3 bucket读取ORC文件,将其转换为JSON文件,然后写入另一个s3 bucket。容量约为100G,每天大约有1000个文件。我应该能够按需运行或安排每天运行。我应该考虑哪些选择?

任何想法都会对有所帮助

亚马逊雅典娜

您可以使用Amazon Athena通过CREATE TABLE AS命令转换文件格式。请参阅:根据查询结果创建表格(CTAS(-亚马逊Athena

接下来的问题是如何将命令发送给雅典娜。为此,您可以安排运行一个AWS Lambda函数,该函数启动一个AmazonEC2实例。然后,在实例上运行一个脚本,将所有命令发送到Amazon Athena。请参阅:当EC2实例完成任务时自动停止-DEV社区

AWS Glue ETL作业

或者,您可以创建一个使用Spark转换数据的AWS Glue ETL作业。请参阅:内置转换-AWS Glue

最新更新