我正在设计一个应用程序,它应该每15分钟从S3读取一个txt文件,解析用|分隔的数据,并将这些数据加载到3个不同aws区域的Aeropike集群中。文件大小可以在0-32GB之间,它可能包含的记录数在5-13000万之间。
我计划在每个aws区域部署一个自定义的Java进程,它将从S3下载一个文件,并使用多个线程加载到Aeropike中。
我刚碰到锥子胶水。有人能告诉我我是否可以使用aws胶水将这大块数据加载到Aeropike中吗?或任何其他建议,以建立一个高效和高性能的应用程序?
提前感谢!
AWS Glue进行提取、转换,然后加载到RedShift、EMR或Athena中。您应该看看AWS数据管道,使用ShellCommandActivity通过提取和转换来运行s3数据,并将转换后的数据写入Aerospike。