使用 Spark 处理非常大容量 (500TB) 的数据

我有大量近500TB的数据，我必须对这些数据做一些ETL。

此数据位于 AWS S3 中，因此我计划使用 AWS EMR 设置来处理此数据，但我不确定应该选择什么配置。

基于此，我想计算 AWS EMR 的成本并开始处理数据

根据你的问题，你很少或根本没有Hadoop的经验。首先接受一些培训，以便您了解Hadoop生态系统的工作原理。计划花三个月的时间达到入门级。

你有很多选择要做，有些是项目成功的基础。例如，什么语言(Scala，Java或Python(？哪些工具(Spark，Hive，Pig等(。您的数据采用什么格式(CSV，XML，JSON，Parquet等(。您只需要批处理还是需要近乎实时的分析等。

您可能会发现其他 AWS 服务更适用，例如 Athena 或 Redshift，具体取决于您的数据格式以及您尝试提取/处理的信息。

AWS 中有 500 TB 的容量，请向支持人员提交工单。解释你拥有什么，你想要什么和你的时间框架。SA 将可用于指导您走上路径。

相关内容