使用 Spark 处理非常大容量 (500TB) 的数据



我有大量近500TB的数据,我必须对这些数据做一些ETL。

此数据位于 AWS S3 中,因此我计划使用 AWS EMR 设置来处理此数据,但我不确定应该选择什么配置。

  1. 我需要什么样的集群(主集群和多少个从集群(?
  2. 我需要逐块处理(10GB(还是可以一次处理所有数据?
  3. Ram和存储的主从(执行者(内存应该是什么?
  4. 我需要什么样的处理器(速度(?

基于此,我想计算 AWS EMR 的成本并开始处理数据

根据你的问题,你很少或根本没有Hadoop的经验。首先接受一些培训,以便您了解Hadoop生态系统的工作原理。计划花三个月的时间达到入门级。

你有很多选择要做,有些是项目成功的基础。例如,什么语言(Scala,Java或Python(?哪些工具(Spark,Hive,Pig等(。您的数据采用什么格式(CSV,XML,JSON,Parquet等(。 您只需要批处理还是需要近乎实时的分析等。

您可能会发现其他 AWS 服务更适用,例如 Athena 或 Redshift,具体取决于您的数据格式以及您尝试提取/处理的信息。

AWS 中有 500 TB 的容量,请向支持人员提交工单。解释你拥有什么,你想要什么和你的时间框架。SA 将可用于指导您走上路径。

最新更新