使用 Spark 处理 S3 上的单个文件



我在 S3 上有一个文件,我想使用 Spark 使用多个节点进行处理。火花如何在引擎盖下实现这一点?每个工作节点是否从 S3 读取一部分数据(使用字节范围请求(?我试图了解在HDFS和S3上使用Spark在并行处理方面有什么区别。使用电子病历有关系吗?

火花如何在引擎盖下实现这一点?

有许多公开文章解释了火花是如何工作的。

我试图了解在HDFS和S3上使用Spark在并行处理方面有什么区别。使用电子病历有关系吗?

这取决于您的用例是什么。一般来说,它归结为:

  • 您可以选择 S3 而不是 HDFS 作为持久存储选项,该选项可以包含超出 EMR 集群生命周期的数据。
  • 无限(理论上(存储限制。
  • 高 SLA 和耐用性。
  • 成本。EMR 上的 HDFS 是短暂的。因此,您无需保持集群运行即可获得数据。等。

  • HDFS在I/O操作,中间/临时数据位置方面更快,因为S3通信涉及通过互联网的API调用。

最新更新