使用 Spark 处理 S3 上的单个文件

我在 S3 上有一个文件，我想使用 Spark 使用多个节点进行处理。火花如何在引擎盖下实现这一点？每个工作节点是否从 S3 读取一部分数据(使用字节范围请求(？我试图了解在HDFS和S3上使用Spark在并行处理方面有什么区别。使用电子病历有关系吗？

火花如何在引擎盖下实现这一点？

有许多公开文章解释了火花是如何工作的。

我试图了解在HDFS和S3上使用Spark在并行处理方面有什么区别。使用电子病历有关系吗？

这取决于您的用例是什么。一般来说，它归结为：

与

相关内容