如何将数据从 S3 存储桶传输到 Spark 工作线程



当我们使用基于HDFS的textFile函数创建RDD时,它将根据块创建分区,并且计算通常发生在数据驻留在数据节点上的地方。

但是,当我们基于 S3 文件创建 RDD 时,如何将数据从 S3 存储桶传输到 Spark 工作线程执行? 转移是否也涉及驱动程序?与HDFS相比,使用S3作为存储时,它们也会对性能产生任何影响。

问候

尼拉杰

正如您暗示 S3 没有数据局部性一样。

只需要可拆分的格式,以便工作线程从中获取数据。

因此,S3 速度较慢,但更便宜。

没有名称节点要求。

驱动程序仅在收集和协调工作人员/执行者的任务时需要。在建筑上没有意义。

最新更新