小贝子编程

如何将数据从 S3 存储桶传输到 Spark 工作线程

本文关键字：传输 Spark 工作线程存储数据 S3 apache-spark amazon-s3 hdfs rdd
更新时间 : 2023-09-17
英文 : how data will be transferred from S3 bucket to Spark workers

当我们使用基于HDFS的textFile函数创建RDD时，它将根据块创建分区，并且计算通常发生在数据驻留在数据节点上的地方。

但是，当我们基于 S3 文件创建 RDD 时，如何将数据从 S3 存储桶传输到 Spark 工作线程执行？转移是否也涉及驱动程序？与HDFS相比，使用S3作为存储时，它们也会对性能产生任何影响。

问候

尼拉杰

正如您暗示 S3 没有数据局部性一样。

只需要可拆分的格式，以便工作线程从中获取数据。

因此，S3 速度较慢，但更便宜。

没有名称节点要求。

驱动程序仅在收集和协调工作人员/执行者的任务时需要。在建筑上没有意义。

最新更新

使用# id更改HTML模板中的JS代码值
Regex语句，用于捕获最外层括号内的元素
如何在用户猜测/输入后更改占位符?
是否有一种方法来创建一个DataFrame从特定的颜色编码行是在谷歌工作表?(长颈鹿和熊猫)
AWS Glue: SCRAM认证需要libpq版本10或以上[Using CockroachDB]
如何使用信号协议加密/解密?
pandas dataframe在特定列中的列表值满足一定条件时获取行
&16 在此 MySQL 查询中做什么？
是否有办法使类名作为一个变量?．. Parent_class *p_derived = new classnameher
错误:未能将一些参考推入' path '
我如何让matplotlib正确格式化这些datetime64对象?
如何删除重复的行基于多列值在亚马逊雅典娜?
无法"npm install"项目
Applescript在文件夹中搜索带有关键字的照片
在CocoaPods任务中运行管道时出错
我是如何设法在通常的 conf 设置之外定义一个 XAMPP Apache 额外目录的？找不到证据
我的主要分支是错误的，我想用另一个分支重写它，我怎么能做这样的事情?
防止在for循环中展开的函数的形参中展开变量
自动伸缩组实例未在ALB上注册
我有一个问题与基础SQLITE3，如何解决它?
react useEffect(): Hello只记录一次
ViewBinding within Broadcast Receiver
为什么x输入事件不再被Tk事件回调处理(Ubuntu 22.04, Tk 8.6.12)?
如何降低MSAA内存使用率?
Apache Flink -匹配具有相同值的字段
如何在jquery中添加?
如何在AVAudioPCMBuffer上做偏移?
定义函数以返回类的属性需要什么？
Php对象组数组
如何用Angular/Javascript创建工作流图

如何将数据从 S3 存储桶传输到 Spark 工作线程

相关内容

最新更新

热门标签：