小贝子编程

RDD在Spark中从哪里加载数据?

本文关键字：加载数据 Spark RDD apache-spark pyspark bigdata
更新时间 : 2023-11-07
英文 : From where does RDD loads data in Spark?

Spark从哪里为RDD加载数据?数据是否已经存在于执行节点或spark先从驱动节点洗牌数据?

从名称本身- RDD(弹性分布式数据集)-它表明当您创建它时数据驻留在执行器之间。

让我们假设当你运行parallelize()的100个条目，它会将这100个条目分布在你的执行器上，这样每个执行器都有自己的数据块来进行分布式处理。

洗牌发生-当你做任何操作，如repartition()或coalesce()。此外，如果您运行collect()等函数，spark将尝试从执行器中提取所有数据并将其带到驱动程序(并且您失去了分布式处理的能力)

这个参考有更多关于spark - Apache spark架构内部的细节

最新更新

查找ANSYS Mechanical APDL仿真的裂纹尖端位置或裂纹路径坐标
OnClick导致活动关闭
无法启动剧作家铬
firebase实时数据库更新内部函数无法看到参数React Native
为什么这里使用另一个线程来刷新数据?
Wso2 saml断言撤销并创建新的
为什么添加ApiExplorer会破坏Swashbuckle?
在while语句中分配变量
我如何将Snyk漏洞扫描插入JIRA，以便在发现新漏洞时自动创建门票?
请我如何设置一个字符串变量为空在firestore与扑动?
python中嵌套列表的所有条件排列
为什么' conda install jupyter '要安装jupyter-lab?
与Null安全性混淆
有没有办法仅使用sendgrid的API构建完整的sendgrid订阅表单？
在虚拟环境中运行Jupyternotebook时出现modulenotfoundererror &g
Proxyquire不覆盖导出的函数
如何在我的Xaml中添加行为到控件，但仅适用于特定平台?
如何禁用某些规则
如何测试数组在AssertableJson在Laravel 8?
c -不确定如何处理来自pigpio的CMake文件
求解非线性方程组
如何从Access导入accdb数据库到SQL Server 2019?
如何从Access数据库VB.net检索特定数据?
我需要在Unity中使用c#将一个gameObject旋转到另一个gameObject，但我希望旋转只在z
我如何更新字符串列表与字符串的饲料每秒钟?
如何在React.js中使用函数之外的变量
在安装黑色和安全时出现错误
在不同的本地npm包中使用本地npm包
Spring Security and Keycloak使用自定义身份验证提供程序失败
在Java中，是否可能有两个函数具有完全相同的签名，除了一个是静态的

RDD在Spark中从哪里加载数据?

相关内容

最新更新

热门标签：