小贝子编程

RDD take()方法在内部工作

本文关键字：在内部工作方法 take RDD scala apache-spark pyspark
更新时间 : 2023-09-10
英文 : How RDD take() method works internally?

我知道take（n）将返回rdd的n个元素，但是Spark如何决定从哪个分区来调用这些元素以及应该选择哪些元素？它是否在驱动程序上内部维护索引？

在rdd的take（n）方法中，Spark开始扫描第一个分区的元素。如果其中没有足够的元素，Spark会增加从中扫描的分区数量。至于由以下行确定的元素

确定的元素

val res = sc.runJob(this, (it: Iterator[T]) => it.take(left).toArray, p)

Scala中迭代器的采用方法（n）方法说"选择首先'''''''值。" - scaladoc。因此，至于选择哪些元素，我们会看到从迭代器的正面选择元素。

最新更新

curl:(26)从appcenter的文件/应用程序打开/读取本地数据失败
剧本无法从角色内部的循环变量中找到"{{ item }}"
当imagflow删除缓存图像时
为什么concat也显示在这个选择查询中
将python控制台应用程序转换为web应用程序的最简单方法
JavaFX 将折线图导出到 png 不会正确呈现图表，如果图表未置于前台
获取用户定义对象数组的最后一个元素
Bash脚本导入sql转储到正确的数据库
Pyomo MINLP解算器没有选择最优结果
如果对象id在其他对象id中有自己的属性，则更改数组中的对象值
AssertionError:此优化器没有记录inf检查
数据导入问题
如何从两个不同的房间表中收集流，并将数据组合在android的recyclerview中显示
DynamoDB全局索引vs本地索引
防止从iframe滚动，但仍然可以点击javascript
使用正则表达式将'team'标签动态添加到普罗米修斯中的警报
无法在nextjs 13中更新next-auth v4的会话
R rlang: call_args in dplyr::mutate
如何在Azure容器应用程序上部署React Python应用程序时解决此错误?
如何在不泄露源代码的情况下销售chrome扩展
wp.blocks.blockRegisterType在控制台显示错误- Gutenberg Wordpress.<
物质化在shadowroot内的Modal内初始化自动完成不工作
如何使用micronaut实现基于模式的多租户
授权非admin用户在Google Apps Script中运行admin SDK
需要退出函数，但没有得到一个不允许的值错误
合并两个调用并使用typeahead ngx-bootstrap显示结果?
如何发送文本和二进制套接字在单一消息在C?
我如何隐藏(而不是禁用)在Django admin的动作添加模型按钮在ModelAdmin列表视图?
AWS CloudFormation：Cognito LambdaTrigger CustomEmailSender - 属性"Not currently supported by AWS Cloud
Python Discord bot !命令的权限

RDD take()方法在内部工作

相关内容

最新更新

热门标签：