小贝子编程

如何从Spark中另一个RDD的前n个项目制作RDD?

本文关键字：RDD 项目的前 Spark 另一个 pyspark
更新时间 : 2023-09-15
英文 : How to make an RDD from the first n items of another RDD in Spark?

给定pyspark中的RDD，我想创建一个新的RDD，它只包含(副本(它的前n个项目，如下所示：

n=100 rdd2 = rdd1.limit(n)

除了RDD没有方法limit()，像DataFrame那样。

请注意，我不想收集结果，结果必须仍然是RDD，因此我无法使用RDD.take()。

我正在使用 pyspark 2.44。

您可以将RDD转换为DF限制并将其转换回来

rdd1.toDF().limit(n).rdd

最新更新

云构建触发器不应该基于git提交消息创建docker映像
r语言 - 根据标准删除列表组件
无法从用户获取数字并将其作为javascript切片方法的参数传递
在JavaScript中对JSON进行排序
React Axios Delete不每次渲染
Spring boot, Spring Security, React -自定义过滤器认证不起作用
SSIS通过TDS端点连接到Dynamics CRM Online
音频不能通过javaScript播放
MPI_Gather不收集所有块到recv缓冲区?
react hook是如何工作的?为什么useState跟踪的值在重新呈现时没有重置?
如何在颤振中自动点击按钮
如何将具有公共文件夹的react vite应用程序部署到我的域上的子文件夹?
S3FS连接器Pyspark 3.2, Hadoop 3.3.1挂在spark.read.load()
Flutter在不更改上下文区域设置的情况下在小部件内获取语言字符串
fluentd: ignore_repeated_log_interval and ignore_same_log_in
Psycopg2 无法适应间歇性发生的类型"元组"问题
从terraform创建发布模式定义时出错
Pine脚本代码为策略给出错误.入口函数
如何从javascript中的API调用返回值给React组件
Oracle检查巨大的插入进度
输入2位数时程序不能正常工作
Python解析嵌套的JSON文件并取出所需的属性
MongooseError:Model.create()不再接受回调如何使用异步等待
如何将bot/命令限制到某个通道?
SwiftUi调用中的额外参数当调用主视图中@EnvironmentObject的两个视图时
无法从反应-选择下拉Robotframework中选择选项
Intel Intrinsic: Load interleaved float32
使用base64.解码或base64.RawStdEncoding解码base64字符串在Go &g
如何使用Angular加载HTML附加div中的动态数据
RTL文本在react-native项目中没有正确对齐

如何从Spark中另一个RDD的前n个项目制作RDD?

相关内容

最新更新

热门标签：