如何从Spark中另一个RDD的前n个项目制作RDD?



给定pyspark中的RDD,我想创建一个新的RDD,它只包含(副本(它的前n个项目,如下所示:

n=100 rdd2 = rdd1.limit(n)

除了RDD没有方法limit(),像DataFrame那样。

请注意,我不想收集结果,结果必须仍然是RDD,因此我无法使用RDD.take()

我正在使用 pyspark 2.44。

您可以将RDD转换为DF限制并将其转换回来

rdd1.toDF().limit(n).rdd

最新更新