给定pyspark中的RDD,我想创建一个新的RDD,它只包含(副本(它的前n个项目,如下所示:
n=100
rdd2 = rdd1.limit(n)
除了RDD没有方法limit()
,像DataFrame那样。
请注意,我不想收集结果,结果必须仍然是RDD,因此我无法使用RDD.take()
。
我正在使用 pyspark 2.44。
您可以将RDD转换为DF限制并将其转换回来
rdd1.toDF().limit(n).rdd