我想根据时间对排序的pyspark数据框架进行火车测试。假设前300行将在火车组中,下一个在测试拆分中进行200行。
我可以使用 -
选择第一个300行train = df.show(300)
但是如何从Pyspark DataFrame中选择最后200行?
,假设您的dataframe df
size 500由time
列排序。
一种简单的方法是为训练集使用限制,并在测试集的反向数据框架上执行相同的操作。
from pyspark.sql.functions import desc
train = df.limit(300)
test = df.orderBy(desc("time")).limit(200).orderBy("time")