如何在Pyspark DataFrame中训练测试分式时间表数据



我想根据时间对排序的pyspark数据框架进行火车测试。假设前300行将在火车组中,下一个在测试拆分中进行200行。

我可以使用 -

选择第一个300行
train = df.show(300)

但是如何从Pyspark DataFrame中选择最后200行?

,假设您的dataframe df size 500由time列排序。

一种简单的方法是为训练集使用限制,并在测试集的反向数据框架上执行相同的操作。

from pyspark.sql.functions import desc
train = df.limit(300)
test = df.orderBy(desc("time")).limit(200).orderBy("time")

最新更新