小贝子编程

如何在Pyspark DataFrame中训练测试分式时间表数据

本文关键字：测试分式时间表数据 Pyspark DataFrame apache-spark pyspark apache-spark-sql train-test-split
更新时间 : 2023-09-10
英文 : How to train-test split timeseries data in Pyspark Dataframe

我想根据时间对排序的pyspark数据框架进行火车测试。假设前300行将在火车组中，下一个在测试拆分中进行200行。

我可以使用 -

选择第一个300行

train = df.show(300)

但是如何从Pyspark DataFrame中选择最后200行？

，假设您的dataframe df size 500由time列排序。

一种简单的方法是为训练集使用限制，并在测试集的反向数据框架上执行相同的操作。

from pyspark.sql.functions import desc
train = df.limit(300)
test = df.orderBy(desc("time")).limit(200).orderBy("time")

最新更新

ActorReferences作为Akka中其他角色的成员变量
我不知道有什么区别
文字SQL工作：数组值必须以"{"或维度信息开头
Go-使函数与外观相似的结构切片一起工作的惯用方法
在一个弹出窗口中管理多个输入的焦点
r语言 - 进行单向方差分析
当应用程序保持打开状态时，标识会话超时
在cmake中使用PUBLIC/PRIVATE/INTERFACE的例子
不能将反射字段强制转换为映射
return NULL for whois python3
Sequelize如何将日期格式设置为YYYY-MM-DD HH:mm:ss并将列保持蛇形大小写 &
如何从给定字符串中删除字符?(python中的字符串操作)
WMI wbemtest错误0x80070005访问被拒绝
如何从Android应用程序发送数据到Node.js
单元格列表与LazyVGrid有时消失
flutter stripe付款错误尚未初始化付款单
在使用@ pip安装需求时，部署到heroku失败
setTimeout结束后如何填充元素?
如何在pandas中插入和填充计算值的行?
你如何找到一台PC上的gpu数量?
使用client_states作为状态的自定义聚合器
带相关函数的Numba提前(AOT)编译
Azure Function SQL输入绑定在AddAsync上失败
Net:: HTTP.HTTPS Headers get失败
如何清除fileInput数据和相应的对象在R Shiny?
salesforce获取闪电组件中的帐户id
如何使用SQLite设置和访问Shopify会话?
c语言 - 编译PostgreSQL扩展，获取"error: ‘work_mem’ undeclared (first use in this function)"
JSON String {String: String[]}的最佳Typescript类型
如何在SwiftUI中播放svga动画

如何在Pyspark DataFrame中训练测试分式时间表数据

相关内容

最新更新

热门标签：