如何将大数据的pandas块拆分为机器学习的x_train和y_train数据



df_chunk=pd.read_csv(文件名,chunk=1000(X_train,Y_train,X_test,Y_test=train_test.split(df_chunk(

如何使用df_chunk将其拆分为x和y列车数据

我以前从未遇到过这种情况。也许你可以试试这个。

https://examples.dask.org/machine-learning/incremental.html

或者,这个。

https://zerowithdot.com/splitting-to-batches/

或者,获取原始数据集的一小部分。如果它真的是随机的,那么一个样本应该相当能代表整个数据集。

# Fraction of rows
# here you get .50 % of the rows
df.sample(frac = 0.5)

相关内容

最新更新