从熊猫数据帧中提取子集以确保没有重叠?



>假设我有 2 个 Pandas 数据帧df具有 297232 x 122 维度,df_raw具有 840380x122 维度。 df已经是df_raw的子集。两个数据帧的索引均为 DateTime 。我想从df中采样70%值,从df_raw30%值(如果需要可以随机采样(,同时确保采样的数据帧子集在索引方面没有重叠。

更准确地说,df_subset 将从df中随机选择70%值,df_raw_subsetdf_raw30%随机选择的值,但df_subsetdf_raw_subset不应包含采样行的重叠,即它们应该具有唯一的DateTime索引。

所以我们从 df sample拳头,因为尺寸很小,将来当我们从另一个更大的 df 中删除它时,我们不会有问题:没有足够的数据点来sample

df_sub=df.sample(frac=0.7, replace=False)

然后我们将索引放在df_raw df_sub

n=int(len(df_raw)*0.3)
df_raw_sub=df_raw.drop(df_sub.index).sample(n,replace=False)

最新更新