>假设我有 2 个 Pandas 数据帧df
具有 297232 x 122
维度,df_raw
具有 840380x122
维度。 df
已经是df_raw
的子集。两个数据帧的索引均为 DateTime
。我想从df
中采样70%
值,从df_raw
中30%
值(如果需要可以随机采样(,同时确保采样的数据帧子集在索引方面没有重叠。
更准确地说,df_subset
将从df
中随机选择70%
值,df_raw_subset
从df_raw
中30%
随机选择的值,但df_subset
和df_raw_subset
不应包含采样行的重叠,即它们应该具有唯一的DateTime
索引。
所以我们从 df sample
拳头,因为尺寸很小,将来当我们从另一个更大的 df 中删除它时,我们不会有问题:没有足够的数据点来sample
df_sub=df.sample(frac=0.7, replace=False)
然后我们将索引放在df_raw
df_sub
n=int(len(df_raw)*0.3)
df_raw_sub=df_raw.drop(df_sub.index).sample(n,replace=False)