在指定开始和结束行号后,从Python中的dataframe.csv文件中随机选择(数据的)行



使用sample()函数,我可以获得随机行。具有1000000行数据的数据集,并且我希望具有20000行的子集。可以通过此解决方案导入随机行

https://stackoverflow.com/a/22259008/8966221

读取数据集

dataset = read_csv(file_path)

dataset_sub=数据集.sample(20000,随机状态=1(

但是,我希望在行号250000750000之间随机选择行。在这方面有任何可能的解决方案吗?。

您可以创建一个DataFrame,其中包含行号250000到750000之间的行,然后从中随机选择20000行。

dataset_sub = dataset.loc[250000:750000].sample(20000, random_state=1)

我认为以下代码有效:

import random
a=random.sample(range(250000,750000), 20000)
data=dataset.loc[a]

我想你需要这个:

dataset = read_csv(file_path)
dataset_sub = dataset.sample(random.randint(250000,750000), random_state=1)

最新更新