使用sample()
函数,我可以获得随机行。具有1000000
行数据的数据集,并且我希望具有20000
行的子集。可以通过此解决方案导入随机行
https://stackoverflow.com/a/22259008/8966221
读取数据集
dataset = read_csv(file_path)
dataset_sub=数据集.sample(20000,随机状态=1(
但是,我希望在行号250000
到750000
之间随机选择行。在这方面有任何可能的解决方案吗?。
您可以创建一个DataFrame,其中包含行号250000到750000之间的行,然后从中随机选择20000行。
dataset_sub = dataset.loc[250000:750000].sample(20000, random_state=1)
我认为以下代码有效:
import random
a=random.sample(range(250000,750000), 20000)
data=dataset.loc[a]
我想你需要这个:
dataset = read_csv(file_path)
dataset_sub = dataset.sample(random.randint(250000,750000), random_state=1)