数据子集的分层拆分

我有一个大小为 10,000 的整体数据集。我知道我可以使用分层拆分来创建训练和测试集，然后我可以运行它两次(第二次在测试集上(来获取验证和测试集。我可以对 10,000 个样本执行此操作。我知道我可以使用StratifiedShuffleSplit。

对于我的工作，我只需要使用 1,000 个样本。有没有一种很好的方法可以做到这一点，但只使用数据的子集？我想保留原始 10,000 集的类百分比，但将其应用于一组 1,000。

只是想通了，以防其他人也想知道同样的事情。

我可以简单地输入train_size和test_size参数为整数。然后我用 50/50 在测试集上再次运行拆分以获得验证和测试集。

如果您使用pandas或numpy来存储数据，则有pandas.DataFrame.sample(1000)或numpy.random.choice

相关内容