数据子集的分层拆分



我有一个大小为 10,000 的整体数据集。我知道我可以使用分层拆分来创建训练和测试集,然后我可以运行它两次(第二次在测试集上(来获取验证和测试集。我可以对 10,000 个样本执行此操作。我知道我可以使用StratifiedShuffleSplit。

对于我的工作,我只需要使用 1,000 个样本。有没有一种很好的方法可以做到这一点,但只使用数据的子集?我想保留原始 10,000 集的类百分比,但将其应用于一组 1,000。

只是想通了,以防其他人也想知道同样的事情。

我可以简单地输入train_size和test_size参数为整数。然后我用 50/50 在测试集上再次运行拆分以获得验证和测试集。

如果您使用pandas或numpy来存储数据,则有pandas.DataFrame.sample(1000)numpy.random.choice

最新更新