小贝子编程

拆分火炬数据集而不进行混洗

本文关键字：混洗数据集拆分 python pytorch torch transformer-model pytorch-dataloader
更新时间 : 2023-09-20
英文 : Split torch dataset without shuffling

我正在使用Pytorch运行Transformer模型。当我想拆分数据(标记化数据(时，我使用以下代码：

train_dataset, test_dataset = torch.utils.data.random_split(
tokenized_datasets,
[train_size, test_size])

torch.utils.data.random_split使用混洗方法，但我不想混洗。我想按顺序拆分它。

有什么建议吗？感谢

random_split方法没有可以帮助您创建非随机顺序拆分的参数。

实现顺序拆分的最简单方法是直接传递要创建的子集的索引：

# Created using indices from 0 to train_size.
train_dataset = torch.utils.data.Subset(tokenized_datasets, range(train_size))
# Created using indices from train_size to train_size + test_size.
test_dataset = torch.utils.data.Subset(tokenized_datasets, range(train_size, train_size + test_size))

参考PyTorch文档。

拆分火炬数据集而不进行混洗

相关内容

最新更新

热门标签：