我正在使用变压器执行语音分类任务。
我使用了两种方法来拆分my_dataset分为训练集和测试集
第一个是torch.utils.data.random_split:
train_len = int(0.9 * len(my_dataset))
lengths = [train_len , len(my_dataset) - train_len]
train_set, valid_set = random_split(my_dataset, lengths)
第二个是sklearn.model_selection.train_testrongplit:
train_set, valid_set = train_test_split(my_dataset, test_size=0.1)
我试过很多次了。当我使用第一种方法时,准确率总是60%,但当我使用第二种方法时,准确率只有55%。
那么sklearn.model_selection。Train_testrongplit和torch.utils.data.random_split?
这两种方法只是数据集的划分方式不同,其他方法是相同的。
这可能是一个不同的分割。90:10的分配方式有很多。如果数据集不够大,则准确性将取决于实际的分割。您可以比较拆分的条目。