将pandas数据框转换为torch数据集



我有一个pandas数据框架,结构如下:

<表类> 路径 句子 演讲 input_values 标签 tbody><<tr>audio1.mp3这是第一个音频[[0.0, 0.0, 0.0,……, 0.0, 0.0]][[0.00005,…][0.0003]][23,4,6,11,…]12audio2.mp3这是第二音频[[0.0, 0.0, 0.0,……, 0.0, 0.0]][[0.000044,…], 0.00033]][23,4,6,11,…]12

取决于您将如何使用您的labels列。我不知道你的教练如何使用这些数据,但我建议定义你自己的Dataset类(https://pytorch.org/tutorials/beginner/basics/data_tutorial.html#creating-a-custom-dataset-for-your-files)

class CustomDataset(Dataset):
def __init__(self, dataframe):
self.path = dataframe["path"]
self.sentence = dataframe["sentence"]
self.speech = dataframe["speech"]
self.input_values = dataframe["input_values"]
self.labels = dataframe["labels"]
def __len__(self):
return len(self.text)
def __getitem__(self, idx):
path = self.path.iloc[idx]
sentence = self.sentence.iloc[idx]
speech = self.speech.iloc[idx]
input_values = self.input_values .iloc[idx]
labels = self.labels.iloc[idx]
return path, sentence, speech, input_values, labels