我正在尝试学习CNN网络以识别语音中的情感。为此,我使用的是MEL-CEPTRAL系数(MFCC(,该系数表示每个音频文件为二维数组(帧数 * MFCC系数的数量(。我想拥有一个三维数组作为我的CNN卷积层的输入,其中三维是音频文件的数量。我如何获得这样的数组?
for i in range(len(audio_list)):
(rate,sig) = wav.read(source_folder + audio_list[i])
inputs = mfcc(sig, rate, nfft=1300)
# Transform in 3D array
train_inputs[i] = (np.asarray(inputs[np.newaxis, :]))
如果您的inputs
是列表,将其转换为numpy数组, np.array(inputs)
我认为您要做的是:
train_inputs[i] = inputs.reshape((1,inputs.shape[0],inputs.shape[1]))
这一行基本上将整个矩阵放入另一个矩阵中,给它一个更大的维度。