如何将语音数据重塑为 LSTM 输入?



我正在对语音数据中的语音和非语音进行分类,其中包含3630371个数据点和39个特征。 即语音数据的形状是(3630371,39)。如何将其重塑为 LSTM 输入。什么是3D input_shape或"样本","时间步长"和"特征"的值是什么。

以下正确吗?

data.reshape(3630371, 1, 39)
LSTM(32, input_shape = (1, 39))

请帮忙!我不知道。

LSTM 输入:(no of samples, timesteps, features)

data.reshape(3630371, 1, 39)
LSTM(32, input_shape = (1, 39))

在上面的代码中,您基本上只有 1 个时间步长没有利用 LSTM 的功能。您正在做的是:第一个时间步中的 LSTM 将 39 维向量作为输入和迭代终止。

另一种选择是给出 39 个时间步长的标量。

data.reshape(3630371, 39, 1)

在这里,LSTM 循环 39 次(39 个时间步长),但在每个时间步都采用标量作为输入。

事实上,任何其他组合都可以直到no_timestep x feature_dim = total_input_dimension。通常,这在很大程度上取决于您正在使用的域来修复这些数字。

最新更新