如何将语音数据重塑为 LSTM 输入?

我正在对语音数据中的语音和非语音进行分类，其中包含3630371个数据点和39个特征。即语音数据的形状是(3630371,39)。如何将其重塑为 LSTM 输入。什么是3D input_shape或"样本"，"时间步长"和"特征"的值是什么。

以下正确吗？

data.reshape(3630371, 1, 39)
LSTM(32, input_shape = (1, 39))

请帮忙！我不知道。

LSTM 输入：(no of samples, timesteps, features)

data.reshape(3630371, 1, 39)
LSTM(32, input_shape = (1, 39))

在上面的代码中，您基本上只有 1 个时间步长没有利用 LSTM 的功能。您正在做的是：第一个时间步中的 LSTM 将 39 维向量作为输入和迭代终止。

另一种选择是给出 39 个时间步长的标量。

data.reshape(3630371, 39, 1)

在这里，LSTM 循环 39 次(39 个时间步长)，但在每个时间步都采用标量作为输入。

事实上，任何其他组合都可以直到no_timestep x feature_dim = total_input_dimension。通常，这在很大程度上取决于您正在使用的域来修复这些数字。

相关内容