关于如何构建 LSTM 输入数据的建议

我已经建立了模型来预测特定股票的价格。我拥有过去三年该股票的所有每小时蜡烛数据，以及其他功能。

现在，输入向量形状为 [206,72,9]。72 是三天，9 是要素的数量。

我的第一个问题是，对于第二维度，是否有最佳数量的蜡烛？[618,24,9] 可能会改善结果吗？

我的第二个问题是，现在数据 [1,2,3,4,5,6] 以 [1,2,3]，[4,5,6] 的形式传入，其中不包含重叠的小时数。将其更改为[1,2,3]，[2,3,4]，[3,4,5]，[4,5,6]是否也有可能改善结果？

让我尝试同时回答您的两个问题。

更多的数据(在更大的时间步长和重叠序列方面(可能会改善结果 - 但是在某些情况下，过多的数据也可能损害您的预测。

使用 LSTM 模型进行时间序列预测的缺点之一是，它们倾向于将先前时间步的过多波动性带入后续预测 - 这可能使该模型不适合分析趋势数据 - 它们最适合用于高度波动的时间序列。因此 - 在回答您的问题时 - 太多的数据可能与没有足够的数据一样糟糕 - 这完全取决于所分析的时间序列。

在这方面，您应该考虑股票的价格趋势。如果它是高度波动的股票，例如小盘股，那么 LSTM 模型可能会很好地工作。但是，如果它是大盘股，或者随着时间的推移数据有明显趋势的股票，那么 LSTM 可能被证明是不合适的。

您可能会找到以下关于使用 LSTM 预测使用油价的文章 - 很明显，随着数据的强劲趋势，LSTM 被证明过于不稳定而无法有效预测。

问题 1：最佳数量就像任何模型超参数一样，您需要自己找到它。每个模型和每个数据都是不同的，不可能有一个现成的答案。

但总的来说：

问题 2：是的，使用滑动窗口会得到改进，因为您有更多的数据可以更好地泛化。(除非你的原始数据集已经足够长了(

相关内容