关于如何构建 LSTM 输入数据的建议



我已经建立了模型来预测特定股票的价格。我拥有过去三年该股票的所有每小时蜡烛数据,以及其他功能。

现在,输入向量形状为 [206,72,9]。72 是三天,9 是要素的数量。

我的第一个问题是,对于第二维度,是否有最佳数量的蜡烛?[618,24,9] 可能会改善结果吗?

我的第二个问题是,现在数据 [1,2,3,4,5,6] 以 [1,2,3],[4,5,6] 的形式传入,其中不包含重叠的小时数。将其更改为[1,2,3],[2,3,4],[3,4,5],[4,5,6]是否也有可能改善结果?

让我尝试同时回答您的两个问题。

更多的数据(在更大的时间步长和重叠序列方面(可能会改善结果 - 但是在某些情况下,过多的数据也可能损害您的预测。

使用 LSTM 模型进行时间序列预测的缺点之一是,它们倾向于将先前时间步的过多波动性带入后续预测 - 这可能使该模型不适合分析趋势数据 - 它们最适合用于高度波动的时间序列。因此 - 在回答您的问题时 - 太多的数据可能与没有足够的数据一样糟糕 - 这完全取决于所分析的时间序列。

在这方面,您应该考虑股票的价格趋势。如果它是高度波动的股票,例如小盘股,那么 LSTM 模型可能会很好地工作。但是,如果它是大盘股,或者随着时间的推移数据有明显趋势的股票,那么 LSTM 可能被证明是不合适的。

您可能会找到以下关于使用 LSTM 预测使用油价的文章 - 很明显,随着数据的强劲趋势,LSTM 被证明过于不稳定而无法有效预测。

问题 1:最佳数量就像任何模型超参数一样,您需要自己找到它。每个模型和每个数据都是不同的,不可能有一个现成的答案。

但总的来说:

  • 太短:数据不足,无法学习
  • 太长:可能处理太多而收益(甚至损失(很少

问题 2:是的,使用滑动窗口会得到改进,因为您有更多的数据可以更好地泛化。(除非你的原始数据集已经足够长了(

相关内容

最新更新