时间序列-使用时间片方法拆分数据



参考这篇文章:在R中的CARET包中的createTimeSlices函数,其中createTimeSlices被建议作为使用时间序列数据时交叉验证的选项。我想了解如何去选择值为"初始窗口","地平线"one_answers"固定窗口"在火车控制。

它们在插入符号中定义如下(?createTimeSlices):

initialWindow -每个训练集样本中连续值的初始个数

horizon -测试集样本中连续值的个数

fixedWindow -一个逻辑:如果FALSE,训练集总是从第一个样本开始。

谁能进一步详细说明如何选择正确的值initialWindow &Horizon和为fixedWindow选择TRUE或FALSE的实际含义?

initialWindow :第一次建模迭代的训练集/窗口的大小。它应该有多大取决于你拟合的模型的复杂性,所以你必须研究期望得到可靠拟合的最小样本量。显然,更复杂的模型需要更大的窗口,参见例如测量预测精度,第6页。

fixedWindow :如果TRUE意味着移动窗口(总是等于initialWindow的大小),如果FALSE意味着增长窗口(换句话说,它总是从第一个样本开始),用于拟合模型。在插入符号模型的通常输出中,你可以观察到训练样本的大小,以及它是在增长还是在移动,如(fixedWindow = FALSE, horizon = 1):

Resampling: Rolling Forecasting Origin Resampling (1 held-out with no fixed window) 
Summary of sample sizes: 100, 101, 102, 103, 104, 105, ... 

horizon :这定义了测试模型的连续步数。插入符号模型的输出给出了预测n步骤时模型精度的总结。这里应该选择的值取决于您的应用程序,即是否需要短期或长期预测。

最新更新