循环 python auto_arima以宽数据格式遍历多个列



我首先要说的是,我绝不是Python专家,但我目前的项目要求用Python编程,所以任何帮助都值得赞赏。 我有一个转换后的时间序列,其中包含每月数据(30 个月(和 1000 + 个项目。

我希望为这些列中的每一个运行 arima。它们不相互依赖。从本质上讲,这就像运行 1000 个独立的 Arima 分析。

我在 R 中对此功能进行了编程,方法是为每个项目创建一个数据框列表,并使用 R 的自动 arima 函数循环浏览列表。它缓慢而笨重,但完成了工作。

在Python中执行此操作时,我没有找到创建此结构并使其可行的方法。 相反,我找到了一些代码并尝试从中创建循环。 现在,auto_arima运行在此,但它覆盖了结果,我真的不知道如何使其可行。

我需要运行auto_arima,因为这些项目具有单独的最佳 P、D、Q 参数。

X 是数据,结构是:索引、项目1、项目2、项目3...项

dict_org = {}
dict_pred = {}
for col in X:
    size = int(len(X) * 0.70)
    train, testdata = X[0:size], X[size:len(X)]
    history = [x for x in train[column]]
    predictions = list()
    for column in testdata:
        model = pm.auto_arima(history, start_p=1, start_q=1,
                      test='adf',       # use adftest to find optimal 'd'
                      max_p=3, max_q=3, # maximum p and q
                      m=1,              # frequency of series
                      d=None,           # let model determine 'd'
                      seasonal=False,   # No Seasonality
                      start_P=0, 
                      D=0, 
                      trace=True,
                      error_action='ignore',  
                      suppress_warnings=True, 
                      stepwise=True) # this works 
        output = model.predict()
        yhat = output[0]
        predictions.append(yhat)
        obs = testdata[column]
        history.append(obs)
        print("Predicted:%f, expected:%f" %(yhat, obs))
        error = mean_squared_error(testdata, predictions[:len(testdata)])
    print('Test MSE: %.3f' % error)
    dict_org.update({X[col]: testdata})
    dict_pred.update({X[col]: predictions})
    print("Item: ", X[col], "Test MSE:%f"% error)

我想得到的是所有项目和预测的字典,类似于我通过将R的自动arima传递到数据帧列表上得到的。我现在不断将 yhat 更新为 1 个观察,我不知所措。

我将非常感谢您的帮助。

您现在可能已经找到了解决方案,但是如果其他人偶然发现它,我会留下答案。

auto_arima不是模型本身。这是一个帮助找到最佳模型订单的功能。在上述情况下,您要做的是为其分配一个变量并访问订单和季节性订单,以及最佳模型的 AIC。您可以创建一个小函数来执行此部分,然后将输出使用到实际模型中。

def find_orders(ts):
    stepwise_model = pm.auto_arima(history, start_p=1, start_q=1,
                      test='adf',       # use adftest to find optimal 'd'
                      max_p=3, max_q=3, # maximum p and q
                      m=1,              # frequency of series
                      d=None,           # let model determine 'd'
                      seasonal=False,   # No Seasonality
                      start_P=0, 
                      D=0, 
                      trace=True,
                      error_action='ignore',  
                      suppress_warnings=True, 
                      stepwise=True) # this works 
    return stepwise_model.order, stepwise_model.seasonal_order

然后,您可以为建模部分创建另一个函数(假设您将其称为fit_arima(,并在模型中为循环中的每个时间序列传递顺序和季节性顺序。

for column in testdata:
        order, seasonal_order = find_orders(ts)
        fit_arimax(ts, order=order, seasonal_order=seasonal_order)

希望对您有所帮助!

最新更新