我正试图将LightGBM用于回归问题(平均绝对误差/L1-或类似的Huber或pseud Huber-loss(,我主要想调整我的超参数。optuna
中的LightGBMTunerCV
提供了一个很好的起点,但在那之后,我想更深入地搜索(而不会丢失自动调谐器学到的东西(。此外,我想使用平均交叉验证分数+交叉验证分数的标准差作为我对模型进行排名的指标(即,我认为较低的SD是对来自同一分布的看不见的数据表现更稳定的好迹象(。
我做过这样的事:
import optuna
import optuna.integration.lightgbm as lgb
params = {
"objective": "l1",
"metric": "l1",
"verbosity": -1,
"boosting_type": "gbdt",
}
dtrain = lgb.Dataset(X, label=y)
mystudy = optuna.create_study()
tuner = lgb.LightGBMTunerCV(
params, dtrain,
verbose_eval=False,
time_budget=6000,
study = mystudy)
tuner.run()
现在我想做一个进一步的搜索,考虑到这些结果。如果我之前没有结果,我可能会做这样的事情:
def objective(trial):
param = {
'objective': 'l1',
'metric': 'l1',
'verbosity': -1,
'boosting_type': 'gbdt',
'lambda_l1': trial.suggest_loguniform('lambda_l1', 1e-8, 10.0),
'lambda_l2': trial.suggest_loguniform('lambda_l2', 1e-8, 10.0),
'num_leaves': trial.suggest_int('num_leaves', 2, 512),
'feature_fraction': trial.suggest_uniform('feature_fraction', 0.1, 1.0),
'bagging_fraction': trial.suggest_uniform('bagging_fraction', 0.1, 1.0),
'bagging_freq': trial.suggest_int('bagging_freq', 1, 15),
'min_child_samples': trial.suggest_int('min_child_samples', 2, 256),
'seed': 1979
}
# insert code for getting X and y ready
dtrain = lgb.Dataset(X, label=y)
lcv = lgb.cv(
param,
dtrain,
verbose_eval=False)
return lcv['l1-mean'][-1]+lcv['l1-stdv'][-1]
optuna.logging.set_verbosity(optuna.logging.WARNING)
study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=2500)
我有点不清楚如何将之前的结果添加到研究中。不定义一项新的研究可能会解决这个问题,但看起来LightGBMTunerCV
使用的是平均分(而不是平均值+标准差(,没有办法轻易改变这一点?可以以某种方式对研究中的试验进行后期处理以添加stdv吗?
我甚至还没有看到一个明确的例子,说明如何使用FixedTrial
来强制研究重新运行最佳调整参数(即使我知道这应该是可能的(,这可能是另一种方法。
研究类有一种称为enqueue_trial
的方法,它将trial
类插入评估队列中。
所以你可以这样做,以使用调整后的参数作为起点:
optuna.logging.set_verbosity(optuna.logging.WARNING)
study = optuna.create_study(direction='minimize')
# insert this line:
study.enqueue_trial(tuner.best_params)
study.optimize(objective, n_trials=2500)