为什么XGBoost拟合速度也很慢,即使数据集很小



作为Python机器学习的完整新手,我正在尝试训练XGBoost模型以预测IRIS数据集(https://www.kaggle.com/uciml/iris(。<<<<<<<<<<<<<<<<<<<</p>

我目前专注于XGBOOST,试图获得一些经验。我的第一个模型列车,即数据集的66%,仅2个功能,从未完成(20分钟后打断(。我还尝试从中制作一个很小的样本(5个样本,2个功能(,但仍然无法完成。

环境详细信息:MacBook Pro 2017,带有MacOS 10.14.5,Python 3.7.3通过Anaconda Navigator 1.9.7。

# File downloaded from Kaggle Link above
iris = pd.read_csv('Iris.csv')
iris['Species'] = iris.apply(lambda r: r['Species'][5:], axis = 1)
features = iris[['PetalLengthCm', 'PetalWidthCm']]
species, labels = pd.factorize(iris['Species'])
X_train, X_test, y_train, y_test = train_test_split(features, species, test_size=0.33, random_state=42)
xgb_x_train = X_train.head()
xgb_y_train = y_train[:5]
print(xgb_x_train.shape)
print(len(xgb_y_train))
(5, 2)
5
xgbclf = xgb.XGBClassifier()
xgbclf.fit(xgb_x_train, xgb_y_train)

我希望上面的代码在"合理"的时间(即少于4-5分钟(中产生训练有素的模型(由于仅使用5个样本而不是微调(,但是拟合阶段永远不会完成。

我在做一些非常错误的事情可能会导致这种高适合时代吗?

感谢您的每个建议!Mattia

也许您没有正确安装XGBoost(我在Windows中发生一次(,建议尝试使用conda install重新安装。

但是,对于您的情况,您可以尝试在Google Colab https://colab.research.google.com上上传代码(它们为您提供免费的GPU,并且所有内容已经安装(。该培训只需几秒钟。

最新更新