我一直试图在回归树(或随机森林回归器)中使用分类inpust,但sklearn不断返回错误并要求数字输入。
import sklearn as sk
MODEL = sk.ensemble.RandomForestRegressor(n_estimators=100)
MODEL.fit([('a',1,2),('b',2,3),('a',3,2),('b',1,3)], [1,2.5,3,4]) # does not work
MODEL.fit([(1,1,2),(2,2,3),(1,3,2),(2,1,3)], [1,2.5,3,4]) #works
MODEL = sk.tree.DecisionTreeRegressor()
MODEL.fit([('a',1,2),('b',2,3),('a',3,2),('b',1,3)], [1,2.5,3,4]) # does not work
MODEL.fit([(1,1,2),(2,2,3),(1,3,2),(2,1,3)], [1,2.5,3,4]) #works
据我所知,在这些方法中,分类输入应该是可能的,而不需要任何转换(例如WOE替换)。
其他人遇到过这种困难吗?
谢谢!
scikit-learn
没有分类变量(也称为R中的因子)的专用表示,一种可能的解决方案是使用LabelEncoder
:将字符串编码为int
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestRegressor
X = np.asarray([('a',1,2),('b',2,3),('a',3,2),('c',1,3)])
y = np.asarray([1,2.5,3,4])
# transform 1st column to numbers
X[:, 0] = LabelEncoder().fit_transform(X[:,0])
regressor = RandomForestRegressor(n_estimators=150, min_samples_split=2)
regressor.fit(X, y)
print(X)
print(regressor.predict(X))
输出:
[[ 0. 1. 2.]
[ 1. 2. 3.]
[ 0. 3. 2.]
[ 2. 1. 3.]]
[ 1.61333333 2.13666667 2.53333333 2.95333333]
但请记住,如果a
和b
是独立的类别,并且它只适用于基于树的估计量,那么这是一个轻微的破解。为什么?因为CCD_ 6实际上并不比CCD_ 7大。正确的方法是在LabelEncoder
或pd.get_dummies
之后使用OneHotEncoder
,为X[:, 0]
生成两个单独的、一个热编码列。
import numpy as np
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.ensemble import RandomForestRegressor
X = np.asarray([('a',1,2),('b',2,3),('a',3,2),('c',1,3)])
y = np.asarray([1,2.5,3,4])
# transform 1st column to numbers
import pandas as pd
X_0 = pd.get_dummies(X[:, 0]).values
X = np.column_stack([X_0, X[:, 1:]])
regressor = RandomForestRegressor(n_estimators=150, min_samples_split=2)
regressor.fit(X, y)
print(X)
print(regressor.predict(X))
您必须在python中手动伪代码。我建议使用pandas.get_dummies()进行一次热编码。对于Boosted树,我已经成功地使用factorize()来实现顺序编码。
这里还有一整套的这类东西。
有关更详细的解释,请参阅这篇数据科学堆栈交换文章。