我有一个不平衡的数据集,所以我有一个过采样策略,我只在训练数据时应用。我想使用像GridSearchCV
或cross_val_score
这样的 scikit-learn 类来探索或交叉验证我的估计器(例如 SVC)上的一些参数。但是,我看到您要么传递 cv 折叠的数量,要么传递标准的交叉验证生成器。
我想创建一个自定义的 cv 生成器,以便我获得并分层 5 倍并仅对我的训练数据进行过采样(4 倍),并让 scikit-learn 查看我的估计器的参数网格并使用剩余的折叠进行评分以进行验证。
交叉验证生成器返回一个长度n_folds
的迭代对象,其每个元素都是 numpy 一维数组的 2 元组,(train_index, test_index)
包含该交叉验证运行的测试和训练集的索引。
因此,对于 10 倍交叉验证,自定义交叉验证生成器需要包含 10 个元素,每个元素包含一个包含两个元素的元组:
- 该运行的训练子集的索引数组,涵盖 90% 的数据
- 该运行的测试子集的索引数组,涵盖 10% 的数据
我正在研究一个类似的问题,其中我为数据的不同折叠创建了整数标签。我的数据集存储在 Pandas 数据帧myDf
中,该数据帧具有交叉验证标签的列cvLabel
。 我构造自定义交叉验证生成器myCViterator
如下所示:
myCViterator = []
for i in range(nFolds):
trainIndices = myDf[ myDf['cvLabel']!=i ].index.values.astype(int)
testIndices = myDf[ myDf['cvLabel']==i ].index.values.astype(int)
myCViterator.append( (trainIndices, testIndices) )
我遇到了类似的问题,这个快速的技巧对我有用:
class UpsampleStratifiedKFold:
def __init__(self, n_splits=3):
self.n_splits = n_splits
def split(self, X, y, groups=None):
for rx, tx in StratifiedKFold(n_splits=self.n_splits).split(X,y):
nix = np.where(y[rx]==0)[0]
pix = np.where(y[rx]==1)[0]
pixu = np.random.choice(pix, size=nix.shape[0], replace=True)
ix = np.append(nix, pixu)
rxm = rx[ix]
yield rxm, tx
def get_n_splits(self, X, y, groups=None):
return self.n_splits
这会对少数类进行采样(替换)以获得平衡的(k-1)
倍训练集,但使第k
个测试集不平衡。 这似乎适用于需要 CV 生成器的sklearn.model_selection.GridSearchCV
和其他类似类。
Scikit-Learn为此提供了一种解决方法,他们的标签k折叠迭代器:
LabelKFold是 k 折叠的变体,可确保相同的标签不在测试和训练集中。例如,如果您从不同主题获得数据,并且希望通过对不同主题进行测试和培训来避免过度拟合(即学习人员的特定特征),这是必要的。
要在过度采样的情况下使用此迭代器,首先,您可以在数据帧中创建一列(例如cv_label
),用于存储每行的索引值。
df['cv_label'] = df.index
然后,您可以应用过采样,确保在过采样中也复制cv_label
列。此列将包含过采样数据的重复值。您可以从这些标签创建单独的系列或列表,以便以后处理:
cv_labels = df['cv_label']
请注意,在运行交叉验证器/分类器之前,需要从数据帧中删除此列。
将数据分为特征(不包括cv_label
)和标签后,创建LabelKFold
迭代器并运行所需的交叉验证函数:
clf = svm.SVC(C=1)
lkf = LabelKFold(cv_labels, n_folds=5)
predicted = cross_validation.cross_val_predict(clf, features, labels, cv=lkf)
class own_custom_CrossValidator:#like those in source sklearn/model_selection/_split.py
def init(self):#coordinates,meter
pass # self.coordinates = coordinates # self.meter = meter
def split(self,X,y=None,groups=None):
#for compatibility with #cross_val_predict,cross_val_score
for i in range(0,len(X)): yield tuple((np.array(list(range(0,len(X))))