多标签不平衡列车试验拆分



我有一个带有四个回归标签的数据。每个回归标签的样本是不平衡的。数据随帖子附于此data_multi_label_reg.csv.

它有5列,其中4列,即ABCD用于回归标签。sample用于数据中的样本或训练示例。

每个样本仅为四个标签中的一个定义。因此,每个样本携带一个标签值,其余为空。

此外,标签高度不平衡。例如,D是为大多数样本定义的,而A是为最少样本定义的。

是否有任何python包可以将该数据集划分为train_test_split,以便在训练和测试拆分中,每个标签的比率都保留为原始数据集中的比率。

sklearn函数如下。

x_train, x_test, y_train, y_test = train_test_split(x, y,
test_size=0.33,
random_state=0,
stratify=y)

但这似乎适用于单标签输出。多标签回归输出是否有类似的函数?

您可以查看scikit多学习库。有iterative_train_test_split模块。看看这个简单的用法示例和这个文档。

最新更新