多标签不平衡列车试验拆分

我有一个带有四个回归标签的数据。每个回归标签的样本是不平衡的。数据随帖子附于此data_multi_label_reg.csv.

它有5列，其中4列，即A、B、C和D用于回归标签。sample用于数据中的样本或训练示例。

每个样本仅为四个标签中的一个定义。因此，每个样本携带一个标签值，其余为空。

此外，标签高度不平衡。例如，D是为大多数样本定义的，而A是为最少样本定义的。

是否有任何python包可以将该数据集划分为train_test_split，以便在训练和测试拆分中，每个标签的比率都保留为原始数据集中的比率。

sklearn函数如下。

x_train, x_test, y_train, y_test = train_test_split(x, y,
test_size=0.33,
random_state=0,
stratify=y)

但这似乎适用于单标签输出。多标签回归输出是否有类似的函数？

您可以查看scikit多学习库。有iterative_train_test_split模块。看看这个简单的用法示例和这个文档。

相关内容