我有一个带有四个回归标签的数据。每个回归标签的样本是不平衡的。数据随帖子附于此data_multi_label_reg.csv.
它有5列,其中4列,即A
、B
、C
和D
用于回归标签。sample
用于数据中的样本或训练示例。
每个样本仅为四个标签中的一个定义。因此,每个样本携带一个标签值,其余为空。
此外,标签高度不平衡。例如,D
是为大多数样本定义的,而A
是为最少样本定义的。
是否有任何python包可以将该数据集划分为train_test_split
,以便在训练和测试拆分中,每个标签的比率都保留为原始数据集中的比率。
sklearn
函数如下。
x_train, x_test, y_train, y_test = train_test_split(x, y,
test_size=0.33,
random_state=0,
stratify=y)
但这似乎适用于单标签输出。多标签回归输出是否有类似的函数?
您可以查看scikit多学习库。有iterative_train_test_split
模块。看看这个简单的用法示例和这个文档。