多标签分类包括作为标签的数字范围

我有一个分类问题，我的标签是评级，0-100，增量为1（例如1、2、3、4）。

我有一个数据集，每一行都有一个名称、文本语料库和一个评分（0-100）。

我试图从文本语料库中提取可以输入分类器的特征，分类器将每行输出相应的评级（0-100）。

对于特征选择，我正在考虑从基本的单词袋开始。然而，我的问题在于分类算法。sci-kit learn中是否有支持此类问题的分类算法？

我在读书http://scikit-learn.org/stable/modules/multiclass.html，但所描述的算法似乎支持完全离散的标签，而我有一组连续的标签。

编辑：那我把我的评分丢弃的情况呢？例如，我可以有10个标签，每个标签1-10个。

您可以使用多变量回归而不是分类。U可以对文本语料库中的n元特征进行聚类，形成字典，并使用它来形成特征集。使用这个特征集，训练一个回归模型，其中输出可以是连续值。U可以对输出实数进行四舍五入，以获得1-100 中的离散标签

您可以使用OneHotEncoder对数据进行预处理，将一个1到100的特征转换为与区间[1..100]的每个值相对应的100个二进制特征。然后，您将拥有100个标签，并学习多类分类器。

不过，我建议使用回归。

相关内容