我有一个分类问题,我的标签是评级,0-100,增量为1(例如1、2、3、4)。
我有一个数据集,每一行都有一个名称、文本语料库和一个评分(0-100)。
我试图从文本语料库中提取可以输入分类器的特征,分类器将每行输出相应的评级(0-100)。
对于特征选择,我正在考虑从基本的单词袋开始。然而,我的问题在于分类算法。sci-kit learn中是否有支持此类问题的分类算法?
我在读书http://scikit-learn.org/stable/modules/multiclass.html,但所描述的算法似乎支持完全离散的标签,而我有一组连续的标签。
编辑:那我把我的评分丢弃的情况呢?例如,我可以有10个标签,每个标签1-10个。
您可以使用多变量回归而不是分类。U可以对文本语料库中的n元特征进行聚类,形成字典,并使用它来形成特征集。使用这个特征集,训练一个回归模型,其中输出可以是连续值。U可以对输出实数进行四舍五入,以获得1-100 中的离散标签
您可以使用OneHotEncoder对数据进行预处理,将一个1到100的特征转换为与区间[1..100]的每个值相对应的100个二进制特征。然后,您将拥有100个标签,并学习多类分类器。
不过,我建议使用回归。