我正在尝试使用scikit-learn构建一个预测模型(随机森林,sgd等(,似乎每个模型都只允许您拟合文本数据,例如
classifier.fit(X,Y)
。其中Y
是目标,X
是文本特征向量 (count_vec -> tf_idf(。有没有办法拥有一个除了文本特征矩阵之外还包含几个分类变量的模型?我可以简单地将它们作为新列附加到X
的右侧吗?
您需要首先转换分类数据 - 简单地将字符串类别附加到来自特征提取器(如 TfIdfCountVectorizer(的数字值将不起作用。下面是有关将类别转换为数字特征数据的 SO 问题和答案,您可以将其附加到右侧。