在scikit-learn中结合独立的功能



我有一个关于不同功能集组合的小问题。

我的情况:

有一个标题,一些标签和一个文本分类为"垃圾邮件"或"火腿"的文档。为了从文档(标题和文本)中提取特征,我使用了scikit-learn bugtracker中描述的方法。

在这一步之后,我可以使用clf.fit(X,Y),其中Xfit_transform操作的结果,Y表示文档是火腿(0)还是垃圾邮件(1)。

我的问题:

添加标签的最好方法是什么?我想使用FeatureHasher与包含标签的字典作为每个文档的特征(例如{"tag1": 1, "tag35":1})。

您应该看看FeatureUnion,如下所示。它允许您创建多个变压器并将其所有输出组合成一个矩阵。

相关内容

  • 没有找到相关文章

最新更新