我有一个关于不同功能集组合的小问题。
我的情况:
有一个标题,一些标签和一个文本分类为"垃圾邮件"或"火腿"的文档。为了从文档(标题和文本)中提取特征,我使用了scikit-learn bugtracker中描述的方法。
在这一步之后,我可以使用clf.fit(X,Y)
,其中X
是fit_transform
操作的结果,Y
表示文档是火腿(0
)还是垃圾邮件(1
)。
我的问题:
添加标签的最好方法是什么?我想使用FeatureHasher
与包含标签的字典作为每个文档的特征(例如{"tag1": 1, "tag35":1}
)。
您应该看看FeatureUnion
,如下所示。它允许您创建多个变压器并将其所有输出组合成一个矩阵。