Scikit-learn,向矢量化的文档集添加功能



我从scikit-learn开始,我正在尝试将一组文档转换为可以应用聚类和分类的格式。我已经看到了矢量化方法的细节,以及加载文件和索引其词汇表的tfidf转换。

但是,我为每个文档准备了额外的元数据,例如作者、负责的部门、主题列表等。

如何将特征添加到由向量化函数生成的每个文档向量中?

您可以使用DictVectorizer作为额外的分类数据,然后使用scip .sparse.hstack将它们组合在一起

相关内容

  • 没有找到相关文章

最新更新