文档聚类基础

所以，我对这些概念已经思考了一段时间，我的理解是非常基本的。信息检索似乎是一个很少涉及的话题在野外…

我的问题源于文档聚类的过程。假设我从一个只包含有趣单词的文档集合开始。第一步是什么?解析每个文档中的单词并创建一个巨大的"单词袋"类型模型?然后我要继续为每个文档创建字数向量吗?如何使用k均值聚类来比较这些文档呢?

试试Tf-idf。
如果你读过Python，看看"使用MiniBatchKmeans聚类文本文档"在scikit-learn:
这是一个展示如何使用scikit-learn进行聚类的例子使用词袋方法的主题文档"。
源码中的feature_extraction/text.py有很好的类。

相关内容