通过聚类分析确定文本相似度

我是CS的大四本科生，目前正在写论文。在这篇论文中，我编写了一个使用基于密度的聚类方法的程序。更具体地说，光学算法。我知道如何使用它，但我不知道它是否有效。

我想用这个算法进行文本分类。文本是集合中必须进行聚类的点，因此生成的层次结构由文本的类别和子类别组成。例如，一个这样的集合是"科学文献"，由子集"数学"、"生物学"等组成。

我想到了这样一个想法，即我可以分析文本中遇到的特定单词，这些单词在特定文本中比在整个数据集中更频繁，也可以排除介词等无关紧要的单词。也许我可以使用开源的自然语言解析器来达到这个目的，比如斯坦福解析器。之后，程序将每个文本中的这些"特征词"组合成一组，并且可以从该组中提取一定数量的最频繁单词。这个数量成为聚类的维度，每个单词在特定文本中的频率被用作一个点的坐标。因此，我们可以将它们聚集在一起。

问题是，这个想法是有效的，还是完全是无稽之谈？一般的聚类，特别是基于密度的聚类，可以用于这种分类吗？也许有某种文学可以为我指明正确的方向？

集群！=分类

运行聚类算法，并研究结果最有可能的是，不会有以"数学"为主题的"科学文献"集群-那么你会怎么做？

此外，集群只会给你集，这对于相似性搜索来说太粗糙了-相反，你需要首先来解决相似性问题，然后才能运行OPTICS等集群算法。

你所描述的"想法"几乎是每个人多年来一直在尝试的。

集群！=分类

相关内容

最新更新

热门标签：