通过聚类分析确定文本相似度



我是CS的大四本科生,目前正在写论文。在这篇论文中,我编写了一个使用基于密度的聚类方法的程序。更具体地说,光学算法。我知道如何使用它,但我不知道它是否有效。

我想用这个算法进行文本分类。文本是集合中必须进行聚类的点,因此生成的层次结构由文本的类别和子类别组成。例如,一个这样的集合是"科学文献",由子集"数学"、"生物学"等组成。

我想到了这样一个想法,即我可以分析文本中遇到的特定单词,这些单词在特定文本中比在整个数据集中更频繁,也可以排除介词等无关紧要的单词。也许我可以使用开源的自然语言解析器来达到这个目的,比如斯坦福解析器。之后,程序将每个文本中的这些"特征词"组合成一组,并且可以从该组中提取一定数量的最频繁单词。这个数量成为聚类的维度,每个单词在特定文本中的频率被用作一个点的坐标。因此,我们可以将它们聚集在一起。

问题是,这个想法是有效的,还是完全是无稽之谈?一般的聚类,特别是基于密度的聚类,可以用于这种分类吗?也许有某种文学可以为我指明正确的方向?

集群!=分类

运行聚类算法,并研究结果最有可能的是,不会有以"数学"为主题的"科学文献"集群-那么你会怎么做?

此外,集群只会给你,这对于相似性搜索来说太粗糙了-相反,你需要首先来解决相似性问题,然后才能运行OPTICS等集群算法。

你所描述的"想法"几乎是每个人多年来一直在尝试的。

最新更新