路透社21578数据集上mahout的糟糕聚类结果



我使用了reuters 21578数据集的一部分和mahout k-均值进行聚类。更具体地说,我只提取了对"主题"类别具有独特价值的文本。因此,我只剩下9494篇属于66个类别之一的文本。我使用seqdirectory从文本中创建序列文件,然后使用seq2sparse来装箱向量。然后,我用余弦距离度量运行k-means(我也尝试过tanimoto和欧几里得,运气不好),cd=0.1,k=66(与类别数量相同)。因此,我尝试使用自定义Java代码和剪影的matlab实现来评估剪影测量的结果(只是为了确保我的代码中没有错误),我得到聚类的平均剪影是0.0405,我发现我得到的聚类结果一点也不好。那么,这是由于马胡特还是路透社数据集的分类质量低?

附言:我正在使用Mahout 0.7

PS2:对不起我英语不好。。

我从未真正使用过Mahout,所以我不能说它默认做什么,但您可以考虑检查它默认使用的距离度量。例如,如果度量是未规范化文档字数的欧几里得距离,则可以预期质量非常差的聚类质量,因为文档长度将主导文档之间的任何有意义的比较。另一方面,像归一化的余弦距离,或tf-idf加权的单词计数可以做得更好。

另一件需要关注的事情是路透社21578的主题分布。它非常偏向于"acq"或"earn"等少数主题,而其他主题只使用了少量次数。这可能很难实现良好的外部聚类度量。

最新更新