路透社21578数据集上mahout的糟糕聚类结果

我使用了reuters 21578数据集的一部分和mahout k-均值进行聚类。更具体地说，我只提取了对"主题"类别具有独特价值的文本。因此，我只剩下9494篇属于66个类别之一的文本。我使用seqdirectory从文本中创建序列文件，然后使用seq2sparse来装箱向量。然后，我用余弦距离度量运行k-means（我也尝试过tanimoto和欧几里得，运气不好），cd=0.1，k=66（与类别数量相同）。因此，我尝试使用自定义Java代码和剪影的matlab实现来评估剪影测量的结果（只是为了确保我的代码中没有错误），我得到聚类的平均剪影是0.0405，我发现我得到的聚类结果一点也不好。那么，这是由于马胡特还是路透社数据集的分类质量低？

附言：我正在使用Mahout 0.7

PS2：对不起我英语不好。。

我从未真正使用过Mahout，所以我不能说它默认做什么，但您可以考虑检查它默认使用的距离度量。例如，如果度量是未规范化文档字数的欧几里得距离，则可以预期质量非常差的聚类质量，因为文档长度将主导文档之间的任何有意义的比较。另一方面，像归一化的余弦距离，或tf-idf加权的单词计数可以做得更好。

另一件需要关注的事情是路透社21578的主题分布。它非常偏向于"acq"或"earn"等少数主题，而其他主题只使用了少量次数。这可能很难实现良好的外部聚类度量。

相关内容

最新更新

热门标签：