严重不平衡/倾斜的数据群集



我在 Alteryx 上的 k 均值聚类结果遇到了一些问题。我正在尝试对大约 5000 个文本描述的数据集进行主题建模。在数据清理、解析和删除停用词和常用词之后,我创建了一个包含 20 个单词和大约 5000 个文档的文档术语矩阵。

在 Alteryx 上运行 K-Means 聚类后,无论我指出了多少个聚类,所有聚类中始终只有 1 个文档,除了一个包含其余所有文档的文档。例如:

2 集群

  • 第 1 组:19 个单词
  • 第 2 组:1 个单词

3 集群

  • 第 1 组:18 个单词
  • 第 2 组:1 个单词
  • 第 3 组:1 个单词

5 集群

  • 第 1 组:16 个单词
  • 第 2 组:1 个单词
  • 第 3 组:1 个单词
  • 第 4 组:1 个单词
  • 第 5 组:1 个单词

无论我指示多少个聚类,都会发生此聚类行为。寻求一些帮助来阐明并确定这些结果是否意味着我的数据有问题,或者我没有使用正确的设置?

您是否在预处理后查看了数据?

可能许多文档现在都是空的,或者只包含一个单词。

除了找到常用词之外,所剩无几。

相关内容

  • 没有找到相关文章

最新更新