我在 Alteryx 上的 k 均值聚类结果遇到了一些问题。我正在尝试对大约 5000 个文本描述的数据集进行主题建模。在数据清理、解析和删除停用词和常用词之后,我创建了一个包含 20 个单词和大约 5000 个文档的文档术语矩阵。
在 Alteryx 上运行 K-Means 聚类后,无论我指出了多少个聚类,所有聚类中始终只有 1 个文档,除了一个包含其余所有文档的文档。例如:
2 集群
- 第 1 组:19 个单词
- 第 2 组:1 个单词
3 集群
- 第 1 组:18 个单词
- 第 2 组:1 个单词
- 第 3 组:1 个单词
5 集群
- 第 1 组:16 个单词
- 第 2 组:1 个单词
- 第 3 组:1 个单词
- 第 4 组:1 个单词
- 第 5 组:1 个单词
无论我指示多少个聚类,都会发生此聚类行为。寻求一些帮助来阐明并确定这些结果是否意味着我的数据有问题,或者我没有使用正确的设置?
您是否在预处理后查看了数据?
可能许多文档现在都是空的,或者只包含一个单词。
除了找到常用词之外,所剩无几。