我一直在对来自两位作者的电子邮件进行分类。我已经成功地使用监督学习以及文本的TFIDF矢量化,PCA和SelectPercentile特征选择来执行相同的操作。我使用scikit-learn包来实现相同的目的。
现在我想尝试使用无监督学习 KMeans 算法将电子邮件分为两组。我已经创建了数据集,其中我将每个数据点作为 python 列表中的一行。由于我是无监督的新手,所以我想问一下我是否可以应用与监督相同的降维工具(TFIDF,PCA和SelectPercentile)。如果不是,那么他们的对应物是什么?我正在使用scikit-learn对其进行编码。
我环顾了一下堆栈溢出,但没有得到满意的答案。我真的被困在这一点上。
请帮忙!
可用于无监督学习的降维技术:
- PCA:主成分分析
- 精确的 PCA
- 增量 PCA
- 近似 PCA
- 内核 PCA
- SparsePCA 和 MiniBatchSparsePCA
- 随机投影
- 高斯随机投影
- 稀疏随机投影
- 特征集聚
- 标准定标器
上面提到的是一些可用于在无监督学习的情况下对大量数据进行降维的方法。您可以在此处阅读有关详细信息的更多信息。