我正在为一个类做一个项目,我从LIBSVM中获取一些数据,并通过两种不同的聚类算法运行它。我的kmean生成了8个集群,而我的聚集器将它们分组为3个集群。
现在,我试图判断由我的kmeans生成的集群标签是否可以用于预测由我的聚合集群生成的集群标记,例如,集群#6中的所有实例是否都从agg集群映射到集群#1。
我的教授建议使用决策树分类器,但我不太确定如何做到这一点。我知道我会把agg聚类标签作为类标签,然后把我的数据输入其中,看看它是如何分类的。这就是我的问题所在,我有几个问题:
1) scikit学习决策树分类器输出什么?它是每个实例可能被分类为的概率列表吗?或者它明确地对每个实例进行了分类?
2) 在我输入数据后,每个实例都被分类到Agg生成的3个集群中的一个集群中,我该如何从kmean中找出它属于哪个集群?
3) 有更好的方法吗?我们所需要做的就是"以定量的方式比较不同方法产生的聚类",这样我们就不必使用决策树分类器,但我不确定还有什么好的方法。我已经考虑过rand和调整后的rand指数,但这些似乎不是我想要的
非常感谢您的帮助!提前感谢!
让我先回答3)。是的!sklearn.metrics.cluster请参阅文档。这是从"真实参考"的角度写的,但这并不是真正必要的,调整后的兰德指数和归一化的相互信息非常适合比较两个聚类的相似程度,并且每个聚类都会产生一个有意义的数字。
1) 或者。predict
给出类,predict_proba
给出概率。
2) 我不明白这个问题。