机器学习-电影类型的聚类

我是数据挖掘领域的初学者，想对我的电影数据集进行聚类，以便找到genre组。我的数据集中有86部电影的26种不同类型。我想用集群把我的电影分成几个类型，而不是26个。因此，例如，在运行一些聚类算法之后，我将剩下4个集群或任何最适合我的数据集的小计数。我将我的数据集定义如下M1 {g1, g2，..... g26}M2 {G1, G2,…G26}哪里每个类型G1，....，G26取值为0或1,0表示不存在，1表示存在。现在我的下一步是在上面运行k-means聚类，我想使用一个好的距离函数，例如Pearson相关系数。

我用MATLAB做实验。我试着用k=3,4,5,6来求k均值我还运行了Hierarchial Clustering.

我不确定如何确定哪种聚类结果更好。如何检查呢?由于我是初学者，我不知道如何在MATLAB中绘制二元特征的聚类。此外，我不知道如何使用Pearson相关系数作为k-Means中的距离度量。请帮助。

求值是聚类中最难的部分。

如果你知道你在寻找什么，你就不需要运行聚类分析。

所以不存在聚类的客观"真理"。你如何看待集群在很大程度上取决于你的个人需求，除非你将它们编码成自定义算法，否则集群算法很可能计算出完全不同的东西。

例如，

k-means使方差最小化。无论方差是否符合你对集群的想法!

对于您的用例，最好的完整性检查是每个现有的类型分配应该主要在一个集群内。如果它到处都是，那么群集就不会按照你的类型概念进行群集。

如果你没有基础真理，那么就没有特别的方法来衡量你的聚类有多成功。

所以假设你没有一个基本真理，你可以使用簇内相似性;这是当您测量每个集群内节点的相似性时。我想看看均值移位聚类，因为你不需要指定簇的数量。

相关内容

最新更新

热门标签：