机器学习-电影类型的聚类



我是数据挖掘领域的初学者,想对我的电影数据集进行聚类,以便找到genre组。我的数据集中有86部电影的26种不同类型。我想用集群把我的电影分成几个类型,而不是26个。因此,例如,在运行一些聚类算法之后,我将剩下4个集群或任何最适合我的数据集的小计数。我将我的数据集定义如下M1 {g1, g2,..... g26}M2 {G1, G2,…G26}哪里每个类型G1,....,G26取值为0或1,0表示不存在,1表示存在。现在我的下一步是在上面运行k-means聚类,我想使用一个好的距离函数,例如Pearson相关系数。

我用MATLAB做实验。我试着用k=3,4,5,6来求k均值我还运行了Hierarchial Clustering.

我不确定如何确定哪种聚类结果更好。如何检查呢?由于我是初学者,我不知道如何在MATLAB中绘制二元特征的聚类。此外,我不知道如何使用Pearson相关系数作为k-Means中的距离度量。请帮助。

求值是聚类中最难的部分。

如果你知道你在寻找什么,你就不需要运行聚类分析。

所以不存在聚类的客观"真理"。你如何看待集群在很大程度上取决于你的个人需求,除非你将它们编码成自定义算法,否则集群算法很可能计算出完全不同的东西。

例如,

k-means使方差最小化。无论方差是否符合你对集群的想法!

对于您的用例,最好的完整性检查是每个现有的类型分配应该主要在一个集群内。如果它到处都是,那么群集就不会按照你的类型概念进行群集。

如果你没有基础真理,那么就没有特别的方法来衡量你的聚类有多成功。

所以假设你没有一个基本真理,你可以使用簇内相似性;这是当您测量每个集群内节点的相似性时。我想看看均值移位聚类,因为你不需要指定簇的数量。

最新更新