对标称数据进行聚类

我正在尝试将聚类算法应用于我的数据集。我的数据集是电影，其中一些属性是名义上的。例如：

movie 1:
[
IMDB popularity: 1.02
Genre: Drama
Sub-genre: Horror
Rating: 1.23%
]
movie 2:
[
IMDB popularity: 2.08
Genre: Comedy
Sub-genre: Animation
Rating: 0.72%
]
etc. etc.

我可以应用类似于 K 均值的东西吗？K-means适用于距离，如果我只是将例如"戏剧"标记为0，将"恐怖"标记为1，将"喜剧"标记为2，将"动画"标记为3 - 那么我实际上要说的是，例如"戏剧"与"恐怖"的关系更密切，然后与"喜剧"相关（对于这个例子，它可能在某种程度上接近现实，但对于一般情况，很难将单词标记为数字并保持实际比率。是否有解决此问题的已知算法？

针对特定问题的统计传统解决方案是将值编码为不同的变量：

伊斯霍罗尔
是喜剧. . .

然后，您可以对结果运行 k 均值。

我要发表两点意见。首先，请确保以某种方式规范化值（标准化或标准化主成分是两种典型方法）。

我更喜欢期望最大化聚类，它是 k 均值的连续变体，因为它通常会产生更好的结果。

相关内容

最新更新

热门标签：