对标称数据进行聚类



我正在尝试将聚类算法应用于我的数据集。我的数据集是电影,其中一些属性是名义上的。例如:

movie 1:
[
IMDB popularity: 1.02
Genre: Drama
Sub-genre: Horror
Rating: 1.23%
]
movie 2:
[
IMDB popularity: 2.08
Genre: Comedy
Sub-genre: Animation
Rating: 0.72%
]
etc. etc.

我可以应用类似于 K 均值的东西吗?K-means适用于距离,如果我只是将例如"戏剧"标记为0,将"恐怖"标记为1,将"喜剧"标记为2,将"动画"标记为3 - 那么我实际上要说的是,例如"戏剧"与"恐怖"的关系更密切,然后与"喜剧"相关(对于这个例子,它可能在某种程度上接近现实,但对于一般情况,很难将单词标记为数字并保持实际比率。是否有解决此问题的已知算法?

针对特定问题的统计传统解决方案是将值编码为不同的变量:

  • 伊斯霍罗尔
  • 是喜剧. . .

然后,您可以对结果运行 k 均值。

我要发表两点意见。 首先,请确保以某种方式规范化值(标准化或标准化主成分是两种典型方法)。

我更喜欢期望最大化聚类,它是 k 均值的连续变体,因为它通常会产生更好的结果。

相关内容

  • 没有找到相关文章

最新更新