我正在尝试将聚类算法应用于我的数据集。我的数据集是电影,其中一些属性是名义上的。例如:
movie 1:
[
IMDB popularity: 1.02
Genre: Drama
Sub-genre: Horror
Rating: 1.23%
]
movie 2:
[
IMDB popularity: 2.08
Genre: Comedy
Sub-genre: Animation
Rating: 0.72%
]
etc. etc.
我可以应用类似于 K 均值的东西吗?K-means适用于距离,如果我只是将例如"戏剧"标记为0,将"恐怖"标记为1,将"喜剧"标记为2,将"动画"标记为3 - 那么我实际上要说的是,例如"戏剧"与"恐怖"的关系更密切,然后与"喜剧"相关(对于这个例子,它可能在某种程度上接近现实,但对于一般情况,很难将单词标记为数字并保持实际比率。是否有解决此问题的已知算法?
针对特定问题的统计传统解决方案是将值编码为不同的变量:
- 伊斯霍罗尔
- 是喜剧. . .
然后,您可以对结果运行 k 均值。
我要发表两点意见。 首先,请确保以某种方式规范化值(标准化或标准化主成分是两种典型方法)。
我更喜欢期望最大化聚类,它是 k 均值的连续变体,因为它通常会产生更好的结果。