我有一个df,看起来像:
selection.body selection.hair selection.eyes selection.breasts selection.butt selection.skin
normal blonde other large medium tanned
normal blonde other xl medium tanned
normal blonde other large medium tanned
chubby blonde blue xl large tanned
slim blonde other medium small white
让我们把这个数据集想象成一个调查的答案:
- 每行表示单个应答者的选择,从一组封闭的首选项中选择他的首选项。
我已经检查了每个选项的频率,但我想继续。
我的目标是:
确定最常见的选择组合。
根据此组合对用户进行分组。
选择间的相关性
谢谢你的提示。
找到最常见的组合不是聚类,而是频繁的项集挖掘。
你试过先验吗?