二进制数据的聚类技术



我想使用聚类技术进行二进制数据分析。我已经通过调查收集了数据,其中我要求用户从94个产品功能的列表中精确选择20个功能。我的数据中的列代表94个产品功能,行代表参与者。我试图根据他们选择的产品功能将相似用户聚集在不同的用户组中。每个用户群集还应告诉我每个群集相关的产品功能。我正在使用一些开源聚类工具,例如NCSS和JMP。我试图使用模糊的聚类技术来实现我的目标,但不幸的是,这些工具并不涉及二进制数据。您能建议我哪种技术真的适合我的任务,以及我可以使用哪种在线工具在我的数据上使用群集分析?作为时间限制的BeaCuse,我不希望自己编码,我只是在寻找一些具有所有可用功能的开源工具。

二进制数据的聚类并不是很好定义。

您应该首先尝试回答"简单"问题:

,而不是寻找可能通过反复错误来工作或可能无法使用的工具/功能。

什么是数学上的好集群?

不允许使用模糊的条款。然后要回答的下一个问题是:i)何时聚类比聚类B更好(即计算机如何计算质量),ii)如何有效地找到它。

,如果您仅通过调用随机函数不了解自己在做什么...

,就不会走很远的

另外,实际上是您要寻找的内容吗?在大多数时候使用二进制数据,例如频繁的项目集挖掘是更好的选择。

最新更新