在使用lingo3gclusteringalgorithm使用Carrot2 API时群集数据的问题



我有一个场景,我必须在其中群集操作系统数据。实际数据包括 151个使用Windows的用户,27个使用Mac的用户,5个使用Linux的用户。

使用lingo3gclusteringalgorithm与carrot2 api聚类后一次。将群集结果作为 Mac OS用户27,Linux用户5,最后所有Windows用户都在其他主题中cluster 。但是,如果我将 Windows 用户作为单独的群集,那将是一件好事。因此,为了将Windows作为单独的群集,我需要配置哪种群集属性。当前仅使用>"组合cluster-score-balance" 具有值: 1.0 。任何帮助都将受到赞赏

carrot2和lingo3g都是自然文本聚类引擎。您至少需要至少包含一段文本段落来获得明智的结果。

查看您的数据,文本字段包含一个单词,对于我们的算法而言,这太少了。对于您的特定数据,您需要一些适用于数字和名义数据的通用聚类算法。Mahout和Weka可能是一个不错的开始。

最新更新