每个Mahout集群中的向量



我是一个Apache Mahout新手。我想知道我的命名向量中哪个属于哪个簇。internet上的许多资源都是关于文本文档和使用命令clusterdump的。但是,我的数据集非常大,运行该命令总是会导致Java内存不足异常。此外,我不认为使用clusterdump会回答我的问题。

我想知道是否有可能理解仅仅是使用目录clusteredPoints, clusters-[0-9]+clusters-*-final哪些命名向量属于哪些集群

如果有帮助的话,到目前为止,我已经根据他们的听歌习惯形成了用户群。为此,我最初使用NamedVectors创建了一个序列文件,其中NamedVector的名称是userId, Vector本身是一个双数组,包含用户收听的歌曲标签的权重(示例如下)。

    AR2TSU61187FB5C4F0 0.5 0.2 0.7 0.0 0.0 0.1 0.0 0.0 ...
    ...
    ...
    ...

然后我成功地运行了k-means。我在目录clusteredPoints(大约88个文件名如part-m-00088的文件)和我认为包含质心的目录集群中有输出。

谢谢你的帮助!

我认为您需要对clusterdump做一些研究,试试mahout clusterdump——help试试这个

mahout clusterdump -i clusters-*-final/part-r-00000 -o output -p clusteredPoints/part-m-00000

并尝试此链接以获取进一步解释。

您也可以尝试添加选项- CSV,您将得到如下显示:

  • id_cluster1、vec1 vec2 . . vecl
  • id_cluster2、vec1 vec2 . . vecl

最新更新