R cl有效函数 大型数据集的错误



我正在尝试使用此软件包评估我的聚类结果 我运行以下内容,但它给了我错误;

intern <- clValid(test_clvalid, 3:25, maxitems = 260000, clMethods="kmeans", validation="internal")
Error in hclust(Dist, method) : size cannot be NA nor exceed 65536

test_clvalid是我的数据集,它有 256342 个带有 5 个数值变量的观测值。

当我用较少的数据观察运行相同的数据时,它似乎运行良好。不知道为什么当我指定使用 k 均值计算时调用 hclust((/给出错误。

不幸的是,该包正在使用hclust将输入初始化为kmeans, 正如你在这里看到的。 这也意味着, 在此之前, 计算交叉距离矩阵, 它为您的整个数据集提供了256,342 x 256,342维度。hclust函数是硬编码的,以处理最多65536 x 65536矩阵, 因此,您将无法使用该包来评估数据的 K 均值。

最新更新