如何在 Sklearn 聚类中使用我的数据集

我正在尝试调整这里的 Sklearn 示例以使用我自己的数据集，这是一个 1000 行、4 列的整数矩阵。我看不出如何用我的数据集替换其中一个 SKlearn 数据集。即我该替换什么

noisy_circles = datasets.make_circles(n_samples=n_samples, factor=.5,
                                  noise=.05)

跟？

datasets.make_circles函数创建一个具有非常清晰模式的玩具数据集。它返回的数据是一个元组，其中包含一个 X 特征数组（n x 2 维）和一个 y 个标签数组（长度 n）。

要将数据传递到聚类分析脚本中，只需将其转换为类似的格式，并使用该格式代替 make_circles 返回的值。

将数据加载为二维 numpy 数组。阅读 numpy 和 scipy 的文档，了解如何根据您手头的文件格式执行此操作。

在运行聚类分析算法之前，如果整数表示类别分配而不是数量，则可能需要使用独热编码器预处理数据。

如果它们表示数量，则可能需要使用标准缩放器进行预处理。

相关内容