如何在 Sklearn 聚类中使用我的数据集



我正在尝试调整这里的 Sklearn 示例以使用我自己的数据集,这是一个 1000 行、4 列的整数矩阵。我看不出如何用我的数据集替换其中一个 SKlearn 数据集。即我该替换什么

noisy_circles = datasets.make_circles(n_samples=n_samples, factor=.5,
                                  noise=.05)

跟?

datasets.make_circles函数创建一个具有非常清晰模式的玩具数据集。它返回的数据是一个元组,其中包含一个 X 特征数组(n x 2 维)和一个 y 个标签数组(长度 n)。

要将数据传递到聚类分析脚本中,只需将其转换为类似的格式,并使用该格式代替 make_circles 返回的值。

将数据加载为二维 numpy 数组。阅读 numpy 和 scipy 的文档,了解如何根据您手头的文件格式执行此操作。

在运行聚类分析算法之前,如果整数表示类别分配而不是数量,则可能需要使用独热编码器预处理数据。

如果它们表示数量,则可能需要使用标准缩放器进行预处理。

相关内容

  • 没有找到相关文章

最新更新