我正在尝试调整这里的 Sklearn 示例以使用我自己的数据集,这是一个 1000 行、4 列的整数矩阵。我看不出如何用我的数据集替换其中一个 SKlearn 数据集。即我该替换什么
noisy_circles = datasets.make_circles(n_samples=n_samples, factor=.5,
noise=.05)
跟?
datasets.make_circles
函数创建一个具有非常清晰模式的玩具数据集。它返回的数据是一个元组,其中包含一个 X 特征数组(n x 2 维)和一个 y 个标签数组(长度 n)。
要将数据传递到聚类分析脚本中,只需将其转换为类似的格式,并使用该格式代替 make_circles
返回的值。
将数据加载为二维 numpy 数组。阅读 numpy 和 scipy 的文档,了解如何根据您手头的文件格式执行此操作。
在运行聚类分析算法之前,如果整数表示类别分配而不是数量,则可能需要使用独热编码器预处理数据。
如果它们表示数量,则可能需要使用标准缩放器进行预处理。