如何在Sklearn集群中使用我的数据集？

我正在尝试修改Sklearn示例here以使用我自己的数据集，这是一个1000行，4列整数矩阵。我看不出如何用我的SKlearn数据集替换其中的一个。即我该如何取代如何在Sklearn集群中使用我的数据集？

noisy_circles = datasets.make_circles(n_samples=n_samples, factor=.5, 
            noise=.05)

与？

2014-11-14 schoon

datasets.make_circles函数创建一个非常清晰的模式的toy dataset。它返回的数据是一个包含X数组要素（n×2维）和y数组标签（长度为n）的元组。

要将数据传递到群集脚本中，只需将其放入类似的格式中，并使用该格式代替由make_circles返回的值。

2014-11-14 17:06:13

将您的数据加载为2维numpy数组。阅读numpy和scipy的文档，根据您手头的文件格式来学习如何操作。

在运行聚类算法之前，如果整数平均类别分配而不是数量，则可能需要使用one-hot encoder预处理数据。

如果它们代表数量，则可能需要使用StandardScaler进行预处理。

2014-11-14 17:20:47 ogrisel

回答