0
我使用Spark ML来运行Kmeans。我有一堆数据和三个现有的中心,例如三个中心是:[1.0,1.0,1.0],[5.0,5.0,5.0],[9.0,9.0,9.0].
那么我怎么能指出Kmeans中心是上述三个向量。 我看到Kmean对象有种子参数,但种子参数是一个长类型而不是数组。那么我怎么能告诉Spark Kmeans只使用现有的聚类中心。如何设置Spark Kmeans初始中心
或者说,我不明白种子在Spark Kmeans中的含义是什么,我想种子应该是一个向量的数组,它代表运行聚类之前指定的中心。
谢谢,请问通常如何设置种子数?一个较小的值还是一个非常大的值? – Jack
@Jack没关系;它不影响性能,只有当你希望你的结果完全可重现时,你才需要明确地设置它 - 看看这个SO答案(或者只是谷歌的'随机种子')http://stackoverflow.com/questions/ 33973817 /什么,是最种子在-wekas-simplekmeans-人聚类 – desertnaut