k-means

0热度

1回答

我有一个显示两个真正大集群的PCA，我不知道如何确定每个集群中的哪些样本。如果有帮助，进出口使用prcomp生成PCA： pca1 <- autoplot(prcomp(df), label = TRUE, label.size = 2) 我的方法是尝试集群中使用K均值的PCA输出，2组获得集群： pca <- prcomp(df, scale.=TRUE) clust <- kmeans

0热度

2回答

如何在python中找到Kmeans ++聚类的拟合程度

如何在K-means ++聚类中找到拟合度，以显示输入与每个聚类对齐的百分比。例如，输入A在群集1中为0.4，在群集2中为0.6。

0热度

1回答

修复集群运动PySpark

我使用from pyspark.ml.clustering import KMeans库来完成KMeans集群。我想确保表示集群只移动10次，并且没有更多 10次。我应该使用哪个参数？对我而言，我认为它应该是maxIter=10，但不确定。哪一个是最好的？ maxIter=10或initSteps=10

0热度

1回答

运行spark mllib kmeans时，网站上每个阶段的作用是什么？

我尝试使用spark mllib kmeans，但作业挂在舞台上“KAsans.scala：302上的collectAsMap”。我的代码是由python写的。能有一个人告诉我什么是对每个阶段发生的事情，如“聚集在KMeans.scala：436”：“404 KMeans.scala汇总”，“在KMeans.scala collectAsMap：302” here is the jobs pic

0热度

1回答

PCA和K-means for word clustering

我有维基百科文章的语料库。我找出了10,000个最常用的单词，找到了它们的Word2Vec向量，并且在这些向量上使用了球形k-均值，根据意义上的相似性将这些单词聚类为500个组。我挑出了3个单词集并将单词转换回单词向量。每个单词向量都是一个300个数值的数组，所以我将它们全部应用PCA（从sklearn）将它们转换为2D。然后我绘制：每个点代表一个字，每种颜色代表1簇。问题是，这些群集不应该重

1热度

1回答

根据多行将数据帧拆分为多个部分

所以我想知道是否可以对多行数据框进行排序。例如，假设有一个有5行的数据框，我想随机选择几行，在这种情况下，我会说2，我将它指定为centroid1和centroid2，然后根据这些行对数据框进行排序。在这种情况下，小于质心1的行高于质心1，大于质心1但小于质心2的行位于它们之间，大于质心2的行位于质心2以下。 def compareRows(arr1, arr2): a1 = sum

0热度

1回答

k表示使用python的结构化数据 - 多于一列

如何在结构化数据中的多列上做k？在下面1列（名称）及其所完成的例子 tfidf_matrix = tfidf_vectorizer.fit_transform（df_new [“名”]）这里仅使用名字，但说我们想用的名字和国家，我是否应该将国家添加到同一专栏如下？ df_new['name'] = df_new['name'] + " " + df_new['country'] tfidf_

0热度

1回答

在使用Spark的集群中的“java.lang.NullPointerException”

我想了解输入.csv文件上的K均值聚类，它由56376行和两列组成，第一列代表id，第二列代表一组字/此数据的示例如下： ** 1。 1428951621做版必修来到米兰2013年4月19日maynardmonday 16 1429163429室温windeerlust sehun hyungluhan yessehun做甚至版必修天今天** 用于处理这种情况的Scala代码数据看起来像这样 v

3热度

3回答

在张量流中使用KMeans tflearn估计器作为图的一部分

我试图使用tensorflow.contrib.learn.KMeansClustering作为Tensorflow中图的一部分。我想用它作为图的组成部分，给我预测和中心。代码的相关部分如下： with tf.variable_scope('kmeans'): kmeans = KMeansClustering(num_clusters=num_clusters,

-1热度

1回答

星火K均值得到原始簇中心/质心与标准化

我跑了K-Means模型 val kmeans = new KMeans().setK(k).setSeed(1L) val model = kmeans.fit(train_dataset) 然后提取聚类中心（重心） var clusterCenters:Seq[(Double,Double,Double,Double,Double,Double,Double,Double,Double)