k-means

0热度

1回答

使用K均值聚类时，我删除了独立变量的前5位和后5位百分位数值，因此我在几个数据点上丢失了数据。现在我使用K均值聚类后，我得到每个数据点的聚类。我如何获得先前由于异常值而被删除的数据点群集

1热度

1回答

我想看看是否有一个点在“肘形图”，这将有助于我选择在K意味着K算法但是，我注意到WSSSE有时增加K随着增加。我的假设是WSSSE会随着K的增加而减少。我附上一张显示此图片的图片以及Pyspark代码。 enter image description here

0热度

1回答

转换数据帧到Vector.dense为K均值

继回答这个问题 How to convert type Row into Vector to feed to the KMeans 我创建了功能表我的数据。（assembler是一个Vector汇编） val kmeanInput = assembler.transform(table1).select("features") 当我跑k均值与kmeanInput val clusters =

0热度

1回答

用于估算Kmeans中K值的度量标准

我试图使用Elbow和BIC方法估算Kmeans中K的数量.X是多维数据点数组（100000个数据点X 100个特征）这里是我用于弯头： Ks = [40,50,60,70,80,90,100,110,120] ds = [] for K in Ks: cls = MiniBatchKMeans(K, batch_size =1000, random_state = 101)

-2热度

1回答

k均值聚类与Sklearn蟒n维阵列

我有在Python阵列由具有不同尺寸的多个不同的阵列组成，例如： KB=[[[1,2],[2,4],[2,4,5,3],[5,4,3,2,1]],[[1,2],[2,4],[2,4,5,3], [5,4,3,2,1]],........] 基本上，阵列中的每个条目具有固定数量的可以用不同尺寸表征的子阵列（第一个条目具有2-D，第三个条目具有4-D等等）。现在，使用在python

0热度

1回答

为了找到簇的交叉点中的R

假设我已经做了多种操作和相关值的创建的集群矢量如下所示 D <- matrix(rexp(10*10,rate=.1), ncol=10) #create a randomly filled 10x10 matrix C <- matrix(rexp(10*10,rate=.1),ncol=10) DCor <- cor(D) # generate correlation matrix C

-2热度

1回答

绘制我是新来的R A特定的集群

的结果，所以我不知道是否已经被重复之前我的查询。我对样本数据集执行k = 3的k均值聚类，算法返回所需的聚类结果。现在我想绘制第2簇的结果，以查看第2簇中的成员彼此隔开多远。我会怎么做？由于 name <- sample(letters[1:25]) age<-sample(20:50, 25, replace=FALSE) salary <-sample(2000:10000, 25, r

0热度

1回答

如何在进行K均值聚类后找到每个聚类中最具代表性/区分性的特征？

我试图使用高维数据集（CDR数据）的K均值。集群后，我谨代表每个集群与最翔实的特点能展现出独特的/代表客户在该集群的特征。例如，群集1：高：call_duration]，[低：NUMBER_OF_FRIENDS]，[高：call_at_night] 群集2： [低：call_duration]，[高：use_promot离子] 集群3：高：internet_usage] 我想知道......

0热度

3回答

K意味着条件

我想将K均值（或任何其他简单聚类算法）应用于带有两个变量的数据，但我希望群集遵守一个条件：每个群集第三个变量的总和> some_value。这可能吗？

0热度

1回答

k = 2的Kmeans算法给出了相等的簇大小输出

我使用修改后的Lloyd算法来获得k = 2的k均值的相同簇大小输出。以下是伪代码： - Randomly choose 2 points as initialization for the 2 clusters (denoted as c1, c2) - Repeat below steps until convergence - Sort all points xi accord