k-means

    0热度

    1回答

    使用K均值聚类时,我删除了独立变量的前5位和后5位百分位数值,因此我在几个数据点上丢失了数据。 现在我使用K均值聚类后,我得到每个数据点的聚类。我如何获得先前由于异常值而被删除的数据点群集

    1热度

    1回答

    我想看看是否有一个点在“肘形图”,这将有助于我选择在K意味着K算法 但是,我注意到WSSSE有时增加K随着增加。我的假设是WSSSE会随着K的增加而减少。我附上一张显示此图片的图片以及Pyspark代码。 enter image description here

    0热度

    1回答

    继回答这个问题 How to convert type Row into Vector to feed to the KMeans 我创建了功能表我的数据。(assembler是一个Vector汇编) val kmeanInput = assembler.transform(table1).select("features") 当我跑k均值与kmeanInput val clusters =

    0热度

    1回答

    我试图使用Elbow和BIC方法估算Kmeans中K的数量.X是多维数据点数组(100000个数据点X 100个特征) 这里是我用于弯头: Ks = [40,50,60,70,80,90,100,110,120] ds = [] for K in Ks: cls = MiniBatchKMeans(K, batch_size =1000, random_state = 101)

    -2热度

    1回答

    我有在Python阵列由具有不同尺寸的多个不同的阵列组成,例如: KB=[[[1,2],[2,4],[2,4,5,3],[5,4,3,2,1]],[[1,2],[2,4],[2,4,5,3], [5,4,3,2,1]],........] 基本上,阵列中的每个条目具有固定数量的可以用不同尺寸表征的子阵列(第一个条目具有2-D,第三个条目具有4-D等等)。 现在,使用在python

    0热度

    1回答

    假设我已经做了多种操作和相关值的创建的集群矢量如下所示 D <- matrix(rexp(10*10,rate=.1), ncol=10) #create a randomly filled 10x10 matrix C <- matrix(rexp(10*10,rate=.1),ncol=10) DCor <- cor(D) # generate correlation matrix C

    -2热度

    1回答

    的结果,所以我不知道是否已经被重复之前我的查询。 我对样本数据集执行k = 3的k均值聚类,算法返回所需的聚类结果。现在我想绘制第2簇的结果,以查看第2簇中的成员彼此隔开多远。我会怎么做?由于 name <- sample(letters[1:25]) age<-sample(20:50, 25, replace=FALSE) salary <-sample(2000:10000, 25, r

    0热度

    1回答

    我试图使用高维数据集(CDR数据)的K均值。 集群后,我谨代表每个集群与最翔实的特点能展现出独特的/代表客户在该集群的特征。 例如, 群集1:高:call_duration],[低:NUMBER_OF_FRIENDS],[高:call_at_night] 群集2: [低:call_duration],[高:use_promot离子] 集群3:高:internet_usage] 我想知道......

    0热度

    3回答

    我想将K均值(或任何其他简单聚类算法)应用于带有两个变量的数据,但我希望群集遵守一个条件:每个群集第三个变量的总和> some_value。 这可能吗?

    0热度

    1回答

    我使用修改后的Lloyd算法来获得k = 2的k均值的相同簇大小输出。 以下是伪代码: - Randomly choose 2 points as initialization for the 2 clusters (denoted as c1, c2) - Repeat below steps until convergence - Sort all points xi accord