k-means

-1热度

2回答

我必须将我的人口聚类在8 clusters。我正在使用proc fastclus和k-means方法（以最小化群集之间的差异）。观察结果代表一个分数，所以即使在聚类过程之后，它们仍然是有序的。我注意到这样： proc sort data=input.population; by score; run; proc fastclus data = input.population

-1热度

1回答

如何处理K平均值算法中每个坐标值的不同标度值？

我正在练习使用python的K-means。我正在处理一组购物数据，并且输入数据集看起来像这样。输入表头： [用户ID] [money_spent_on_clothes]诠释 [money_spent_on_food] INT [money_spent_on_shoes] INT [money_spent_on_Monday] INT [money_spent_on_Tuesday ] int

-5热度

1回答

k-means的网格搜索

我有一个线性方程来聚集一些查询，我想调整超参数。现在我想知道我可以使用“网格搜索”进行“k-means”聚类吗？或者它不能用于k-means？在我的工作中，我将数据分成80-20比例，80％的数据用于训练模型，20％用于测试。 TNX

0热度

2回答

k-means使用Spark/Scala对geolocated数据进行聚类

如何使用k-means聚类算法在这里处理geolocated数据，有人可以在这里分享您的输入，在此先感谢。 Project_2_Dataset.txt file entries look like this ================================================= 33.68947543 -117.5433083 37.88

0热度

1回答

如何使用K-means算法发现异常/异常

我目前新机器学习，我将努力对涉及使用机器学习库检测以及可能的异常警报的项目。我将使用Apache Spark，并决定使用KMeans方法来解决该项目。主要项目包括在分析日常文件和检测中的一些记录，波动变化，并报告他们作为可能的异常（如果它们被认为是一个基于模型）。这些文件是在一天结束时生成的，我的程序需要在第二天早上检查它们，看看是否有异常。但是，我需要检查异常文件vs文件，而不是在文件中。这意

1热度

1回答

使用scipy kmeans进行聚类分析

我想了解scipy.cluster.vq.kmeans。在2D空间中分布有许多点，问题是将它们分组为簇。这个问题引起了我的关注，读取this question，我在想，scipy.cluster.vq.kmeans将要走。这是数据：使用下面的代码，所述目的将是获得每个25簇的中心点。 import numpy as np import matplotlib.pyplot as plt f

-2热度

1回答

在K-Means算法（Apache Spark）中查找K的完美值

我正在研究一个涉及使用K均值模型进行异常检测的项目。但是，要获得精确的几乎和精确的结果，我需要找到K. 我的算法依赖于在我的模型的异常值一般由自己放置在群集上的想法的最佳值。通常，“正常”数据将与其他正常数据聚集在一起，但异常数据会形成它们自己的聚类，因此表明存在异常。但是，我需要找到K的最佳值，以便我的算法能够正常工作，并查看它是否合适。关于如何找到一个好的K值的任何想法？这是“正常的”虚

0热度

1回答

库（clValid） - 要集群的项目数大于“maxitems”

每当我打电话：出现 library(clValid) clValid(da_mat, nClust = 2:6,clMethods = "kmeans",method = "ward", validation = "internal",verbose = F,metric = "euclidean") 以下问题：要集群的项目数大于'maxitems' 所需的存储空间和时间可能过多，您是否希

1热度

1回答

三维sklearn K-means聚类

我想要使用纬度/经度作为X/Y轴和DaysUntilDueDate作为我的Z轴群集数据。我还想保留索引列（'PM'），以便以后可以使用此聚类分析创建计划。我发现here的教程非常棒，但我不知道它是否考虑了Z轴，而且我的四周没有导致任何错误。我想在代码中重要的一点是iloc位此行的参数： kmeans_model = KMeans(n_clusters=k, random_state=1).fit(

3热度

1回答

如何找到有意义的单词来表示从word2vec向量中导出的每个k-均值聚类？

我在Python中使用了gensim包来加载预先训练好的Google word2vec数据集。然后我想用k-means在我的单词向量上找到有意义的集群，并找到每个集群的代表性单词。我正在考虑使用相应向量与集群质心最接近的词来表示该集群，但不知道这是否是一个好主意，因为我的实验没有给出好的结果。我的示例代码是象下面这样： import gensim import numpy as np imp