k-means

0热度

1回答

我在熊猫数据帧上应用K-means聚类。集群分配功能如下： def assign_to_cluster(row): lowest_distance = -1 closest_cluster = -1 for cluster_id, centroid in centroids_dict.items(): df_row = [row['PPG'],row['

2热度

2回答

为什么做文本聚类

当我从下面这个Scikit使用教程K均值文本聚类学习K-手段之前使用LSA： http://scikit-learn.org/stable/auto_examples/text/document_clustering.html 在这个例子中，可选LSA（使用SVD）用于执行降维。为什么这很有用？使用“max_features”参数可以在TF-IDF矢量化器中控制尺寸（特征）的数量。我知道LSA

0热度

2回答

蟒蛇K意味着群集阵列

我正在寻找一种方法来分割与python n个群集中的二维数组。我想使用K平均法，但我没有找到任何代码。我尝试了sklearn库的k-means，但我还没有理解如何正确使用它。

0热度

1回答

不同的聚类标签

我试图聚集在培训期间没有看到的新数据，只包含测试数据。培训文件有5个类别，而测试数据有7个类别（5 +2），其中2个是新类别。现在，我想运行k-均值来为新添加的类找到适当的群集，或者为它们创建新的群集（如果它们不接近任何群集）。这是我的代码的一部分： print("Reading training data...") #mydata = pd.read_csv('.\KDDTrain.cs

0热度

1回答

PCA前K均值聚类

如果我施加PCA上的特征向量，然后我做聚类，例如像以下： reduced_data = PCA(n_components=2).fit_transform(data) kmeans = KMeans(init='k-means++', n_clusters=n_digits, n_init=10) kmeans.fit(reduced_data) 减小的数据将是在PCA分量而言，使后在k

1热度

2回答

Scikit学习为输入数据分配标签的Kmeans

我想为每个输入数据分配一个标签;例如，数据[0]是'k'，数据[2]是'b'，数据[5]是'j'，数据[13]是另一个'k'，....等等。在这里显示聚类后：3D plot of 2 clusters，我想检索每个群集中每个“点标签”的类型。 import numpy as np from sklearn.cluster import KMeans import matplotlib.pyp

3热度

1回答

如何将类型<class'pyspark.sql.types.Row'>转换为Vector

我完全是Spark的新手，目前我正尝试使用Python编写一个简单的代码，用于对一组数据执行KMeans 。 from pyspark import SparkContext, SparkConf from pyspark.sql import SQLContext import re from pyspark.mllib.clustering import KMeans, KMeansMo

2热度

1回答

当python运行spark示例kmeans时出现ClassNotFoundException

我有一个6个从属的spark集群。并且火花默认示例pi.py可以在我的环境中成功运行。但运行spark默认示例kmeans.py时出现以下错误。 ./bin/spark-submit --master spark://master_ip:7077 examples/src/main/python/mllib/kmeans.py data/mllib/kmeans_data.txt 2 的错误

0热度

1回答

R中的K均值聚类：规范化DTM创建'NaN'

我有使用tm包创建的文档的语料库，并且我使用相同的包制作了文档术语矩阵。我想用k-means聚类来聚集文档。我使用欧几里德距离，所以我首先对矢量进行归一化处理，以使欧几里得变得有意义。但是，规范化时，它会为一个特定文档创建'NaN'值，我不知道为什么。该代码使用： m = dtm norm_eucl = function(m) m/apply(m, MARGIN=1, FUN=function(

1热度

2回答

Sklearn K表示聚类收敛

我试图从SkLearn中使用Kmeans算法构建一组数据。我想知道如何确定算法是否实际收敛到数据解决方案。我们提供tol参数来定义收敛容差，但也有一个参数定义了算法为每次运行执行的迭代次数。我发现该算法可能并不总是在迭代的max_iter时间内收敛。那么是否有任何属性或函数可以访问，以便知道算法是否在迭代之前收敛？