k-means

    0热度

    1回答

    我在熊猫数据帧上应用K-means聚类。集群分配功能如下: def assign_to_cluster(row): lowest_distance = -1 closest_cluster = -1 for cluster_id, centroid in centroids_dict.items(): df_row = [row['PPG'],row['

    2热度

    2回答

    当我从下面这个Scikit使用教程K均值文本聚类学习K-手段之前使用LSA: http://scikit-learn.org/stable/auto_examples/text/document_clustering.html 在这个例子中,可选LSA(使用SVD)用于执行降维。 为什么这很有用?使用“max_features”参数可以在TF-IDF矢量化器中控制尺寸(特征)的数量。 我知道LSA

    0热度

    2回答

    我正在寻找一种方法来分割与python n个群集中的二维数组。我想使用K平均法,但我没有找到任何代码。我尝试了sklearn库的k-means,但我还没有理解如何正确使用它。

    0热度

    1回答

    我试图聚集在培训期间没有看到的新数据,只包含测试数据。培训文件有5个类别,而测试数据有7个类别(5 +2),其中2个是新类别。现在,我想运行k-均值来为新添加的类找到适当的群集,或者为它们创建新的群集(如果它们不接近任何群集)。 这是我的代码的一部分: print("Reading training data...") #mydata = pd.read_csv('.\KDDTrain.cs

    0热度

    1回答

    如果我施加PCA上的特征向量,然后我做聚类,例如像以下: reduced_data = PCA(n_components=2).fit_transform(data) kmeans = KMeans(init='k-means++', n_clusters=n_digits, n_init=10) kmeans.fit(reduced_data) 减小的数据将是在PCA分量而言,使后 在k

    1热度

    2回答

    我想为每个输入数据分配一个标签;例如,数据[0]是'k',数据[2]是'b',数据[5]是'j',数据[13]是另一个'k',....等等。 在这里显示聚类后:3D plot of 2 clusters,我想检索每个群集中每个“点标签”的类型。 import numpy as np from sklearn.cluster import KMeans import matplotlib.pyp

    3热度

    1回答

    我完全是Spark的新手,目前我正尝试使用Python编写一个简单的代码,用于对一组数据执行KMeans 。 from pyspark import SparkContext, SparkConf from pyspark.sql import SQLContext import re from pyspark.mllib.clustering import KMeans, KMeansMo

    2热度

    1回答

    我有一个6个从属的spark集群。并且火花默认示例pi.py可以在我的环境中成功运行。 但运行spark默认示例kmeans.py时出现以下错误。 ./bin/spark-submit --master spark://master_ip:7077 examples/src/main/python/mllib/kmeans.py data/mllib/kmeans_data.txt 2 的错误

    0热度

    1回答

    我有使用tm包创建的文档的语料库,并且我使用相同的包制作了文档术语矩阵。我想用k-means聚类来聚集文档。我使用欧几里德距离,所以我首先对矢量进行归一化处理,以使欧几里得变得有意义。但是,规范化时,它会为一个特定文档创建'NaN'值,我不知道为什么。该代码使用: m = dtm norm_eucl = function(m) m/apply(m, MARGIN=1, FUN=function(

    1热度

    2回答

    我试图从SkLearn中使用Kmeans算法构建一组数据。我想知道如何确定算法是否实际收敛到数据解决方案。 我们提供tol参数来定义收敛容差,但也有一个参数定义了算法为每次运行执行的迭代次数。我发现该算法可能并不总是在迭代的max_iter时间内收敛。那么是否有任何属性或函数可以访问,以便知道算法是否在迭代之前收敛?