k-means

0热度

1回答

我正在尝试将Kmean与我的数据一起使用但我在将数据提供给图表时遇到问题。我的代码是在这里与数据样本GIT 我得到错误： tensorflow.python.framework.errors.InvalidArgumentError: You must feed a value for placeholder tensor 'Placeholder' with dtype float 请帮我解

0热度

1回答

Pyspark平行ml.KMeans覆盖对方的K

我跟着这篇文章并行运行KMeans。我在EMR上使用了Python 2.7和Spark 2.0.2。从不同的工艺提交 How to run multiple jobs in one Sparkcontext from separate threads in PySpark? 正如邮报，工作不应该相互影响。在给定的Spark应用程序（SparkContext实例）中，如果多个并行作业是从单独的线程

0热度

1回答

如何从本地目录读取，kmeans流pyspark

我需要帮助从本地目录读取与pyspark运行kmeans流。有没有很好的答案在这个题目上的计算器这里是我的代码 if __name__ == "__main__": ssc = StreamingContext(sc, 1) training_data_raw, training_data_df = prepare_data(TRAINING_DATA_SET)

0热度

1回答

计算质心和精度

我有两个点feat_left, feat_right获得从连体网络和我绘制这些点在x,y坐标如下所示。这里是python脚本 import json import matplotlib.pyplot as plt import numpy as np data = json.load(open('predictions-mnist.txt')) n=len(data['outpu

1热度

1回答

RuntimeError：在cmp中超出最大递归深度：K意味着集群

我正在实现K均值聚类算法。到目前为止，这是我： import copy import csv import math import random import sys class Centroid(): def __init__(self, coordinates, _id): self.id = _id self.coordinates = coo

-3热度

1回答

如何调查群集质量？

我一直在试验K均值聚类算法。我有一个数据集的电影评论与我摆弄，尝试使用我手动（以及编程）定义的功能将它们聚类。我开始意识到，在聚类之前不可能知道使用k的值，而且我不确定我自己想要的聚类数量。我想我可以只获得集群并手动观察以前未观察到的相同集群中实体的相似性。我的问题有以下几点：将在同一集群的元素真的有关？群集的“质量”在每个群集中是否相同？我如何验证它？

-1热度

1回答

H2O造型：独立的K-means或回归代码

我对H2O非常陌生，并且在荨麻疹上运行模型。我此刻考虑使用H2O的原因在于，我的理解是，H2O有助于在各种建模过程（如k均值或逻辑回归）中优化数据分析。我的问题是：有没有办法让我编写我的python（或R）k-means代码并在H2O中运行，或者唯一的方法是使用H2O预建过程？如果是后者，那么我可以提取最终的得分代码，以便将其计划为定期得分的自动运行吗？如果第一个选项也是可能的（我注意到了“导入

0热度

1回答

k-means在python中不能正确聚类

我在尝试使用k-means来聚类数据集。当我运行我的算法时，只有一次迭代会返回随机簇，但是当我尝试多次迭代时，它只返回0。我使用的矩阵是一个50k x 140的二进制矩阵。每一行代表一个用户，每一列代表一个项目。 def clusterizator(matriz, nDeClusters, it=10): # matrix, number of clusters, number of iterat

0热度

1回答

如何保存群集种子以获得进一步的评分目的

我正在Python中构建k-means聚类模型。但是，我不确定如何保存群集质心以及如何将它们用于未来的评分目的。当我稍后使用模型时，我总是希望分配相同的群集ID。我会很感激，如果有人有一个明确的代码来演示如何做到这一点。更新： @HannounYassir嗨，肯定，对不起，我应该以前也做过这样的：想象一下，我的数据集的名字是data_clean和所有的变量都是标准化和前手清洗。 # def

1热度

1回答

TF KMeansClustering不能在GPU上运行

在Ubuntu 16.04上运行最新（1.1.0）张量流（通过pip3 install tensorflow-gpu安装），CUDA8 + CUDNN5。代码看起来或多或少是这样的： import tensorflow as tf from tensorflow.contrib.learn import KMeansClustering trainencflt = #pandas fram