2017-07-18 110 views
0

我有一个包含5列的数据框。我正在尝试为三个变量X,YZ聚类点,并找出kmeans聚类的损失函数。下面的代码会照顾到这一点,但是如果我使用160,000行对我的真实数据框运行此操作,它需要永远!我认为它可以做得更快。计算大熊猫数据框中kmeans的损失函数

PS:看来KMeans模块在sklearn不提供损失函数,这就是为什么我写我自己的代码。

from sklearn.cluster import KMeans 
import numpy as np 

df = pd.DataFrame(np.random.randn(1000, 5), columns=list('XYZVW')) 
kmeans = KMeans(n_clusters = 6, random_state = 0).fit(df[['X','Y', 'Z']].values) 
df['Cluster'] = kmeans.labels_ 
loss = 0.0 
for i in range(df.shape[0]): 
    cluster = int(df.loc[i, "Cluster"]) 
    a = np.array(df.loc[i,['X','Y', 'Z']]) 
    b = kmeans.cluster_centers_[cluster] 
    loss += np.linalg.norm(a-b) 
print(loss) 
+0

避免Python代码,如for循环。口译员很慢。向量化您的操作! –

回答

0

看来,scipy包照顾损失功能,它是相当快。下面的代码:

from scipy.cluster.vq import vq, kmeans, whiten 
import numpy as np 
df = pd.DataFrame(np.random.randn(1000, 5), columns=list('XYZVW')) 
centers, loss = kmeans(df[['X','Y', 'Z']].values, 6) 
df['Cluster'] = vq(features, centers)[0] 

话虽这么说,我还是想知道计算使用sklearnkmeans模块损失函数的最快方式。