2017-07-31 383 views
0

这可能是我即将问到的天真问题。我有一个标记化的语料库,我已经训练了Gensim的Word2vec模型。代码如下Python:基于word2vec对类似单词进行聚类

site = Article("http://www.datasciencecentral.com/profiles/blogs/blockchain-and-artificial-intelligence-1") 
site.download() 
site.parse() 

def clean(doc): 
    stop_free = " ".join([i for i in word_tokenize(doc.lower()) if i not in stop]) 
    punc_free = ''.join(ch for ch in stop_free if ch not in exclude) 
    normalized = " ".join(lemma.lemmatize(word) for word in punc_free.split()) 
    snowed = " ".join(snowball.stem(word) for word in normalized.split()) 
    return snowed 

b = clean(site.text) 
model = gensim.models.Word2Vec([b],min_count=1,size=32) 
print(model) ### Prints: Word2Vec(vocab=643, size=32, alpha=0.025) #### 

要聚类相似的单词,我使用PCA来可视化类似单词的聚类。但问题在于,它只能形成图像中看到的大集群。

PCA &散点图代码:

vocab = list(model.wv.vocab) 
X = model[vocab] 
pca = PCA(n_components=2) 
X_pca = pca.fit_transform(X) 

df = pd.concat([pd.DataFrame(X_pca), 
       pd.Series(vocab)], 
       axis=1) 
df.columns = ['x','y','word'] 

fig = plt.figure() 
ax = fig.add_subplot(1,1,1) 
ax.scatter(df['x'],df['y']) 
plt.show() 

所以,我有三个问题在这里:

1)只是一文足有集群的明确分离? 2)如果我有一个训练有庞大语料库的模型,并且我想要预测新文章中的相似单词,并以集群的形式对它们进行可视化(即我预测的文章中的单词),那么有没有如何做到这一点?

我非常感谢您的建议。谢谢。

回答

1
  1. 不,不是真的。作为参考,在维基百科上训练的常见word2vec模型(英文版)包含大约30亿字。
  2. 您可以使用KNN(或类似的东西)。 Gensim有most_similar函数来获取最接近的单词。使用维度减少(如PCA或tsne),您可以获得一个很好的群集。 (不知道如果gensim有tsne模块,但sklearn有,所以你可以使用它)

btw你指的是一些图像,但它不可用。

+0

谢谢@lazary。是的,我完全同意培训数据大小的要求。我使用了k-means集群,然后给了我很好的清晰集群。发布问题时附上图片,但没有显示。当我尝试编辑时,有一个指向我的附件的链接。 –