2017-08-12 71 views
0

的线性代数结构我一直在使用gensim库python.I Word2Vecmodel建要评估我的字嵌入如下评估Word2Vec模型通过找到的话

如果A是关系到B和C是与d ,那么A-C + B应该等于D.例如,“印度” - “卢比”+“日本”的嵌入向量算法应该等于“日元”的嵌入。

我已经使用gensim的构建功能,像predict_output_word,most_similar,但无法获得所需的结果。

new_model.predict_output_word(['india','rupee','japan'],topn=10) 
new_model.most_similar(positive=['india', 'rupee'], negative=['japan']) 

请按照上述标准帮助我评估我的模型。

回答

2

您应在most_similar()方法的positivenegative参数以相同的方式为accuracy()方法:

https://github.com/RaRe-Technologies/gensim/blob/718b1c6bd1a8a98625993d73b83d98baf385752d/gensim/models/keyedvectors.py#L697

具体来说,如果您有以下形式的比喻“A是B的关系就像C是为[预计]”,你应该看看:

results = model.most_similar(positive=[word_b, word_c], negative=[word_a]) 

或者在你的榜样:

results = model.most_similar(positive=['rupee', 'japan'], negative=['india'])