2011-04-14 81 views
0

我正在使用传播激活将相关概念传递给给定的一个。与COLT的2个语义向量之间的相似度量

如果我想计算“伦敦”和“巴黎”之间的相似性,我得到2个载体,如:

vector for 'Paris': 
Paris : 1.0 
City : 0.9 
Capital : 0.7 
France : 0.6 
Europe : 0.5 
... 

vector for 'London': 
London : 1.0 
City : 0.9 
England : 0.9 
United Kingdom : 0.8 
Europe : 0.5 
... 

的问题是向量可以有不同的长度。在这种情况下可以采用什么相似性度量? 据我所知,余弦测量只能应用于具有相同大小的矢量。

我发现这些包: SimMetrics:http://staffwww.dcs.shef.ac.uk/people/S.Chapman/simmetrics.html 和COLT:http://nlp.stanford.edu/nlp/javadoc/colt-docs/overview-summary.html

怎么可能在我的情况下使用它们?

谢谢! Mulone

回答

0

您可以将所有未分配的值默认为0以获得匹配的向量,然后使用您选择的任何距离度量。不过,你可能想要某种方式来加权不同的属性,因为有些可能是比其他属性更好的相关能指。

另外,伦敦比巴黎更“欧洲”的衡量标准是什么?

+0

啊啊,这只是一个随机的例子。谢谢! – Mulone 2011-04-14 18:00:07

相关问题