2017-08-04 60 views
1

比较wordnet相似性度量以查看哪些与我的语料库最相关/有用 - 在尝试计算lch时遇到此错误消息 - 计算lch相似性需要Synset('home'.n.01)和Synset('chronological.a.01')具有相同的词性。“LCH相似度 - 需要相同的POS吗? Python

在尝试使用lch之前,我是否必须将列表中的所有单词标准化为相同的POS?

作为参考,我能够成功地计算出wup_similarity,没有任何POS标准化。我试图计算相似度的单词列表已全部使用WordNetLemmatizer进行词汇化。

回答

0

你不能通过改变词类来解决这个问题,因为不是所有的词都可以成为任何言语的一部分。例如,“按时间排序”不能是名词。

一种方法是捕捉像这样的异常,或者检查不同的言语部分,并指定相似度为零。

WordNet也可以通过模拟不同词类的共享根来处理这个问题,这可能是为什么你的一些相似性度量有效。然而,工作方式is confusing,所以你可能不应该依赖它。

如果您想要任意词的相似性,请尝试使用词向量(Word2Vec或GloVe)而不是WordNet。

+0

会检查出两者,谢谢! – Ksofiac