2016-11-30 137 views
0

在下面的代码中,为什么nltk认为'select'是形容词而不是动词?POS tagging - NLTK认为名词动词

>>> import nltk 
>>> t = nltk.tokenize.word_tokenize("select icon from icon") 
>>> nltk.tag.pos_tag(t) 
[('select', 'JJ'), ('icon', 'NN'), ('from', 'IN'), ('icon', 'NN')] 
+0

嗯,它是模棱两可的。 – Max

回答

1

我想有没有简单的答案,因为标记器与统计模型(我发现它被训练与宾州树库here退避八卦马尔可夫模型)的培训。

我可以想象,“从图标中选择图标”在训练语料库中是非常少见的情况(如果它发生了),那么查看第一个单词,除了可能用于新的开始之外没有更多上下文信息句子,它将JJ分配为最可能的标签。

如果这对你来说是一个巨大的问题,你可以考虑使用类似于this之类的东西来训练你自己的标记器在更多这类句子出现的语料库上或者丰富旧语句。