2017-02-03 71 views
-1

我一直在努力改善NLTK上的POS标记几天,但我无法弄清楚。目前,默认标记器确实不准确,并将大多数单词标记为“NN”。我如何改进标记器以使其更加准确?我已经看过培训tagger,但我无法使它工作。Python NLTK PoS标记不准确

有没有人有一个简单的方法呢?非常感谢。

回答

1

你一次只做一个单词还是一个大的语料库?通常,POS标记算法使用单词是标记类型(例如“NN”)的概率,但是他们也使用周围的句子上下文来预测如此多的单词,它们更可能是准确的。

您也可以尝试使用不同的Unigram,bigram,trigram等标签来尝试以性能为代价获得更高的精度。你可以在这里阅读:http://www.nltk.org/book/ch05.html