Python的NLTK book的第5章在句子中提供标记的话这个例子:Python NLTK:如何用简化的词性标记设置标记语句?
>>> text = nltk.word_tokenize("And now for something completely different")
>>> nltk.pos_tag(text)
[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', 'RB'), ('different', 'JJ')]
nltk.pos_tag调用默认恶搞,它采用了全套的标签。在本章后面介绍simplified set of tags。
如何使用这个简化的词性标签集标记句子?
我也正确理解了标记器,也就是说,我可以更改标记器使用的标记集,或者我应该将它返回的标记映射到简化集,还是应该创建新的标记器来自一个新的,简单标记的语料库?
非常感谢。 – 2011-04-26 20:40:13