3
A
回答
3
从https://github.com/nltk/nltk/pull/1143,我们看到它从https://spacy.io/blog/part-of-speech-pos-tagger-in-python
端口在训练的tagdict
的标记集包括以下标签:
>>> from nltk.tag import PerceptronTagger
>>> tagger = PerceptronTagger()
>>> set(tagger.tagdict.values())
set(['PRP$', 'VBG', 'VBD', '``', 'VBN', "''", 'VBP', 'WDT', 'JJ', 'WP', 'VBZ', 'DT', '#', '$', 'NN', ')', '(', ',', '.', 'TO', 'PRP', 'RB', ':', 'NNS', 'NNP', 'VB', 'WRB', 'CC', 'CD', 'EX', 'IN', 'WP$', 'MD', 'JJS', 'JJR'])
完整的标记集是:
>>> sorted(tagger.classes)
['#', '$', "''", '(', ')', ',', '.', ':', 'CC', 'CD', 'DT', 'EX', 'FW', 'IN', 'JJ', 'JJR', 'JJS', 'LS', 'MD', 'NN', 'NNP', 'NNPS', 'NNS', 'PDT', 'POS', 'PRP', 'PRP$', 'RB', 'RBR', 'RBS', 'RP', 'SYM', 'TO', 'UH', 'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ', 'WDT', 'WP', 'WP$', 'WRB', '``']
这是Penn Treebank Tagset来自:https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
相关问题
- 1. nltk自定义标记器和标记器
- 2. 评估NLTK中的POS标记器
- 3. NLTK中单个单词的标记器
- 4. 什么是MeCab输出和标记集?
- 5. 什么是“标记的DFA”?
- 6. 什么是标记界面?
- 7. 什么是标记扩展?
- 8. 什么是缓存标记?
- 9. 标记是什么意思?
- 10. 什么是坏标记?
- 11. 什么是标记界面?
- 12. 自定义标记与nltk
- 13. 感知器的“订单”是什么
- 14. 未知的服务器标记'rsweb:ReportViewer'
- 15. 什么是感知器学习算法?
- 16. 未知服务器标记<ajax:Grid>
- 17. 未知服务器标记'ajaxToolkit:CalendarExtender'。
- 18. 未知服务器标记'Taxonomy:TaxonomyFieldControl'
- 19. 未知服务器标记'asp:ListView'
- 20. 未知服务器标记'cc1:AsyncFileUpload'
- 21. 什么是以下标记中最有效的jQuery选择器?
- 22. HTML中“机器人”元标记的用途是什么?
- 23. 什么是编译器标记C#中的数字?
- 24. 为什么在NLTK中将pos_tag标记为“请”作为NN?
- 25. iPhone上的截尾标记是什么?
- 26. 这是什么样的标记?
- 27. 什么是Swift中的“标记协议”?
- 28. 标记系统中的taggable_id是什么?
- 29. 什么是ZIP文件的EOF标记?
- 30. Newtonsoft.Json.JsonToken.StartConstructor标记的用途是什么?