我一直在研究一个NLP项目,试图定义一个中间POS标记系统和用于迁移到我的已知POS标记系统的包装。 我的问题是:NLP项目的想法
什么是你见过的最好的POS标记系统。
不要谈论系统,因为你喜欢它,但由于可扩展性和描述性。
对于那些不知道POS机标记系统是什么的人来说,POS代表词类,标注系统专注于采集语料库(一堆文本)并将标签贴在单词(名词,动词等)上。)
希望人们发现这个有趣的,因为我觉得它
我一直在研究一个NLP项目,试图定义一个中间POS标记系统和用于迁移到我的已知POS标记系统的包装。 我的问题是:NLP项目的想法
什么是你见过的最好的POS标记系统。
不要谈论系统,因为你喜欢它,但由于可扩展性和描述性。
对于那些不知道POS机标记系统是什么的人来说,POS代表词类,标注系统专注于采集语料库(一堆文本)并将标签贴在单词(名词,动词等)上。)
希望人们发现这个有趣的,因为我觉得它
On this page,你会发现不同的最先进的PoS系统的比较。我个人使用Standford PoS tagger。
它是从你的问题究竟是什么,你的“POS标签系统”的意思不清楚。有迹象表明,似乎是混合在一起的一对夫妇的问题:
其POS标记集是很好的一个特定语言/目的
它是多么的困难不同的标签集之间进行转换
如何以及特定的标记方法与特定的标记集一起工作(或人类可以如何使用该特定标记集注释)
“中间”标记集需要对每个标记集中的所有区别进行标记,以便在标记集之间进行转换,但大量标记可能会使标记器性能变差。然而,精心设计的大型标签集也可能比为人类注释者或标签者设计的设计不佳的标签集更好。
你应该寻找tagset设计和tagset转换的研究,你也可能想看看超级标签中的工作。如果你在使用英语,你可以看看CLAWS 5和CLAWS 7,并将它们与Penn Treebank和Brown标记集进行比较(并搜索此前的工作!)。 This thesis可能是一个很好的起点。
获取模型我将采取深入探讨它。非常感谢! – 2010-10-29 12:58:07
你一定要看看James Curran和Stephen Clark开发的C&C tools。它是最快速的解析器之一(如果不是最快的),你可以找到它,它甚至是开源的!
我想提的CRF恶搞(http://sourceforge.net/projects/crftagger/),它在我的经验是最好的。我用它在其中涉及解析语法正确的常用英语句子和短语,我的主人的项目。
OpenNLP有一个很好的POS tagger,如果你愿意,你可以训练你自己的模型。
http://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html#tools.postagger
你从这里
http://opennlp.sourceforge.net/models-1.5/
HTH
+1:与比较的链接非常好! – 2010-11-04 07:18:21