2013-02-23 59 views
4

我建立一个命名实体识别与条件随机场,我期待两两件事:命名实体识别数据和功能

A)一个开源的,英语NER数据集的人,地点和组织机构

B)英语NER的功能列表

我已经看了看CoNLL-2003语料库,发现这正是我想要的,但它是不容易买到。我一直没有找到NER功能列表;我试图避免必须手动设计这些功能。

感谢

+0

因此,我认为你正在寻找免费的东西,对吧? :)我想这个清单上可能会有一些帮助:http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html – dmn 2013-02-25 20:21:02

回答

0

A)除了MUC语料,你应该检查出的手动注释子语料库这里:http://www.americannationalcorpus.org/MASC/About.html它是免费的,有各种各样的文件类型。它自带的工具用于解析在NLTK,GATE和UIMA格式:http://www.anc.org/MASC/Download

B)这是一个非常普遍的问题。您可以尝试正克,字大写,使用文字字符串作为演讲的特征,部分等你可以阅读与CRF斯坦福解析器方法入手:http://nlp.stanford.edu/software/CRF-NER.shtml

1

你会发现什么是需要从Ratinov &罗斯在this paper NER一个总结和非常丰富的研究。另外,他们的系统是完全开源的,并且包括从维基百科收集的命名实体列表。