免费标记语料库进行命名实体识别

我正在寻找一个免费标记语料库系统来培训名称实体识别。我发现的大部分（如纽约时报的）都很贵，而且没有开放。谁能帮忙？免费标记语料库进行命名实体识别

来源

2010-07-25 DantheMan

在http://opendata.stackexchange.com/q/7250/1652（它没有关闭）上提出了同样的问题 – 2016-03-24 00:57:50

dbPedia是开放和自由

DBpedia的是维基百科建立，这是一个非常大的语料库。在所有dbPedia titles dump上构建涉及rdfs:label的三元组的Lucene索引。

来源

2010-07-25 17:35:23 ankitjaininfo

作为其他答案状态之一，DBpedia不是带标签的语料库。 – 2012-07-12 20:32:54

2012年（和今天）我的评论是真实的，但这可能在未来发生变化。如果您对基于DBpedia的语料库感兴趣，您可能需要遵循Open Extraction Challenge（http://wiki.dbpedia.org/textext）为维基百科文本中的DBpedia生成NIF输出。 – 2017-07-19 21:10:50

Python NLTK有权访问nltk.corpus.conll2000语料库。调用conll2000.iob_words()返回（单词，词类，IOB）三元组的列表，其中IOB是内部实体/外部实体/实体开始格式中的标签。

新闻专线上下文中总共有大约25万字。

来源

2011-03-20 23:00:12 AndreiM

我们是否也可以转储数据集以便在其他工具上使用它？例如GLample的[** Tagger **]（https://github.com/glample/tagger）。 – user1412066 2017-01-04 08:15:27

CONLL2000不标记命名实体。 – alexis 2017-07-17 21:39:11

有在http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html

的CoNLL 2003语料库，它是名单上的语料库的列表，是免费的，可从http://www.cnts.ua.ac.be/conll2003/ner/（注释）和NIST（文本）。

来源

2012-07-12 20:42:24

我们是否必须遵循填表格的程序，向NIST发送申请以获取此[** link **]（http://trec.nist.gov/data/reuters/reuters.html）中所述的数据集？或者有其他选择吗？ – user1412066 2017-01-04 08:10:04

免费标记语料库进行命名实体识别

回答

相关问题