2010-07-25 96 views
9

我正在寻找一个免费标记语料库系统来培训名称实体识别。我发现的大部分(如纽约时报的)都很贵,而且没有开放。谁能帮忙?免费标记语料库进行命名实体识别

+0

在http://opendata.stackexchange.com/q/7250/1652(它没有关闭)上提出了同样的问题 – 2016-03-24 00:57:50

回答

1

dbPedia开放和自由

DBpedia的是维基百科建立,这是一个非常大的语料库。在所有dbPedia titles dump上构建涉及rdfs:label的三元组的Lucene索引。

+2

作为其他答案状态之一,DBpedia不是带标签的语料库。 – 2012-07-12 20:32:54

+0

2012年(和今天)我的评论是真实的,但这可能在未来发生变化。如果您对基于DBpedia的语料库感兴趣,您可能需要遵循Open Extraction Challenge(http://wiki.dbpedia.org/textext)为维基百科文本中的DBpedia生成NIF输出。 – 2017-07-19 21:10:50

2

Python NLTK有权访问nltk.corpus.conll2000语料库。调用conll2000.iob_words()返回(单词,词类,IOB)三元组的列表,其中IOB是内部实体/外部实体/实体开始格式中的标签。

新闻专线上下文中总共有大约25万字。

+0

我们是否也可以转储数据集以便在其他工具上使用它?例如GLample的[** Tagger **](https://github.com/glample/tagger)。 – user1412066 2017-01-04 08:15:27

+0

CONLL2000不标记命名实体。 – alexis 2017-07-17 21:39:11

相关问题