我正在寻找一个免费标记语料库系统来培训名称实体识别。我发现的大部分(如纽约时报的)都很贵,而且没有开放。谁能帮忙?免费标记语料库进行命名实体识别
回答
dbPedia是开放和自由
DBpedia的是维基百科建立,这是一个非常大的语料库。在所有dbPedia titles dump上构建涉及rdfs:label
的三元组的Lucene索引。
作为其他答案状态之一,DBpedia不是带标签的语料库。 – 2012-07-12 20:32:54
2012年(和今天)我的评论是真实的,但这可能在未来发生变化。如果您对基于DBpedia的语料库感兴趣,您可能需要遵循Open Extraction Challenge(http://wiki.dbpedia.org/textext)为维基百科文本中的DBpedia生成NIF输出。 – 2017-07-19 21:10:50
Python NLTK有权访问nltk.corpus.conll2000
语料库。调用conll2000.iob_words()
返回(单词,词类,IOB)三元组的列表,其中IOB是内部实体/外部实体/实体开始格式中的标签。
新闻专线上下文中总共有大约25万字。
我们是否也可以转储数据集以便在其他工具上使用它?例如GLample的[** Tagger **](https://github.com/glample/tagger)。 – user1412066 2017-01-04 08:15:27
CONLL2000不标记命名实体。 – alexis 2017-07-17 21:39:11
有在http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html
的CoNLL 2003语料库,它是名单上的语料库的列表,是免费的,可从http://www.cnts.ua.ac.be/conll2003/ner/(注释)和NIST(文本)。
我们是否必须遵循填表格的程序,向NIST发送申请以获取此[** link **](http://trec.nist.gov/data/reuters/reuters.html)中所述的数据集?或者有其他选择吗? – user1412066 2017-01-04 08:10:04
- 1. C# - 免费Offliine语音识别库(SDK)
- 2. 为Java命名实体识别库
- 3. 使用条件随机场进行命名实体识别
- 4. 指定实体识别的样本大小黄金标准语料库
- 5. StanfordNLP:ArrayIndexOutOfBoundsException用于命名实体识别
- 6. c#命名实体识别器工具
- 7. 聚焦命名实体识别(NER)?
- 8. 使用WEKA命名实体识别
- 9. 在Python中为NLTK命名实体识别。识别NE
- 10. 免费的语言标识符服务?
- 11. 命名实体识别与NLTK或斯坦福NER使用自定义语料库
- 12. 是否有命名实体识别的任何C#库?
- 13. 命名实体识别:对于新/最新实体
- 14. 如何通过OpenNLP为阿尔巴尼亚语实现命名实体识别?
- 15. 命名实体识别和解析之间的区别?
- 16. 免费图标库
- 17. 命名实体识别与Python/PHP的预设名称列表
- 18. 我可以使用命名实体识别来识别Intranet页面内容吗?
- 19. 是否有免费的医疗或临床报告/语料库?
- 20. 需要免费的英语字典或语料库,最终为MySQL数据库
- 21. 使用Vowpal Wabbit命名实体识别出现以记忆训练数据
- 22. 新闻文章和标题的免费文本挖掘语料库
- 23. 计算实体在NLP中的置信度得分命名实体识别
- 24. 使用nltk将日期识别为命名实体?
- 25. 用于命名实体识别的TensorFlow RNNs
- 26. 使用Python从个人Gazetter中命名实体识别
- 27. 政治领域中的命名实体识别
- 28. 命名实体识别数据和功能
- 29. 命名实体识别的计算精度和召回率
- 30. 命名实体识别在门使用LingPipe
在http://opendata.stackexchange.com/q/7250/1652(它没有关闭)上提出了同样的问题 – 2016-03-24 00:57:50