命名实体识别与NLTK或斯坦福NER使用自定义语料库

我想训练一个NER模型印度与自定义NE（命名实体）字典块。我指的是NLTK斯坦福NER repectively：命名实体识别与NLTK或斯坦福NER使用自定义语料库

我发现nltk.chunk.named_entity.NEChunkParsernechunkparser能够在一个自定义的语料训练。但是，文档或源代码的评论中没有规定训练语料库的格式。

我在哪里可以找到NLTK中NER自定义语料库的一些指南？

斯坦福NER

按照question，斯坦福NER的常见问题给出了如何培养的自定义模型NER方向。

其中一个主要问题是，默认的斯坦福NER不支持印度人。那么将印度NER语料库提供给模型是否可行？

2016-01-13 Zelong

只要训练语料库符合指定的格式，斯坦福NER就可以接受任何语言的培训。此外，NLTK提供了一个很好的（尽管有一些越野车）接口来使用训练有素的斯坦福NER标签。 – Zelong

您的训练语料库需要位于.tsv文件扩展名中。

该文件应该有的样子的：

约翰PER
工作Ø
在澳
英特尔ORG

这仅仅是因为我做的数据表示不知道你所针对的是哪种印度语言。但是您的数据必须始终为制表符分隔值。首先将是令牌和其他值的关联标签。

我试过建造我的自定义数据（在英文虽然），并建立了模型。

所以我猜想它几乎可能为印度语言也。

2016-01-19 13:12:49

回答