2016-01-13 194 views
0

我想训练一个NER模型印度与自定义NE(命名实体)字典块。我指的是NLTK斯坦福NER repectively:命名实体识别与NLTK或斯坦福NER使用自定义语料库

  1. NLTK

我发现nltk.chunk.named_entity.NEChunkParsernechunkparser能够在一个自定义的语料训练。但是,文档或源代码的评论中没有规定训练语料库的格式。

我在哪里可以找到NLTK中NER自定义语料库的一些指南?

  • 斯坦福NER
  • 按照question,斯坦福NER的常见问题给出了如何培养的自定义模型NER方向。

    其中一个主要问题是,默认的斯坦福NER不支持印度人。那么将印度NER语料库提供给模型是否可行?

    +0

    只要训练语料库符合指定的格式,斯坦福NER就可以接受任何语言的培训。此外,NLTK提供了一个很好的(尽管有一些越野车)接口来使用训练有素的斯坦福NER标签。 – Zelong

    回答

    1

    您的训练语料库需要位于.tsv文件扩展名中。

    该文件应该有的样子的:

    约翰PER
    工作Ø
    在澳
    英特尔ORG

    这仅仅是因为我做的数据表示不知道你所针对的是哪种印度语言。但是您的数据必须始终为制表符分隔值。首先将是令牌和其他值的关联标签。

    我试过建造我的自定义数据(在英文虽然),并建立了模型。

    所以我猜想它几乎可能为印度语言也。

    相关问题