此前被标记为NER用于训练的语料库NER分类器

我正在与斯坦福NER模型一起识别来自非结构化文本的组织名称。我了解，斯坦福分类器所建立的培训数据不公开。我需要事先标记NER corpuses组织名称标签，以便我可以重新训练斯坦福模型。此前被标记为NER用于训练的语料库NER分类器

我知道的一个来源：访问路透社语料库并将其与CoNll2003共享任务数据的注释相结合。

我可以获得更多来源的建议/指针以获取之前标记的NER语料库吗？（我需要通过我的学校请求这些数据集）

2014-09-01 Shruti

您的意思是说您希望重新训练与原始分类器使用的类似的NER数据，或者完全避免使用默认语料库？

我假设第一个。我们用它来训练斯坦福英语NER分类的语料库有：

在任何情况下，有NER的一个很好的长列表数据集可用here。

2014-09-04 19:54:39

谢谢！我的意思是第一个。我想为斯坦福大学NER分类器添加一篇公报。是否有可能在不重新训练模型的情况下进行？ – Shruti 2014-09-04 20:32:33

回答