2014-09-01 94 views
1

我正在与斯坦福NER模型一起识别来自非结构化文本的组织名称。我了解,斯坦福分类器所建立的培训数据不公开。我需要事先标记NER corpuses组织名称标签,以便我可以重新训练斯坦福模型。此前被标记为NER用于训练的语料库NER分类器

我知道的一个来源:访问路透社语料库并将其与CoNll2003共享任务数据的注释相结合。

我可以获得更多来源的建议/指针以获取之前标记的NER语料库吗? (我需要通过我的学校请求这些数据集)

回答

0

您的意思是说您希望重新训练与原始分类器使用的类似的NER数据,或者完全避免使用默认语料库?

我假设第一个。我们用它来训练斯坦福英语NER分类的语料库有:

在任何情况下,有NER的一个很好的长列表数据集可用here

+2

谢谢!我的意思是第一个。我想为斯坦福大学NER分类器添加一篇公报。是否有可能在不重新训练模型的情况下进行? – Shruti 2014-09-04 20:32:33

相关问题