2012-08-15 47 views
4

我正在尝试用于阿尔巴尼亚语的OpenNLP。为此,我正在使用OPenNLP并尝试用阿尔巴尼亚语语言为人员,地点和组织实体识别建立模型。 我正在建立我自己的语料库,但我需要一位开放的NLP专家来确认我下面的疑问: 1-我应该为每个模型构建一个单独的语料库,例如:对于ner-person构建一个只有标签存在的语料库? 2-是否可以在同一个语料库中标记人员,地点和组织并使用它来训练能够提取所有三种实体类型的单个模型? 3-有没有一个资源,我可以找到更多关于从OpenNLP名称查找模块使用的算法?如何通过OpenNLP为阿尔巴尼亚语实现命名实体识别?

感谢您的回复,我真的需要我的论文的支持

回答

-1

1 - 我应该建立一个分离的语料库为每个模型,例如对于ner-person构建一个只有标签存在的语料库? 国际海事组织是...但是有可能有一个模型包含多个名称类型。如果您将它们分开,您可以更轻松地更新和反复改进给定名称的模型,尤其是如果它们是大型模型。

2-是否可以在同一个语料库中标记人员,地点和组织并使用它来训练能够提取所有三种实体类型的单个模型? 是的,这是可能的,但如果你打算建立每个名称类型和改进模型,保持它们分开对我来说更容易。

3-是否有一个资源,我可以找到更多的OpenNLP名称查找模块使用的算法? 最好的做法是将源代码下拉并通过具有一些实际数据的代码......它基于最大熵。

相关问题