使用API训练和重新训练斯坦福标记器

我想使用由多个文件组成的语料库来训练斯坦福标记器，并将在未来进行扩展。使用API训练和重新训练斯坦福标记器

是否可以更新existant模型，还是每次都必须使用整个语料库进行训练？

是否有任何如何使用API进行培训的例子？ MaxentTagger的JavaDoc仅涵盖通过命令行进行的培训。

谢谢！

2014-10-19 wlukas2

目前，您必须每次训练使用整个语料库。（使用附加数据更新模型在理论上是可行的，但它不是目前存在的，并且不在我们的前端系统上。）

我们从命令行执行所有模型训练....实际上，看着代码，它似乎像列车方法是私人的，所以你需要使它更公开，才能够从API进行培训。我们应该解决该问题。可能试图做到这一点。

如果访问等级不同，你可以创建一个TaggerConfig，然后调用这个方法：

private static void trainAndSaveModel(TaggerConfig config) throws IOException { ... }

但是，即使如此，它目前始终保存其内置恶搞到磁盘。所以，事情可以通过一些修改来顺利实现。

2014-10-20 20:32:41

使用API​​训练和重新训练斯坦福标记器