2014-10-19 127 views
0

我想使用由多个文件组成的语料库来训练斯坦福标记器,并将在未来进行扩展。使用API​​训练和重新训练斯坦福标记器

是否可以更新existant模型,还是每次都必须使用整个语料库进行训练?

是否有任何如何使用API​​进行培训的例子? MaxentTagger的JavaDoc仅涵盖通过命令行进行的培训。

谢谢!

回答

1

目前,您必须每次训练使用整个语料库。 (使用附加数据更新模型在理论上是可行的,但它不是目前存在的,并且不在我们的前端系统上。)

我们从命令行执行所有模型训练....实际上,看着代码,它似乎像列车方法是私人的,所以你需要使它更公开,才能够从API进行培训。我们应该解决该问题。可能试图做到这一点。

如果访问等级不同,你可以创建一个TaggerConfig,然后调用这个方法:

private static void trainAndSaveModel(TaggerConfig config) throws IOException { ... } 

但是,即使如此,它目前始终保存其内置恶搞到磁盘。所以,事情可以通过一些修改来顺利实现。