任何使用Java库的Mallet的SimpleTagger类用于条件随机字段(CRF)的问题。假设我已经使用多线程选项来获得可用CPU的最大数量(这种情况):我会在哪里开始,如果我需要它运行得更快,我应该尝试一些什么?Mallet CRF SimpleTagger性能调整
一个相关的问题是,是否有办法做类似于随机梯度下降,这将加快培训过程?
我想要做培训的类型很简单:
Input:
Feature1 ... FeatureN SequenceLabel
...
Test Data:
Feature1 ... FeatureN
...
Output:
Feature1 ... FeatureN SequenceLabel
...
(凡特点是处理的输出我在我自己的代码对数据进行)
我有使Mallet以外的任何CRF分类器大致工作时出现问题,但我可能不得不再次回溯并重新访问其他实现之一,或者尝试新的实现。
调整仍然是一个问题,但您可以非常容易地将SGD与Hogwild并行化!显示:http://pages.cs.wisc.edu/~brecht/papers/hogwildTR.pdf。 – 2013-02-17 12:04:05