如何为斯坦福标记器创建自己的训练语料库？

我必须分析非正式的英文文本，有很多短手和当地的行话。因此，我正在考虑为斯坦福标记器创建模型。如何为斯坦福标记器创建自己的训练语料库？

我如何为斯坦福标记器创建自己的标记语料集来训练？

语料库的语法和我的语料库应该在多长时间内达到理想的性能？

来源

2010-07-01 goh

哪个组件：Stanford PoS tagger，或Stanford NER或Stanford Parser？ – 2010-07-01 13:07:20

亲爱的嗨，我有同样的问题你能解决你的问题吗？怎么样？ – Paniz 2015-02-04 00:23:05

要训练的PoS标记器，请参阅this mailing list post其也包括在JavaDocs为MaxentTagger类。

为edu.stanford.nlp.tagger.maxent.Train class的javadoc指定训练格式：

The training file should be in the following format: one word and one tag per line separated by a space or a tab. Each sentence should end in an EOS word-tag pair. (Actually, I'm not entirely sure that is still the case, but it probably won't hurt. -wmorgan)

来源

2010-07-01 13:20:37

我到处检查过，但没有指定如何构造培训文件？我的训练模式应该多长时间？ – goh 2010-07-02 07:23:37

@goh：我已回复编辑。 – 2010-07-02 13:22:02

感谢您的帮助。 – goh 2010-07-06 07:52:54

对于斯坦福分析器，您使用Penn treebank format，并参阅Stanford's FAQ以了解要使用的确切命令。用于LexicalizedParser class的Javadoc也得到适当的命令，特别是：

java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ 
    -train trainFilesPath fileRange 
    -saveToSerializedFile serializedGrammarFilename

来源

2010-07-01 13:14:23

从本质上讲，你的训练过程中格式化文本应该有每行一个道理，其次是一个标签，其次是一个标识符。标识符可以是“LOC”位置，公司“COR”或非实体令牌“0”。例如。

I  0 
left  0 
my  0 
heart  0 
in  0 
Kansas  LOC 
City  LOC 
.  0

当我们的团队训练的一系列分类模型，我们给此格式，大约有18万令牌，每个培训文件，我们看到在精密的净改善，但在召回的净减少。（值得注意的是，精度的提高并不具有统计意义。）如果对其他人有用，我描述了我们用来训练分类器的过程以及训练过的和默认的p，r和f1值分类器here。

来源

2013-10-22 13:16:33 duhaime

我想：的java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename

但我有错误：

错误：无法找到或加载主类edu.stanford.nlp.parser.lexparser.LexicalizedParser

来源

2015-11-10 13:13:19 user5546706

如何为斯坦福标记器创建自己的训练语料库？

回答

相关问题