2010-07-01 110 views
15

我必须分析非正式的英文文本,有很多短手和当地的行话。因此,我正在考虑为斯坦福标记器创建模型。如何为斯坦福标记器创建自己的训练语料库?

我如何为斯坦福标记器创建自己的标记语料集来训练?

语料库的语法和我的语料库应该在多长时间内达到理想的性能?

+0

哪个组件:Stanford PoS tagger,或Stanford NER或Stanford Parser? – 2010-07-01 13:07:20

+0

亲爱的嗨,我有同样的问题你能解决你的问题吗?怎么样? – Paniz 2015-02-04 00:23:05

回答

7

要训练的PoS标记器,请参阅this mailing list post其也包括在JavaDocs为MaxentTagger类。

edu.stanford.nlp.tagger.maxent.Train class的javadoc指定训练格式:

The training file should be in the following format: one word and one tag per line separated by a space or a tab. Each sentence should end in an EOS word-tag pair. (Actually, I'm not entirely sure that is still the case, but it probably won't hurt. -wmorgan)

+0

我到处检查过,但没有指定如何构造培训文件?我的训练模式应该多长时间? – goh 2010-07-02 07:23:37

+0

@goh:我已回复编辑。 – 2010-07-02 13:22:02

+0

感谢您的帮助。 – goh 2010-07-06 07:52:54

1

对于斯坦福分析器,您使用Penn treebank format,并参阅Stanford's FAQ以了解要使用的确切命令。用于LexicalizedParser class的Javadoc也得到适当的命令,特别是:

java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ 
    -train trainFilesPath fileRange 
    -saveToSerializedFile serializedGrammarFilename 
6

从本质上讲,你的训练过程中格式化文本应该有每行一个道理,其次是一个标签,其次是一个标识符。标识符可以是“LOC”位置,公司“COR”或非实体令牌“0”。例如。

I  0 
left  0 
my  0 
heart  0 
in  0 
Kansas  LOC 
City  LOC 
.  0 

当我们的团队训练的一系列分类模型,我们给此格式,大约有18万令牌,每个培训文件,我们看到在精密的净改善,但在召回的净减少。 (值得注意的是,精度的提高并不具有统计意义。)如果对其他人有用,我描述了我们用来训练分类器的过程以及训练过的和默认的p,r和f1值分类器here

0

我想: 的java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename

但我有错误:

错误:无法找到或加载主类edu.stanford.nlp.parser.lexparser.LexicalizedParser

相关问题