我必须分析非正式的英文文本,有很多短手和当地的行话。因此,我正在考虑为斯坦福标记器创建模型。如何为斯坦福标记器创建自己的训练语料库?
我如何为斯坦福标记器创建自己的标记语料集来训练?
语料库的语法和我的语料库应该在多长时间内达到理想的性能?
我必须分析非正式的英文文本,有很多短手和当地的行话。因此,我正在考虑为斯坦福标记器创建模型。如何为斯坦福标记器创建自己的训练语料库?
我如何为斯坦福标记器创建自己的标记语料集来训练?
语料库的语法和我的语料库应该在多长时间内达到理想的性能?
要训练的PoS标记器,请参阅this mailing list post其也包括在JavaDocs为MaxentTagger类。
为edu.stanford.nlp.tagger.maxent.Train class的javadoc指定训练格式:
The training file should be in the following format: one word and one tag per line separated by a space or a tab. Each sentence should end in an EOS word-tag pair. (Actually, I'm not entirely sure that is still the case, but it probably won't hurt. -wmorgan)
对于斯坦福分析器,您使用Penn treebank format,并参阅Stanford's FAQ以了解要使用的确切命令。用于LexicalizedParser class的Javadoc也得到适当的命令,特别是:
java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \
-train trainFilesPath fileRange
-saveToSerializedFile serializedGrammarFilename
从本质上讲,你的训练过程中格式化文本应该有每行一个道理,其次是一个标签,其次是一个标识符。标识符可以是“LOC”位置,公司“COR”或非实体令牌“0”。例如。
I 0
left 0
my 0
heart 0
in 0
Kansas LOC
City LOC
. 0
当我们的团队训练的一系列分类模型,我们给此格式,大约有18万令牌,每个培训文件,我们看到在精密的净改善,但在召回的净减少。 (值得注意的是,精度的提高并不具有统计意义。)如果对其他人有用,我描述了我们用来训练分类器的过程以及训练过的和默认的p,r和f1值分类器here。
我想: 的java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename
但我有错误:
错误:无法找到或加载主类edu.stanford.nlp.parser.lexparser.LexicalizedParser
哪个组件:Stanford PoS tagger,或Stanford NER或Stanford Parser? – 2010-07-01 13:07:20
亲爱的嗨,我有同样的问题你能解决你的问题吗?怎么样? – Paniz 2015-02-04 00:23:05