2016-04-14 110 views
2

我正在尝试将Stanford CoreNLP用于法语文本。 POS标记和解析工作正常,但对于我的配置,输出依赖关系根本没有意义。用CoreNLP为法语解析依赖项

我的命令是

java -mx1g -cp "~/stanford-corenlp/stanford-corenlp-full-2015-12-09/*" 
edu.stanford.nlp.pipeline.StanfordCoreNLP -props french.conf 
-file /tmp/file.txt -outputFormat text 

其中french.conf包含:

annotators = tokenize, ssplit, pos, depparse, parse 
tokenize.language = fr 
pos.model = edu/stanford/nlp/models/pos-tagger/french/french.tagger 
parse.model = edu/stanford/nlp/models/lexparser/frenchFactored.ser.gz 
depparse.model = edu/stanford/nlp/models/parser/nndep/UD_French.gz 

我使用CoreNLP 3.6与法国模型中发现here。日志看起来很好与尊重:

[main] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator tokenize 
[main] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator ssplit 
[main] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator pos 
Reading POS tagger model from edu/stanford/nlp/models/pos-tagger/french/french.tagger ... done [0,2 sec]. 
[main] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator depparse 
Loading depparse model file: edu/stanford/nlp/models/parser/nndep/UD_French.gz ... 
PreComputed 100000, Elapsed Time: 1.43 (s) 
Initializing dependency parser done [3,4 sec]. 
[main] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator parse 
[main] INFO edu.stanford.nlp.parser.common.ParserGrammar -  Loading parser from serialized file edu/stanford/nlp/models/lexparser/frenchFactored.ser.gz ... 
done [3,0 sec]. 

但这里是“乐聊天奶源LA苏里斯”(猫吃了老鼠,具有完全相同的结构)

root(ROOT-0, chat-2) 
det(chat-2, Le-1) 
case(souris-5, mange-3) 
det(souris-5, la-4) 
nmod:mange(chat-2, souris-5) 
punct(chat-2, .-6) 
结果

这只是无稽之谈;这并不例外,我测试了很多句子,总是得到这种输出。 这就是为什么我想我正在使用一个错误的配置文件。

任何帮助,将不胜感激!

+0

您是否找到解决方案? @jpl – zwlayer

回答

1

对于那些有兴趣,斯坦福CoreNLP现在已经更新了他们的模型,他们工作得很好现在。