2011-04-07 82 views
9

有人能告诉我MeCab的默认输出吗?什么注解并没有做的小额薪酬索偿仲裁输出和我在哪里可以找到的形态分析什么是MeCab输出和标记集?

http://mecab.sourceforge.net/

任何人都可以破译从仲裁处该输出的标签集?

<s> 
ブギス・ジャンクション ブギス・ジャンクション ブギス・ジャンクション 名詞-一般  
に ニ に 助詞-格助詞-一般  
は ハ は 助詞-係助詞  
最も モットモ 最も 副詞-一般  
買い カイ 買う 動詞-自立 五段・ワ行促音便 連用形 
物慣れ モノナレ 物慣れる 動詞-自立 一段 連用形 
し シ する 動詞-自立 サ変・スル 連用形 
た タ た 助動詞 特殊・タ 基本形 
人々 ヒトビト 人々 名詞-一般  
を ヲ を 助詞-格助詞-一般  
も モ も 助詞-係助詞  
魅了 ミリョウ 魅了 名詞-サ変接続  
する スル する 動詞-自立 サ変・スル 基本形 
品 シナ 品 名詞-一般  
揃え ソロエ 揃える 動詞-自立 一段 連用形 
が ガ が 助詞-格助詞-一般  
あり アリ ある 動詞-自立 五段・ラ行 連用形 
ます マス ます 助動詞 特殊・マス 基本形 
。 。 。 記号-句点  
</s> 
+0

任何人都可以解释输出?至少从外行的角度来看? – alvas 2011-04-08 06:13:06

回答

10

您示例中的输出格式似乎是chasen2,它是在dicrc文件中定义的。 这将是:

; ChaSen (include spaces) 
node-format-chasen2 = %M\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n 
unk-format-chasen2 = %M\t%m\t%m\t%F-[0,1,2,3]\t\t\n 
eos-format-chasen2 = EOS\n 

对于正常节点的格式,这将是:

1. surface value, including any whitespace 
2. \t 
3. reading 
4. \t 
5. root form 
6. \t 
7. part of speech 
8. part of speech, subtype 1 
9. part of speech, subtype 2 
10. part of speech, subtype 3 
11. \t 
12. conjugation 
13. \t 
14. inflection 
15. newline 

其中项目7到图10是连字符分隔。

有关更多详细信息,您应该看到mecab的出力フォーマット documentation

编辑:更新到MeCab输出格式说明页面的链接。

+0

谢谢buruzaemon-san。我的日语水平很低,所以我很难阅读文档。我试图阅读IPAdic 2.7.0手册,我明白了一点点,我无法弄清楚输出格式。再一次感谢你。 – alvas 2011-04-10 04:32:28

+1

我认为链接(格式文档)已过期(至少不适用于我),作者的github页面位于https://taku910.github.io/mecab/#format和https://taku910.github.io /mecab/format.html;只是一个侧面说明,对于文字到语音(以及做furigana)应用程序,我个人更喜欢使用'--output-format-type = yomi' – HidekiAI 2017-07-07 13:32:31

+0

感谢您让我了解那个过时的链接,@HidekiAI – buruzaemon 2017-07-08 21:48:23