2013-02-25 55 views
16

爪哇 - opennlpopennlp分块和postag结果

我是新来opennlp,我尝试分析句子,并有后标记和块的结果,但我不明白的值的意思。是否有任何表格可以解释帖子标签和块结果值的完整意义?

Tokens: [My, name, is, Chris, corrale, and, I, live, in, Philadelphia, USA, .] 
Post Tags: [PRP$, NN, VBZ, NNP, NN, CC, PRP, VBP, IN, NNP, NNP, .] 
chunk Result: [B-NP, I-NP, B-VP, B-NP, I-NP, O, B-NP, B-VP, B-PP, B-NP, I-NP, O] 

回答

12

POS标签来自Penn Treebank tagset。大块是名词短语(NP),动词短语(VP)和介词(PP)。 “B- ..”表示这样的短语的开始,“I- ..”表示类似“内部”的意思,即短语在此继续(参见OpenNLP docs)。

10

的S - >简单陈述句,即不是由 (可能是空的)引入从属 结合或疑问词和不呈现主语 - 动词 反转即一个。

SBAR - >子句由一个(可能是空的)从属连词引入。

SBARQ - > wh-word或wh-phrase引入的直接问题。 间接问题和相关条款应包含在 SBAR中,而不是SBARQ。

SINV - >倒置陈述句,即主题 遵循紧张动词或模态的句子。

SQ - >倒置的是/否问题,或wh-question的主要子句,后面跟着 SBARQ中的wh-短语。

ADJP - >形容词短语。

ADVP - >副词短语。

CONJP - >连词短语。

FRAG - > Fragment。

INTJ - >感叹词。大致对应于词性标签 UH。

LST - >列表标记。包括周围的标点符号。

NAC - >不是成分;用于显示NP中的某些名词前缀 修饰符的范围。

NP - >名词短语。

NX - >在某些复杂的NP中用来标记NP的头部。 非常大致对应于N-bar

PP->介词短语。

PRN - >括号。

PRT - >粒子。应标记为RP的单词的类别。

QP - >量词短语(即复杂度量/量短语);用于 NP。

RRC - >减少的相关条款。与协调词组不同,

VP - >动词短语。

WHADJP - > Wh-形容词短语。含有wh-副词的形容词短语,如 有多热。

WHAVP - > Wh-副词短语。引入一个NP差距的条款。可能为空 (包含0补语) 或词法,包含wh-副词,如如何或为什么。

WHNP - > Wh-名词短语。引入一个NP差距的条款。可能为空 (包含0补充词) 或词法,包含一些wh-词,例如,谁,哪本书,其中的女儿,其中哪一个,或者怎么样,都不少。

WHPP-> Wh-介词短语。介词短语包含wh-名词短语 短语 (例如其中或由谁授权)引入PP空位或由WHNP包含。

X - >未知,不确定或不可拆分。 X通常用于括号 拼写错误和括号 ...的结构。

信用:http://mail-archives.apache.org/mod_mbox/opennlp-users/201402.mbox/%[email protected].com%3E

2

请参考POSTag list得到标记的详细信息。

像 “B-NP” 块标记由两个或三个部分:
第一部分

B - marks the beginning of a chunk 
I - marks the continuation of a chunk 
E - marks the end of a chunk 

作为一个chunk,它可以仅是长的一个字(像“她”在上面的例子中),它可以同时是块的开始和结束。

第二部分

NP - noun chunk 
VP - verb chunk 

更多的参考,你可以参考OpenNLP Documentation