2015-10-15 62 views
2

我正在使用Python3.5的nltk pos_tag函数和WordNetLemmatizer。我的目标是在我们的数据库中拼合单词以分类文本。我正在尝试使用lemmatizer进行测试,并且在相同的记号上使用POS标记时遇到了奇怪的行为。在下面的例子中,我有一个三个字符串的列表,当它们在POS标记器中运行时,其他每个元素都作为名词(NN)返回,其余的作为动词(VBG)返回。词性标注后的单词产生意想不到的结果

这会影响词形。输出看起来是这样的:

pos Of token: v 
lemmatized token: skydive 
pos Of token: n 
lemmatized token: skydiving 
pos Of token: v 
lemmatized token: skydive 

如果我添加更多的元素到相同的字符串列表,这种模式仍然继续。在全我使用的代码是这样的:

tokens = ['skydiving', 'skydiving', 'skydiving'] 
lmtzr=WordNetLemmatizer() 

def get_wordnet_pos(treebank_tag): 
    if treebank_tag.startswith('J'): 
     return 'a' 
    elif treebank_tag.startswith('V'): 
     return 'v' 
    elif treebank_tag.startswith('N'): 
     return 'n' 
    elif treebank_tag.startswith('R'): 
     return 'r' 
    elif treebank_tag.startswith('S'): 
     return '' 
    else: 
     return '' 

numTokens = (len(tokens)) 
for i in range(0,numTokens): 
    tokens[i]=tokens[i].replace(" ","") 

noSpaceTokens = pos_tag(tokens) 

for token in noSpaceTokens: 
    tokenStr = str(token[1]) 
    noWhiteSpace = token[0].replace(" ", "") 
    preLemmed = get_wordnet_pos(tokenStr) 
    print("pos Of token: " + preLemmed) 
    lemmed = lmtzr.lemmatize(noWhiteSpace,preLemmed) 
    print("lemmatized token: " + lemmed) 

回答

2

简而言之:

当POS标签你需要上下文的句子不是一个不合语法标记列表。

当lemmatizing断章取义句话,以获得正确的引理的唯一方法是手动指定POS标签。


在长:

POS恶搞通常工作在完整的句子,而不是单个的单词。当您尝试在上下文之外标记一个单词时,您得到的是最常见的标签。

要验证标签一个字(即只用1个字的句子)时,它总是给相同的标签:

>>> from nltk.stem import WordNetLemmatizer 
>>> from nltk import pos_tag 
>>> ptb2wn_pos = {'J':'a', 'V':'v', 'N':'n', 'R':'r'} 
>>> sent = ['skydive'] 
>>> most_frequent_tag = pos_tag(sent)[0][1] 
>>> most_frequent_tag 
'JJ' 
>>> most_frequent_tag = ptb2wn_pos[most_frequent_tag[0]] 
>>> most_frequent_tag 
'a' 
>>> for _ in range(1000): assert ptb2wn_pos[pos_tag(sent)[0][1][0]] == most_frequent_tag; 
... 
>>> 

现在,由于标签始终是“A”默认情况下,如果句子只能有1个字,那么WordNetLemmatizer总会返回skydive

>>> wnl = WordNetLemmatizer() 
>>> wnl.lemmatize(sent[0], pos=most_frequent_tag) 
'skydive' 

让我们来看看引理一个词在句子的语境:

>>> sent2 = 'They skydrive from the tower yesterday' 
>>> pos_tag(sent2.split()) 
[('They', 'PRP'), ('skydrive', 'VBP'), ('from', 'IN'), ('the', 'DT'), ('tower', 'NN'), ('yesterday', 'NN')] 
>>> pos_tag(sent2.split())[1] 
('skydrive', 'VBP') 
>>> pos_tag(sent2.split())[1][1] 
'VBP' 
>>> ptb2wn_pos[pos_tag(sent2.split())[1][1][0]] 
'v' 

因此,当您执行pos_tag时,输入令牌列表的上下文很重要。

在你的榜样,你有一个清单['skydiving', 'skydiving', 'skydiving']这意味着你有POS标记的句子的不合语法的句子:

跳伞跳伞跳伞

而且pos_tag函数认为是正常的句子因而令标签:

>>> sent3 = 'skydiving skydiving skydiving'.split() 
>>> pos_tag(sent3) 
[('skydiving', 'VBG'), ('skydiving', 'NN'), ('skydiving', 'VBG')] 

在这种情况下,第一个是动词,第二WOR DA名词和第三字是动词,这将返回下面的引理(你不希望):

>>> wnl.lemmatize('skydiving', 'v') 
'skydive' 
>>> wnl.lemmatize('skydiving', 'n') 
'skydiving' 
>>> wnl.lemmatize('skydiving', 'v') 
'skydive' 

因此,如果我们在您的令牌列表的有效语法的句子,输出可能看起来非常不同

>>> sent3 = 'The skydiving sport is an exercise that promotes diving from the sky , ergo when you are skydiving , you feel like you are descending to earth .' 
>>> pos_tag(sent3.split()) 
[('The', 'DT'), ('skydiving', 'NN'), ('sport', 'NN'), ('is', 'VBZ'), ('an', 'DT'), ('exercise', 'NN'), ('that', 'IN'), ('promotes', 'NNS'), ('diving', 'VBG'), ('from', 'IN'), ('the', 'DT'), ('sky', 'NN'), (',', ','), ('ergo', 'RB'), ('when', 'WRB'), ('you', 'PRP'), ('are', 'VBP'), ('skydiving', 'VBG'), (',', ','), ('you', 'PRP'), ('feel', 'VBP'), ('like', 'IN'), ('you', 'PRP'), ('are', 'VBP'), ('descending', 'VBG'), ('to', 'TO'), ('earth', 'JJ'), ('.', '.')] 
+0

是的,我担心缺乏背景是问题所在。我想我试图潜入nltk没有适当的背景。现在从第一章开始写这本书。必须找到另一种方法来尝试解决这个问题。 – kinghenry14

相关问题