2017-04-24 96 views
0

给予相同的文字,我知道我可以用NLTK的资料Tweet标记生成令牌化它例如产生“伟大的饮料,牛肉薯饼,咖啡,玉米煎饼。”:符号化,分离由标点符号拆分令牌

['Great', 
'drinks', 
',', 
'beef', 
'hash', 
',', 
'coffee', 
',', 
'burritos', 
'.'] 

我要分开处理逗号和句号前的每个部分,以生成一个列表,如[Great drinks, beef hash, coffee, burritos]。我将如何做到这一点?

回答

1
import re 
s= "Great drinks , beef hash, coffee, burritos." 
print (re.findall(r"[\w']+", s)) 

对文字 ' - '(连字符)

print (re.findall(r"([\w']+(?:\S-\S)?[\w'])+", s)) 
+0

完美 - 谢谢 – user3058703

0
msg = "Great drinks , beef hash, coffee, burritos." 
msg.translate(str.maketrans(",.", " ")).split() 

做这项工作。

+0

如果标点符号增加,它太长 – SmartManoj