符号化，分离由标点符号拆分令牌

给予相同的文字，我知道我可以用NLTK的资料Tweet标记生成令牌化它例如产生“伟大的饮料，牛肉薯饼，咖啡，玉米煎饼。”：符号化，分离由标点符号拆分令牌

['Great', 
'drinks', 
',', 
'beef', 
'hash', 
',', 
'coffee', 
',', 
'burritos', 
'.']

我要分开处理逗号和句号前的每个部分，以生成一个列表，如[Great drinks, beef hash, coffee, burritos]。我将如何做到这一点？

import re 
s= "Great drinks , beef hash, coffee, burritos." 
print (re.findall(r"[\w']+", s))

对文字 ' - '（连字符）

print (re.findall(r"([\w']+(?:\S-\S)?[\w'])+", s))

2017-04-24 13:32:04 SmartManoj

完美 - 谢谢 – user3058703

msg = "Great drinks , beef hash, coffee, burritos." 
msg.translate(str.maketrans(",.", " ")).split()

做这项工作。

2017-04-24 14:02:54 rolika

如果标点符号增加，它太长 – SmartManoj

回答