2016-11-30 722 views
0

所以我想用空格将文本与标点符号分开。Python如何从文字中分离标点符号

my_text = "!where??and!!or$$then:)" 

我想要有一个! where ?? and !! or $$ then :)作为结果。

我想要的东西就像使用Javascript,在那里你可以使用$1来得到你的匹配字符串。我迄今为止尝试:

my_matches = re.findall('[!"\$%&\'()*+,\-.\/:;=#@?\[\\\]^_`{|}~]*', my_text) 

这里my_matches是空的,所以我不得不从表达中删除\\\

my_matches = re.findall('[!"\$%&\'()*+,\-.\/:;=#@?\^_`{|}~]*', my_text) 

我有这样的结果:

['!', '', '', '', '', '', '??', '', '', '', '!!', '', '', '$$', '', '', '', '', 
':)', ''] 

所以我删除所有冗余条目是这样的:

my_matches_distinct = list(set(my_matches)) 

和我有一个更好的结果:

['', '??', ':)', '$$', '!', '!!'] 

然后我通过自己和空格替换每一场比赛:

for match in my_matches: 
if match != '': 
    my_text = re.sub(match, ' ' + match + ' ', my_text) 

当然它不工作!我试图把这个匹配作为一个字符串来投射,但它不能正常工作......当我尝试直接放置字符串来替换它的工作。

但我认为我没有做对,因为我会遇到'!'的问题。 et'!!'对?

谢谢:)

+0

建议定义一个正则表达式时使用原始字符串字面量。另外,不要在字符类中逃脱任意符号,只有''''''必须总是被转义,而其他符号可以被放置,以便它们不需要转义。此外,你的正则表达式匹配一个空字符串 - 它确实 - 由于“*”。用'+'量词替换。 –

+0

如果你想从你的字符串中删除这些符号,为什么要使用're.findall'呢? –

+0

因为我想把空间放在前面和这些符号组之后,我不知道如何存储它? – MlleStrife

回答

1

建议定义一个正则表达式时使用原始字符串字面量。此外,不要在角色类中逃脱任意符号,只有\必须总是逃脱,其他人可以放置,以便他们不需要逃脱。此外,你的正则表达式匹配一个空字符串 - 它的确如此 - 由于*。用+量词替换。另外,如果您想从字符串中删除这些符号,请直接使用re.sub

import re 
my_text = "!where??and!!or$$then:)" 
print(re.sub(r'[]!"$%&\'()*+,./:;=#@?[\\^_`{|}~-]+', r' \g<0> ', my_text).strip()) 

Python demo

详细:本[]!"$%&\'()*+,./:;=#@?[\^_`{|}~-]+匹配任何1+从符号集(注意,只有\这里逃脱,因为-末被使用,并且在]的开始类),并且替换插入空格+整个匹配(\g<0>是对整个匹配的反向引用)和空格。在正则表达式完成字符串处理后,.strip()将删除前导/尾随空白。

+1

再次感谢和抱歉,我笨拙的问题:( – MlleStrife

0

使用sub()方法在re库中。你可以这样做,如下所示,

import re 
str = '!where??and!!or$$then:)' 
print re.sub(r'([[email protected]#%\^&\*\(\):;"\',\./\\]+)', r' \1 ', str).strip() 

我希望这段代码能够解决你的问题。如果你对regex很明显,那么正则表达式部分不是什么大不了的。只是它是使用正确的功能。

希望这会有所帮助!如果您有任何疑问,请发表评论。 :)


参考文献:

Python re library

相关问题