Python如何从文字中分离标点符号

所以我想用空格将文本与标点符号分开。Python如何从文字中分离标点符号

my_text = "!where??and!!or$$then:)"

我想要有一个! where ?? and !! or $$ then :)作为结果。

我想要的东西就像使用Javascript，在那里你可以使用$1来得到你的匹配字符串。我迄今为止尝试：

my_matches = re.findall('[!"\$%&\'()*+,\-.\/:;=#@?\[\\\]^_`{|}~]*', my_text)

这里my_matches是空的，所以我不得不从表达中删除\\\：

my_matches = re.findall('[!"\$%&\'()*+,\-.\/:;=#@?\^_`{|}~]*', my_text)

我有这样的结果：

['!', '', '', '', '', '', '??', '', '', '', '!!', '', '', '$$', '', '', '', '', 
':)', '']

所以我删除所有冗余条目是这样的：

my_matches_distinct = list(set(my_matches))

和我有一个更好的结果：

['', '??', ':)', '$$', '!', '!!']

然后我通过自己和空格替换每一场比赛：

for match in my_matches: 
if match != '': 
    my_text = re.sub(match, ' ' + match + ' ', my_text)

当然它不工作！我试图把这个匹配作为一个字符串来投射，但它不能正常工作......当我尝试直接放置字符串来替换它的工作。

但我认为我没有做对，因为我会遇到'！'的问题。 et'!!'对？

谢谢:)

来源

2016-11-30 MlleStrife

建议定义一个正则表达式时使用原始字符串字面量。另外，不要在字符类中逃脱任意符号，只有''''''必须总是被转义，而其他符号可以被放置，以便它们不需要转义。此外，你的正则表达式匹配一个空字符串 - 它确实 - 由于“*”。用'+'量词替换。 –

如果你想从你的字符串中删除这些符号，为什么要使用're.findall'呢？ –

因为我想把空间放在前面和这些符号组之后，我不知道如何存储它？ – MlleStrife

建议定义一个正则表达式时使用原始字符串字面量。此外，不要在角色类中逃脱任意符号，只有\必须总是逃脱，其他人可以放置，以便他们不需要逃脱。此外，你的正则表达式匹配一个空字符串 - 它的确如此 - 由于*。用+量词替换。另外，如果您想从字符串中删除这些符号，请直接使用re.sub。

import re 
my_text = "!where??and!!or$$then:)" 
print(re.sub(r'[]!"$%&\'()*+,./:;=#@?[\\^_`{|}~-]+', r' \g<0> ', my_text).strip())

见Python demo

详细：本[]!"$%&\'()*+,./:;=#@?[\^_`{|}~-]+匹配任何1+从符号集（注意，只有\这里逃脱，因为-末被使用，并且在]的开始类），并且替换插入空格+整个匹配（\g<0>是对整个匹配的反向引用）和空格。在正则表达式完成字符串处理后，.strip()将删除前导/尾随空白。

来源

2016-11-30 08:55:55

再次感谢和抱歉，我笨拙的问题:( – MlleStrife

使用sub()方法在re库中。你可以这样做，如下所示，

import re 
str = '!where??and!!or$$then:)' 
print re.sub(r'([[email protected]#%\^&\*\(\):;"\',\./\\]+)', r' \1 ', str).strip()

我希望这段代码能够解决你的问题。如果你对regex很明显，那么正则表达式部分不是什么大不了的。只是它是使用正确的功能。

希望这会有所帮助！如果您有任何疑问，请发表评论。 :)

参考文献：

Python re library

来源

2016-11-30 09:07:09 bharadhwaj

Python如何从文字中分离标点符号

回答

相关问题