当使用正则表达式从文本中提取单词时,任何人都知道处理撇号的方式吗?我需要一个正则表达式来处理从文本中提取单词时的撇号
>>> import re
>>> s = re.compile(r"\b[A-Za-z0-9_\-]+\b")
>>> s.findall("I don't know Sally's 'special' friend.")
['I', 'don', 't', 'know', 'Sally', 's', 'special', 'friend']
期望的结果:
['I', "don't", 'know', 'Sally', 'special', 'friend']
This discussion介绍如何查找完整的单词,但不与撇号处理。
http://stackoverflow.com/a/28058612/1400768 – nhahtdh