0
我需要处理少量文本(即python中的字符串)。如何在解析python字符串时保留重复标点符号?
我想删除某些标点符号 (如'.', ',', ':', ';',
)
,但保持标点符号表示像('...', '?', '??','???', '!', '!!', '!!!'
)
也有七情六欲的,我想删除无信息的词作为'a', 'an', 'the'
。 此外,到目前为止最大的挑战是如何解析“我有”或“我们有”最终得到“我有”和“我们有”?撇号使我感到困难。
什么是最好/最简单的方法来做到这一点在Python中?
例如:
"I've got an A mark!!! Such a relief... I should've partied more."
结果我想:
['I', 'have', 'got', 'A', 'mark', '!!!', 'Such', 'relief', '...',
'I', 'should', 'have', 'partied', 'more']
运行你试过* *什么做到这一点? –
是的!我已经尝试了几个正则表达式,但是我要实现一个或另一个目标,而不是全部。 – Oleksandra
然后发布他们并解释什么是错的,也许有人可以帮助解决它们。 –