我想要得到tweet中没有提到的词(以@开头)或标签(以#开头)。Python正则表达式来获取tweet中所有不是@mention或#hashtag的单词
我的代码是这样的:
import re
pattern=r'(?u)\b\w\w+\b'
pattern=re.compile(pattern)
pattern.findall('this is a tweet #hashtag @mention')
与此正则表达式的结果是 这是一个鸣叫包括hashtag提
,但我不希望包括hashtag和提的结果。 我想要得到的结果是:
这是一个鸣叫
请注意,我不能代替空格使用\ B的,因为输出 。这是一个鸣叫(注意。在开始时) 也应该是 [这是一个鸣叫] \ b强制一个词的开始是任何非字母数字,但如果我使用\ s然后这将不会在结果。
充分利用@和#字符的前缀(可选)你的话,你申请 –
我给这个正则表达式正则表达式后,然后过滤输出另一个不是我的功能(scikit-learn的tfidfvectorizer),所以我不能做任何post/pre处理,正则表达式应该完成这项工作。 – Ash