2015-09-19 193 views
1

我试图找到顶级域信息。Python正则表达式Findall

如果我要搜索“https://testwebsite.com.au/folders/viewforum.php?f=1556n”我只希​​望我的表情中找到“https://testwebsite.com.au

我用下面的表达式:

urlRegex = re.compile(r'''((https?|sftp|ftp|file)://[-a-zA-Z0-9+&@#/%? 
      =~_|!:,.;'"*$()]*[a-zA-Z0-9+&@#/%=~_|] )''', re.VERBOSE) 
+2

也许更好地利用https://docs.python.org/2/library/ urlparse.html – comalex3

+0

我会从一个html解析器开始 –

回答

0

如果你想成为严格和正确的,使用真正的URL解析器。如果你正在寻找的东西快速和肮脏的,将针对URL的99%的工作,你会发现,怎么样:

urlRegex = re.compile(r'([a-zA-Z]+://[^/\s]+)')