1
我试图找到顶级域信息。Python正则表达式Findall
如果我要搜索“https://testwebsite.com.au/folders/viewforum.php?f=1556n”我只希望我的表情中找到“https://testwebsite.com.au”
我用下面的表达式:
urlRegex = re.compile(r'''((https?|sftp|ftp|file)://[-a-zA-Z0-9+&@#/%?
=~_|!:,.;'"*$()]*[a-zA-Z0-9+&@#/%=~_|] )''', re.VERBOSE)
也许更好地利用https://docs.python.org/2/library/ urlparse.html – comalex3
我会从一个html解析器开始 –