我写过一个库,它通过从维基百科中提取href链接并保存它们来创建一个持久层。我意识到我有一个链接,我不关心那个标签为/wiki/Cookbook:Table_of_Contents
。与不需要的链接匹配
模仿!~
(不匹配)并保持Pythonic的最佳方式是什么?
为了更好的上下文和理解,我会解决这个问题,像这样的红宝石:
if link =~ %r{^/wiki/Cookbook} && link !~ /Table_of_Contents/
我的代码:
def fetch_links(self, proxy):
if not self._valid_proxy(proxy):
raise ValueError('invalid proxy address: {}'.format(proxy))
self.browser.set_proxies({'http': proxy})
page = self.browser.open(self.wiki_recipes)
html = page.read()
link_tags = SoupStrainer('a', href=True)
soup = BeautifulSoup(html, parse_only=link_tags)
recipe_regex = r'^\/wiki\/Cookbook'
return [link['href'] for link in soup.find_all('a') if
re.match(recipe_regex, link['href'])]
为什么downvote?我只是在寻找第二种意见或更好的选择,而不是钓鱼竿。 – theGrayFox 2014-10-06 22:19:46