2012-07-14 64 views
1

什么是机械化后续链接(br.follow_link)位于某个div内最pythonic方式?我知道如何在BeautifulSoup的帮助下做到这一点,但是有没有一种方法可以用机械化来实现?机械化:按照链接内部的链接

样品格:

<div id="blah_links"> 
<a href="LINK1" class="active">1</a> | 
<a href="LINK2">2</a> | 
<a href="LINK3">3</a> | 
<a href="LINK4">NEXT</a> 
</div> 

回答

1

我最近遇到了类似的问题,这里是我做过什么

url = "www.somewhere.com" 
br = mechanize.Browser() 
br.open(url) 

encoded_data = UnicodeDammit(br.response().read(),isHTML=True).unicode 
parser = lxml_html.fromstring(encoded_data) 

soup_xpath = "//div[@id='BODYCON']//a/@href" 
valid_links = soup.xpath(soup_xpath) 
links = [ link for link if link.url in valid_links ] 
-1

在这里,你可以找到这个问题也许是解决方法:

http://wwwsearch.sourceforge.net/mechanize/

+0

链接已损坏。 – sscirrus 2015-12-15 23:38:51

+0

链接重新打开,但不是只发布一个链接,你应该考虑给出一个具体的解决方案 – Murmel 2016-09-28 09:12:42