我有以下格式的站点:抓痕随着增量的ID
http://www.domain.com/membership/member_zoom.php?value
值开始于1000并停止大约15,000
这里是源代码的样例:
<h1>Member Information</h1>
<h2>Company Name</h2>
<p>Address<br />
More Address<br />
City<br />
State<br />
Postal code<br />
</p>
<p><strong>Contact:</strong> Firstname Lastname, PH.D., P.ENG. - <a href="mailto:[email protected]">[email protected]</a><br /></p>
<a href="http://www.domain.com">www.domain.com</a><br />
<p><strong>Phone:</strong> (555)555-5555<br /></p>
所以,我需要抓住我之间的一切mber Information和最后一个div标签,然后递增ID值1,重复。但是,有很多死ID。我的刮板只是敲击网站,增加一次,然后再次击中它。有更容易的方法吗?也许某种方式来建立故障安全?
Gotcha。我如何缩小抓取范围,使其位于上面的代码示例中?现在它抓住了整个页面。谢谢! – Publiccert 2012-08-16 16:02:44
你如何加载页面?您可能一次只能读取1kB,一旦处理完所需的所有内容,就可以关闭连接而不读剩下的内容。不过,您必须按顺序阅读相关部分。 – Claudiu 2012-08-16 16:20:18
通过urllib加载它 – Publiccert 2012-08-16 16:21:14