2011-02-02 65 views
1

我最近开始使用Scrapy。我试图从一个分为几页(大约50页)的大列表中收集一些信息。我可以从第一页轻松提取我想要的内容,包括start_urls列表中的第一页。不过,我不想将这50页的所有链接添加到此列表中。我需要更加动态的方式。有谁知道我可以迭代刮网页?有没有人有这样的例子?递归使用Scrapy从网站上删除网页

谢谢!

+0

你想做什么?在项目符号列表中解释过程。已经有相当[很少的链接](http://stackoverflow.com/questions/tagged/scrapy?sort=newest)已经 – karlcow 2011-02-09 00:38:00

回答

0

为什么你不想把所有的链接添加到50页?这些页面的URL是连续的,如www.site.com/page=1,www.site.com/page=2还是它们都是不同的?你能告诉我你现在的代码吗?

1

使用urllib2下载页面。然后使用re(正则表达式)或BeautifulSoup(一个HTML解析器)来找到你需要的下一页的链接。用urllib2下载。冲洗并重复。

Scapy是伟大的,但你不需要它做你想做的事