递归使用Scrapy从网站上删除网页

我最近开始使用Scrapy。我试图从一个分为几页（大约50页）的大列表中收集一些信息。我可以从第一页轻松提取我想要的内容，包括start_urls列表中的第一页。不过，我不想将这50页的所有链接添加到此列表中。我需要更加动态的方式。有谁知道我可以迭代刮网页？有没有人有这样的例子？递归使用Scrapy从网站上删除网页

谢谢！

来源

2011-02-02 Hossein

你想做什么？在项目符号列表中解释过程。已经有相当[很少的链接]（http://stackoverflow.com/questions/tagged/scrapy?sort=newest）已经 – karlcow 2011-02-09 00:38:00

为什么你不想把所有的链接添加到50页？这些页面的URL是连续的，如www.site.com/page=1,www.site.com/page=2还是它们都是不同的？你能告诉我你现在的代码吗？

来源

2011-02-03 17:44:51

使用urllib2下载页面。然后使用re（正则表达式）或BeautifulSoup（一个HTML解析器）来找到你需要的下一页的链接。用urllib2下载。冲洗并重复。

Scapy是伟大的，但你不需要它做你想做的事

来源

2011-02-09 00:35:28 Alex

递归使用Scrapy从网站上删除网页

回答

相关问题