1
我试图测试Scrapy爬行网页,我不明白为什么我的爬虫只爬行一页,我试图评论规则和allowed_domains都没有成功。我想有一些愚蠢的我失去了任何帮助,将不胜感激。为什么Scrapy只抓取一个页面?
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.spider import BaseSpider
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
class NYSpider(CrawlSpider):
name = "ny"
allowed_domains = ["nytimes.com"]
start_urls = ["http://www.nytimes.com/"]
rules = (
Rule(SgmlLinkExtractor(allow=('/2012',)), callback='parse_article'),
Rule(SgmlLinkExtractor(allow=('/page',))),
)
def parse(self, response):
print 'page '+response.url
def parse_article(self, response):
print 'article '+response.url
任何抓取整个网站的程序样本都会受到欢迎。
谢谢,但这并没有改变任何东西 – AsTeR 2012-03-21 11:08:37
@AsTeR做了另一个猜测;)看看我的编辑,如果这对你有用。 – DrColossos 2012-03-21 11:13:48
谢谢。不,它不会,调用父级引发异常:exceptions.NotImplementedError。我认为解析方法的实现是让子类的。 – AsTeR 2012-03-21 12:55:59