2013-02-19 198 views
2

我有一个让我的Scrapy蜘蛛运行它的回调方法的问题。Scrapy parse_item回调没有被调用

我不认为这是一个缩进错误,似乎是以前的其他职位的情况,但也许它是,我不知道它?有任何想法吗?

from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor 
from scrapy.selector import HtmlXPathSelector 
from scrapy import log 
import tldextract 

class CrawlerSpider(CrawlSpider): 
    name = "crawler" 

    def __init__(self, initial_url): 
    log.msg('initing...', level=log.WARNING) 
    CrawlSpider.__init__(self) 

    if not initial_url.startswith('http'): 
     initial_url = 'http://' + initial_url 

    ext = tldextract.extract(initial_url) 
    initial_domain = ext.domain + '.' + ext.tld 
    initial_subdomain = ext.subdomain + '.' + ext.domain + '.' + ext.tld 
    self.allowed_domains = [initial_domain, 'www.' + initial_domain, initial_subdomain] 
    self.start_urls = [initial_url] 
    self.rules = [ 
     Rule(SgmlLinkExtractor(), callback='parse_item'), 
     Rule(SgmlLinkExtractor(allow_domains=self.allowed_domains), follow=True), 
    ] 
    self._compile_rules() 

    def parse_item(self, response): 
    log.msg('parse_item...', level=log.WARNING) 
    hxs = HtmlXPathSelector(response) 
    links = hxs.select("//a/@href").extract() 
    for link in links: 
     log.msg('link', level=log.WARNING) 

样品输出低于;它应该显示一个带有“parse_item ...”的警告消息,但它不会。

$ scrapy crawl crawler -a initial_url=http://www.szuhanchang.com/test.html 
2013-02-19 18:03:24+0000 [scrapy] INFO: Scrapy 0.16.4 started (bot: crawler) 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Enabled extensions: LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, SpiderState 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, RedirectMiddleware, CookiesMiddleware, HttpCompressionMiddleware, ChunkedTransferMiddleware, DownloaderStats 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Enabled item pipelines: 
2013-02-19 18:03:24+0000 [scrapy] WARNING: initing... 
2013-02-19 18:03:24+0000 [crawler] INFO: Spider opened 
2013-02-19 18:03:24+0000 [crawler] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Telnet console listening on 0.0.0.0:6023 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Web service listening on 0.0.0.0:6080 
2013-02-19 18:03:25+0000 [crawler] DEBUG: Crawled (200) <GET http://www.szuhanchang.com/test.html> (referer: None) 
2013-02-19 18:03:25+0000 [crawler] DEBUG: Filtered offsite request to 'www.20130219-0606.com': <GET http://www.20130219-0606.com/> 
2013-02-19 18:03:25+0000 [crawler] INFO: Closing spider (finished) 
2013-02-19 18:03:25+0000 [crawler] INFO: Dumping Scrapy stats: 
     {'downloader/request_bytes': 234, 
     'downloader/request_count': 1, 
     'downloader/request_method_count/GET': 1, 
     'downloader/response_bytes': 363, 
     'downloader/response_count': 1, 
     'downloader/response_status_count/200': 1, 
     'finish_reason': 'finished', 
     'finish_time': datetime.datetime(2013, 2, 19, 18, 3, 25, 84855), 
     'log_count/DEBUG': 8, 
     'log_count/INFO': 4, 
     'log_count/WARNING': 1, 
     'request_depth_max': 1, 
     'response_received_count': 1, 
     'scheduler/dequeued': 1, 
     'scheduler/dequeued/memory': 1, 
     'scheduler/enqueued': 1, 
     'scheduler/enqueued/memory': 1, 
     'start_time': datetime.datetime(2013, 2, 19, 18, 3, 24, 805064)} 
2013-02-19 18:03:25+0000 [crawler] INFO: Spider closed (finished) 

在此先感谢!

+0

你是如何运行这个蜘蛛?从'Scrapy爬行爬虫'的命令行? – 2013-02-19 17:18:54

+0

通过一个sidekiq(排队)工人,但我已经在命令行中尝试过,也没有运气。我已经改变了这个问题,以包括命令行输出以更清晰。 – Han 2013-02-19 18:02:36

+0

请提供一个简短的自包含示例(http://sscce.org/)。如果我将这段代码粘贴到一个新的蜘蛛中,那么它将无法工作,我必须安装tldextract模块,这使得测试有点棘手。 – Talvalin 2013-02-19 18:46:35

回答

4

http://www.szuhanchang.com/test.htmlstart_urls只有一个锚链接,即:

<a href="http://www.20130219-0606.com">Test</a> 

其中包含一个链接到域20130219-0606.com,并根据您的allowed_domains的:

['szuhanchang.com', 'www.szuhanchang.com', 'www.szuhanchang.com'] 

这个请求被过滤OffsiteMiddleware

2013-02-19 18:03:25+0000 [crawler] DEBUG: Filtered offsite request to 'www.20130219-0606.com': <GET http://www.20130219-0606.com/> 

因此parse_item将不会被调用这个URL。

+0

尽管我有两条规则,一条规则包含允许的域,不应该跟随异地URL,另一条规则是对每个找到的URL运行回调。 – Han 2013-02-19 21:34:36

+0

第二条规则永远不会被处理,因为链接只会被满足的第一个规则处理一次,并且所有链接都满足第一条规则(缺省情况下锚定标签中的href)。另一件事是,链接提取器将根据它的参数提取链接,在你的情况下,'allow_domains'参数(如果说这个规则是第一个),但这个链接列表不会覆盖'OffsiteMiddleware'并且在这个情况下,它被过滤掉。 – 2013-02-19 21:49:05

1

将您的回调名称更改为parse_start_url似乎可行,但由于提供的测试网址很小,因此我无法确定这是否仍然有效。给它一个去,让我知道。 :)

+0

不幸的是,这没有奏效;它会很奇怪,因为'parse_item'不是任何Crawler父类中的一个已实现的方法,并且在线许多示例都使用该确切的回调方法名称。 – Han 2013-02-19 21:35:57

+0

它在我的工作,但后来我不得不硬编码'initial_domain'和'initial_subdomain'去除'tldextract'引用,所以它不是上面的代码相同。如果您可以在不使用该模块的情况下发布非工作示例,那会更好。 – Talvalin 2013-02-19 22:02:03