Scrapy parse_item回调没有被调用

我有一个让我的Scrapy蜘蛛运行它的回调方法的问题。Scrapy parse_item回调没有被调用

我不认为这是一个缩进错误，似乎是以前的其他职位的情况，但也许它是，我不知道它？有任何想法吗？

from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor 
from scrapy.selector import HtmlXPathSelector 
from scrapy import log 
import tldextract 

class CrawlerSpider(CrawlSpider): 
    name = "crawler" 

    def __init__(self, initial_url): 
    log.msg('initing...', level=log.WARNING) 
    CrawlSpider.__init__(self) 

    if not initial_url.startswith('http'): 
     initial_url = 'http://' + initial_url 

    ext = tldextract.extract(initial_url) 
    initial_domain = ext.domain + '.' + ext.tld 
    initial_subdomain = ext.subdomain + '.' + ext.domain + '.' + ext.tld 
    self.allowed_domains = [initial_domain, 'www.' + initial_domain, initial_subdomain] 
    self.start_urls = [initial_url] 
    self.rules = [ 
     Rule(SgmlLinkExtractor(), callback='parse_item'), 
     Rule(SgmlLinkExtractor(allow_domains=self.allowed_domains), follow=True), 
    ] 
    self._compile_rules() 

    def parse_item(self, response): 
    log.msg('parse_item...', level=log.WARNING) 
    hxs = HtmlXPathSelector(response) 
    links = hxs.select("//a/@href").extract() 
    for link in links: 
     log.msg('link', level=log.WARNING)

样品输出低于;它应该显示一个带有“parse_item ...”的警告消息，但它不会。

$ scrapy crawl crawler -a initial_url=http://www.szuhanchang.com/test.html 
2013-02-19 18:03:24+0000 [scrapy] INFO: Scrapy 0.16.4 started (bot: crawler) 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Enabled extensions: LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, SpiderState 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, RedirectMiddleware, CookiesMiddleware, HttpCompressionMiddleware, ChunkedTransferMiddleware, DownloaderStats 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Enabled item pipelines: 
2013-02-19 18:03:24+0000 [scrapy] WARNING: initing... 
2013-02-19 18:03:24+0000 [crawler] INFO: Spider opened 
2013-02-19 18:03:24+0000 [crawler] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Telnet console listening on 0.0.0.0:6023 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Web service listening on 0.0.0.0:6080 
2013-02-19 18:03:25+0000 [crawler] DEBUG: Crawled (200) <GET http://www.szuhanchang.com/test.html> (referer: None) 
2013-02-19 18:03:25+0000 [crawler] DEBUG: Filtered offsite request to 'www.20130219-0606.com': <GET http://www.20130219-0606.com/> 
2013-02-19 18:03:25+0000 [crawler] INFO: Closing spider (finished) 
2013-02-19 18:03:25+0000 [crawler] INFO: Dumping Scrapy stats: 
     {'downloader/request_bytes': 234, 
     'downloader/request_count': 1, 
     'downloader/request_method_count/GET': 1, 
     'downloader/response_bytes': 363, 
     'downloader/response_count': 1, 
     'downloader/response_status_count/200': 1, 
     'finish_reason': 'finished', 
     'finish_time': datetime.datetime(2013, 2, 19, 18, 3, 25, 84855), 
     'log_count/DEBUG': 8, 
     'log_count/INFO': 4, 
     'log_count/WARNING': 1, 
     'request_depth_max': 1, 
     'response_received_count': 1, 
     'scheduler/dequeued': 1, 
     'scheduler/dequeued/memory': 1, 
     'scheduler/enqueued': 1, 
     'scheduler/enqueued/memory': 1, 
     'start_time': datetime.datetime(2013, 2, 19, 18, 3, 24, 805064)} 
2013-02-19 18:03:25+0000 [crawler] INFO: Spider closed (finished)

在此先感谢！

来源

2013-02-19 Han

你是如何运行这个蜘蛛？从'Scrapy爬行爬虫'的命令行？ – 2013-02-19 17:18:54

通过一个sidekiq（排队）工人，但我已经在命令行中尝试过，也没有运气。我已经改变了这个问题，以包括命令行输出以更清晰。 – Han 2013-02-19 18:02:36

请提供一个简短的自包含示例（http://sscce.org/）。如果我将这段代码粘贴到一个新的蜘蛛中，那么它将无法工作，我必须安装tldextract模块，这使得测试有点棘手。 – Talvalin 2013-02-19 18:46:35

的http://www.szuhanchang.com/test.html的start_urls只有一个锚链接，即：

<a href="http://www.20130219-0606.com">Test</a>

其中包含一个链接到域20130219-0606.com，并根据您的allowed_domains的：

['szuhanchang.com', 'www.szuhanchang.com', 'www.szuhanchang.com']

这个请求被过滤OffsiteMiddleware：

2013-02-19 18:03:25+0000 [crawler] DEBUG: Filtered offsite request to 'www.20130219-0606.com': <GET http://www.20130219-0606.com/>

因此parse_item将不会被调用这个URL。

来源

2013-02-19 20:02:27

尽管我有两条规则，一条规则包含允许的域，不应该跟随异地URL，另一条规则是对每个找到的URL运行回调。 – Han 2013-02-19 21:34:36

第二条规则永远不会被处理，因为链接只会被满足的第一个规则处理一次，并且所有链接都满足第一条规则（缺省情况下锚定标签中的href）。另一件事是，链接提取器将根据它的参数提取链接，在你的情况下，'allow_domains'参数（如果说这个规则是第一个），但这个链接列表不会覆盖'OffsiteMiddleware'并且在这个情况下，它被过滤掉。 – 2013-02-19 21:49:05

将您的回调名称更改为parse_start_url似乎可行，但由于提供的测试网址很小，因此我无法确定这是否仍然有效。给它一个去，让我知道。 :)

来源

2013-02-19 18:54:01 Talvalin

不幸的是，这没有奏效;它会很奇怪，因为'parse_item'不是任何Crawler父类中的一个已实现的方法，并且在线许多示例都使用该确切的回调方法名称。 – Han 2013-02-19 21:35:57

它在我的工作，但后来我不得不硬编码'initial_domain'和'initial_subdomain'去除'tldextract'引用，所以它不是上面的代码相同。如果您可以在不使用该模块的情况下发布非工作示例，那会更好。 – Talvalin 2013-02-19 22:02:03

Scrapy parse_item回调没有被调用

回答

相关问题