我需要使用scrapy用于抓取网页的所有内部网络链接,使得在例如www.stackovflow.com所有链接被抓取。此代码排序工作的:Scrapy抓取仅供内部链接,包括相对链接
extractor = LinkExtractor(allow_domains=self.getBase(self.startDomain))
for link in extractor.extract_links(response):
self.registerUrl(link.url)
然而,有一个小问题,如/meta
或所有相对路径不抓取作为不包含基本域stackoverflow.com
。任何想法如何解决这一问题?
不scrapy.spidermiddlewares.offsite.OffsiteMiddleware https://doc.scrapy.org/en/latest/topics/spider-middleware.html#scrapy.spidermiddlewares.offsite.OffsiteMiddleware是否做到这一点? –
感谢我显然发现了一些旧的文档 –