有没有一种格式可以指定scrapy中的LinkExtractor
中的规则?我已阅读文档,但对我来说不是很清楚。在我的情况下,url链接值在第一页之后不断增加(类似于& pg = 2等等)。例如见下图:在scrapy中的Linkextractor中指定规则
start_urls = ['http://www.examples.com']
rules= [Rule (LinkExtractor(allow=['www.examples.com/sports/companies?searchTerm=news+sports&pg=2']), 'parse_torrent')]
让我知道,如果有指定规则的URL,这样我可以刮掉第1页第2页一个正确的方式......第100页。
您可以使用Linkextractor指定正则表达式吗?看起来sgml已经过时了,我收到了一些错误。 – user3570187 2014-11-04 00:24:24
对不起,我会修改我的代码。实际上,您可以简单地将SgmlLinkExtractor替换为LinkExtractor – kakashi 2014-11-04 03:28:43