我正在编写一个scrapy爬虫,用于迭代'下一页'爬行。 我的代码是这样的:Scrapy意外跳过了一些页面
def parse(self, response):
while self.current_page<=self.total_page:
self.current_page = int(self.selector.css("something").extract()[-1])
for post_node in self.selector.css("div.info-column"):
yield {
"location": post_node.css("something").extract(),
}
logging.info("************** now page is %d **************", self.current_page)
logging.info("********** one page done,Going to next **********")
try:
self.next.send_keys('\n')
我预想的代码抓取每一页的信息,然后点击下一页。但打印的调试信息显示它经常跳过一些页面。
可能是什么原因?
感谢您的帮助。经过几个小时的调试。当我切换到xpath定位器时,我终于可以工作了。当我阅读他们对selector.css函数的评论时。有人说,CSS选择器是翻译成xpath。我不确定是否由于css选择器的稳定性。但是xpath对我来说一直稳定运行。 – Jimmy