我正在使用scrapy。如何从无限滚动网站上刮取所有内容? scrapy
我使用的网站有无限滚动。
网站有帖子的负荷,但我只刮出13
如何刮职位的休息吗?
这里是我的代码:
class exampleSpider(scrapy.Spider):
name = "example"
#from_date = datetime.date.today() - datetime.timedelta(6*365/12)
allowed_domains = ["example.com"]
start_urls = [
"http://www.example.com/somethinghere/"
]
def parse(self, response):
for href in response.xpath("//*[@id='page-wrap']/div/div/div/section[2]/div/div/div/div[3]/ul/li/div/h1/a/@href"):
url = response.urljoin(href.extract())
yield scrapy.Request(url, callback=self.parse_dir_contents)
def parse_dir_contents(self, response):
#scrape contents code here
我试着把深度限制在我的设置中,但仍然无法进入..它坚持获得所有这些链接:“www.example.com/blog/2016/05/13”但它没有点击链接并在里面刮.. – Michimcchicken
对不起,我不明白它卡在哪里。你可以在网上查看一些例子,例如https://github.com/scrapy/dirbot/blob/master/dirbot/spiders/dmoz.py – WannaBeCoder
你能查看我的最后一次编辑吗?我想知道它是否有帮助D: – Michimcchicken