1
# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
class InfoSpider(scrapy.Spider):
name = 'info'
allowed_domains = ['womenonlyconnected.com']
start_urls =['http://www.womenonlyconnected.com/socialengine/pageitems/index']
def parse(self, response):
urls = response.xpath('//h3/a/@href').extract()
for url in urls:
absolute_url = response.urljoin(url)
yield Request(absolute_url , callback = self.parse_page)
def parse_page(self , response):
pass
这里用我的代码,这个代码我可以凑仅前24个链接只需要在“查看更多”后刮所有环节帮助的 页PAG网址是bbelow http://www.womenonlyconnected.com/socialengine/pageitems/indexScrapy:刮网页上的“下一个”结果使用scrapy
@TomášLinhart,我也检查过该网站。这是最后一页'http://www.womenonlyconnected.com/socialengine/pageitems/index?page = 47'。 – SIM
@Shahin这不是真正通用的解决方案,因为添加文章时页面的数量可能随时间而变化。真正通用的解决方案涉及使用(无头)浏览器来呈现页面,例如,溅。 –