我使用CrawlSpider来抓取网站。该网站使用cookie检测我的蜘蛛。如果我禁用它们,它也会检测到我是一个机器人。那么如何在每个请求中使用新的cookie。重置Scrapy中的cookies而不禁用它们
我的蜘蛛很简单:
# -*- coding: utf-8 -*-
import scrapy
import requests
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class ExampleSpider(CrawlSpider):
name = 'example'
allowed_domains = ['www.example.com']
start_urls = ['http://www.example.com/items']
rules = (
Rule(LinkExtractor(allow=('/items/.'),deny=('sendMessage')), follow=True),
Rule(LinkExtractor(allow=('/item/[a-z\+]+\-[0-9]+') ,deny=('sendMessage')), callback='parse_item', follow=False),
)
def parse_item(self, response):
#parsing the page et yielding data
PS:我使用Tor来更改IP每x秒。
新的每个请求的cookie是一样的不使用cookies。 – eLRuLL
@eLRuLL你确定吗?我们如何验证这一点?知道当COOKIES_ENABLED为False时,COOKIES_DEBUG不起作用。 – Hebmaster