抓取基于登录的网站的最佳方式是什么？

class LoginSpider(BaseSpider): 
    domain_name = 'example.com' 
    start_urls = ['http://www.example.com/users/login.php'] 

    def parse(self, response): 
     return [FormRequest.from_response(response, 
       formdata={'username': 'john', 'password': 'secret'}, 
       callback=self.after_login)] 

    def after_login(self, response): 
     # check login succeed before going on 
     if "authentication failed" in response.body: 
      self.log("Login failed", level=log.ERROR) 
      return 

     # continue scraping with authenticated session...

来源

2009-11-20 04:49:53

什么发生的url是发射JavaScript像document.writeln填充浏览器文件？ Scrapy是否适用于这种情况？ – asyncwait 2009-11-20 13:19:05

有两种情况我可以想到 – 2009-11-20 14:17:58

1.页面加载时所有的数据都在页面中，但是它使用js而不是html（这是不太可能的）。但是，如果是这样的话，那么我相信你可以解析它，scrapy有一些功能，可以在这里模糊地指出：http://doc.scrapy.org/intro/overview.html?highlight=javascript#what-else – 2009-11-20 14:39:59

我使用mechanize为Python成功的几件事情。它很容易使用和支持HTTP身份验证，表单处理，cookie，自动HTTP重定向（30X），......基本上唯一缺少的是JavaScript，但是如果您需要依赖JS，那么您总是非常麻烦。

来源

2009-11-20 11:27:50 paprika

抓取基于登录的网站的最佳方式是什么？

回答

相关问题