2017-01-22 76 views
0

我有一些Scrapy代码,我想开始使用proxymesh。该proxymesh documentation隐晦地说:如何使用Scrapy设置proxymesh?

对于scrapy爬行框架,你必须设置HTTP_PROXY 环境变量[...]然后activate的HttpProxyMiddleware。

我明白如何设置http_proxy环境变量,但是如何“激活HttpProxyMiddleware”在文档中并不完全明显。我想需要以下添加到settings.py在我的Scrapy项目:

DOWNLOADER_MIDDLEWARES = { 
    'myproject.middleware.ProxyMeshMiddleware': 100, 
} 

但后来我相信我还需要添加一些实际的中间件代码,大概在middleware.py文件?

我发现this gist,所以我想我可以复制并粘贴到middleware.py,但我不确定它是否准确。它似乎使用了proxymesh文档中推荐的不同环境变量。

回答

2

要旨你是指读取操作系统环境变量ProxyMesh设置,基本Scrapy的,否则它是稍微修改代码HttpProxyMiddleware和应该效果很好。

你也可以看看我的非常简单的实现Proxymesh中间件https://github.com/mizhgun/scrapy-proxymesh支持代理轮换(如果你有ProxyMesh计划与多个端点)和可定制的超时。

+0

谢谢!我也看到了您的库,但我不确定如何开始使用它,除了按照自述文件中所述编辑设置文件。是否只是将'scproxymesh'目录复制到我的项目中? – Richard

+1

您可以来源复制到您的项目或使用PIP画中画'安装-e git的安装+ https://开头github.com/mizhgun/scrapy-proxymesh @主站#蛋= scproxymesh' – mizhgun

+1

UPD:上传到PyPI中,现在可以通过'pip install scrapy-proxymesh'安装。 – mizhgun