2014-11-06 85 views
0

所以我有一个Scrapy项目设置工作,我已经启用了ROBOTSTXT_OBEY中间件其工作的robot.txt文件罚款是按以下格式:Scrapy ROBOTSTXT_OBEY并非在所有情况下

用户代理:* 不允许:/工具/

但是当在以下格式的robots.txt文件网站相同的蜘蛛它不工作:

用户代理:* 禁止:*下一

Th是应该被robots.txt阻止的页面仍然被抓取的结果,顺便说一句,这是robots.txt文件完全有效的标记。

只是想知道是否有人可以解释为什么这可能是什么?

+0

我不是中间件的家庭,但您确定它是robots.txt条目格式?中间件是否可以提供有关多个并发请求的文档页面的警告? – dm03514 2014-11-06 15:12:19

+0

看起来像是由于使用了不支持通配符的Python标准robots.txt解析器:/ – Adders 2014-11-06 16:17:22

回答

0

Scrapy使用不支持通配符的Python标准robots.txt解析器。

相关问题