0
请帮我清理一下我的头:Scrapy部署算法
我想为我的项目在EC2上设置爬网。我使用Scrapy和MySQL结果。另外,我想为预定的抓取实现cron(例如每天);所以我的理解是:我用所有必需的软件包(python,mysql,scrapy等)设置EC2;然后我创造我的蜘蛛,我测试它们;当他们工作的时候,我设置了cron来抓取没有我的抓取。
我是对的还是我可能会错过什么?我需要使用Scrapyd还是只是一个选项?
好吧,所以我实际上需要使用Scrapyd,如果我想将它设置为在没有我的情况下运行? – yurashark
基本上,我只是做我解释我要做的事情,但是在测试我的蜘蛛后,我使用Scrapyd运行我的蜘蛛,然后使用cron自动化Scrapyd?我还没有看到Scrapyd在其文档中提供了自动爬网(例如每小时),还是我在那里丢失了某些东西? – yurashark
实际上你不需要使用scrapyd。你可以安排'scrapy crawl'。但是,可以帮助其他功能,如API和Web监控。如果您选择了scrapyd,则需要使用API开始爬网(可能使用'curl')。 –
masnun