Scrapy部署算法

请帮我清理一下我的头：Scrapy部署算法

我想为我的项目在EC2上设置爬网。我使用Scrapy和MySQL结果。另外，我想为预定的抓取实现cron（例如每天）;所以我的理解是：我用所有必需的软件包（python，mysql，scrapy等）设置EC2;然后我创造我的蜘蛛，我测试它们;当他们工作的时候，我设置了cron来抓取没有我的抓取。

我是对的还是我可能会错过什么？我需要使用Scrapyd还是只是一个选项？

2017-02-26 yurashark

您需要一个能够为您运行Scrapy的程序。您可以使用scrapy命令或编写自己的脚本，也可以使用scrapyd。我个人喜欢scrayd，因为它使事情变得更简单（包括一个不错的API）。

2017-02-26 08:12:20 masnun

好吧，所以我实际上需要使用Scrapyd，如果我想将它设置为在没有我的情况下运行？ – yurashark

基本上，我只是做我解释我要做的事情，但是在测试我的蜘蛛后，我使用Scrapyd运行我的蜘蛛，然后使用cron自动化Scrapyd？我还没有看到Scrapyd在其文档中提供了自动爬网（例如每小时），还是我在那里丢失了某些东西？ – yurashark

实际上你不需要使用scrapyd。你可以安排'scrapy crawl '。但是，可以帮助其他功能，如API和Web监控。如果您选择了scrapyd，则需要使用API开始爬网（可能使用'curl'）。 – masnun

回答