2017-02-26 66 views
0

请帮我清理一下我的头:Scrapy部署算法

我想为我的项目在EC2上设置爬网。我使用Scrapy和MySQL结果。另外,我想为预定的抓取实现cron(例如每天);所以我的理解是:我用所有必需的软件包(python,mysql,scrapy等)设置EC2;然后我创造我的蜘蛛,我测试它们;当他们工作的时候,我设置了cron来抓取没有我的抓取。

我是对的还是我可能会错过什么?我需要使用Scrapyd还是只是一个选项?

回答

0

您需要一个能够为您运行Scrapy的程序。您可以使用scrapy命令或编写自己的脚本,也可以使用scrapyd。我个人喜欢scrayd,因为它使事情变得更简单(包括一个不错的API)。

+0

好吧,所以我实际上需要使用Scrapyd,如果我想将它设置为在没有我的情况下运行? – yurashark

+0

基本上,我只是做我解释我要做的事情,但是在测试我的蜘蛛后,我使用Scrapyd运行我的蜘蛛,然后使用cron自动化Scrapyd?我还没有看到Scrapyd在其文档中提供了自动爬网(例如每小时),还是我在那里丢失了某些东西? – yurashark

+0

实际上你不需要使用scrapyd。你可以安排'scrapy crawl '。但是,可以帮助其他功能,如API和Web监控。如果您选择了scrapyd,则需要使用API​​开始爬网(可能使用'curl')。 – masnun