2015-04-03 133 views
3

我有一个使用Python的Scrapy的爬虫/蜘蛛,我想使用Amazon Web服务安排每日爬行。使用亚马逊网络服务自动计划Scrapy爬虫

我想要做的是,每天都说01:00 UTC。我想要创建一个ec2实例并启动Scrapy蜘蛛并运行抓取,并且完成后我希望ec2实例被终止。

我不希望ec2实例遗留下来并且运行并增加额外的成本/费用,因为将来我会添加更多的蜘蛛,并且可能导致十几个被动实例每天20小时无所事事。

我发现一对夫妇的帖子谈论使用Scrapy与EC2的:

但他们都似乎需要您推出该脚本每次您想要安排抓取时,请从您的本地计算机上下载。它似乎不会自动完成。我希望我的脚本每年365天运行10年以上,而且我不想每晚睡觉前都做这个脚本。

有人可以描述这是如何使用亚马逊网络服务完成的吗?

回答