3
我有一个使用Python的Scrapy的爬虫/蜘蛛,我想使用Amazon Web服务安排每日爬行。使用亚马逊网络服务自动计划Scrapy爬虫
我想要做的是,每天都说01:00 UTC。我想要创建一个ec2实例并启动Scrapy蜘蛛并运行抓取,并且完成后我希望ec2实例被终止。
我不希望ec2实例遗留下来并且运行并增加额外的成本/费用,因为将来我会添加更多的蜘蛛,并且可能导致十几个被动实例每天20小时无所事事。
我发现一对夫妇的帖子谈论使用Scrapy与EC2的:
- http://seminar.io/2013/03/26/running-scrapy-on-amazon-ec2/
- http://bgrva.github.io/blog/2014/04/13/deploy-crawler-to-ec2-with-scrapyd/
- http://www.dataisbeautiful.io/installing-scrapy-and-scrapyd-on-amazon-ec2/
但他们都似乎需要您推出该脚本每次您想要安排抓取时,请从您的本地计算机上下载。它似乎不会自动完成。我希望我的脚本每年365天运行10年以上,而且我不想每晚睡觉前都做这个脚本。
有人可以描述这是如何使用亚马逊网络服务完成的吗?